Статьи по тематике apache-spark [session, apache-spark, dataframe, apache-spark-sql, amazon-web-services]

Вопросы по теме 'apache-spark'

Spark: как создать идентификатор сеанса на основе идентификатора пользователя и отметки времени

Извините за вопрос новичка. В настоящее время у меня есть файлы журналов, которые содержат такие поля, как: userId, event и timestamp, но не имеют идентификатора sessionId. Моя цель — создать sessionId для каждой записи на основе метки времени и...

session apache-spark dataframe

24.05.2024

Добавьте столбец в Spark DataFrame и вычислите для него значение.

У меня есть CSV-документ, который я загружаю в SQLContext, содержащий столбцы широты и долготы. val sqlContext = new org.apache.spark.sql.SQLContext(sc); val df = sqlContext.read.format("com.databricks.spark.csv").option("header",...

apache-spark apache-spark-sql

26.04.2024

Spark: исключение в потоке dag-scheduler-event-loop java.lang.OutOfMemoryError: пространство кучи Java

Использование spark-1.6.0-bin-hadoop2.6 Согласно http://spark.apache.org/docs/latest/configuration.html Я могу установить размер кучи с помощью spark.executor.memory , который равен --executor-memory из spark-submit. При выполнении моей...

amazon-web-services amazon-ec2 apache-spark

20.03.2024

Автономный кластер Spark

У меня есть искровой автономный кластер. Кластер состоит из 2 рабочих и 1 мастер узлов. Когда я запускаю программу на главном узле, задания назначаются только одному рабочему. Другой работник не может что-то сделать. На картинке появляются...

apache-spark scala apache-spark-standalone

29.04.2024

Как удалить файлы в каталоге hdfs после его чтения с помощью scala?

Я использую fileStream для чтения файлов в каталоге hdfs из Spark (контекст потоковой передачи). Если мой Spark выключится и запустится через некоторое время, я хотел бы прочитать новые файлы в каталоге. Я не хочу читать старые файлы в каталоге,...

apache-spark hadoop spark-streaming scala

20.04.2024

Запрос Hive не работает в Spark, но работает в Beeline Hive

Я пытаюсь создать таблицу кустов из искры, используя HiveContext следующим образом. hiveContext.sql("create table db1.table1 as select A.* from db1.table 2 A left join db2.table1 B on A.col1 = B.col1 and A.col2 = B.col2 where B.col9 = 1") Но...

apache-spark apache-spark-sql hive beeline

15.04.2024

вычислить расстояние для столбцов фрейма данных из списка python

У меня есть датафрейм data=sqlContext.createDataFrame([[33.603699,-83.967819[43.609422,-84.188726],[40.751800537,-74.066200256]],['a','b']) и у меня есть список пар широта/долгота. Для каждой пары широта/долгота в данных я хочу вычислить...

apache-spark pyspark

13.03.2024

Использование LSH в искре для запуска запроса ближайших соседей в каждой точке фрейма данных

Мне нужно k ближайших соседей для каждого вектора признаков в кадре данных. Я использую BucketedRandomProjectionLSHModel из pyspark. код для создания модели brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345,...

apache-spark pyspark apache-spark-mllib pyspark-sql

02.06.2024

Spark с использованием разделения cassandra с Java API

У меня есть следующая таблица: CREATE TABLE attribute ( pid text, partner_id int, key int, value int, PRIMARY KEY (pid, partner_id, key) ) Я пытаюсь ввести свой RDD с помощью «pid», который является ключом раздела....

java cassandra apache-spark connector partitioning

31.03.2024

Pyspark Jupyter - кадр данных, созданный в коде Java и коде Python

У меня есть класс в java, который создает сложный DataFrame Spark. package companyX; class DFBuilder { public DataFrame build() { ... return dataframe; } } Я добавляю этот класс в путь к классам pyspark/jupiter, чтобы его...

jupyter-notebook apache-spark pyspark py4j

11.03.2024

Поэтапная загрузка данных из СУБД и запись в Parquet

Я пытаюсь реализовать конвейер для чтения данных из источника данных РСУБД, разделения чтения на поле datetime и сохранения хранения этих данных с разделением на паркет. Конвейер предназначен для запуска еженедельно, при каждом запуске просто...

apache-spark apache-spark-sql scala

03.04.2024

Spark SQL — regexp_replace не обновляет значение столбца

Я выполнил следующий запрос в Hive, и он успешно обновил значение столбца в таблице: select id, regexp_replace(full_name,'A','C') from table Но когда я выполнил тот же запрос из Spark SQL, он не обновил фактические записи....

apache-spark dataframe scala hive spark-dataframe

18.05.2024

Как найти RDD с наименьшим расстоянием

Я создал RDD такого типа: RDD[(Long, Iterable[(String, Double)])] Здесь первый длинный параметр — это идентификатор исходной точки на карте, второй параметр String — это идентификатор другой точки, представленной в формате String из одного...

apache-spark scala rdd analysis

24.03.2024

развернуть прогнозирование с автономным кластером искры

В качестве теста я использую официальную рекомендацию . Я сделал эти шаги успешно: сервер событий установлен в док-контейнере (успешно) config datadata, метаданные и все остальное хранится в mysql (успешно) обучить и развернуть сервер в...

apache-spark predictionio

29.04.2024

PySpark - Как транспонировать фрейм данных

Я хочу транспонировать фрейм данных. Это всего лишь небольшая выдержка из моего исходного фрейма данных - from pyspark.sql.functions import to_timestamp, date_format valuesCol = [('22','ABC Ltd','U.K.','class 1',102),('22','ABC...

python apache-spark pyspark dataframe transpose

08.03.2024

Не удается разрешить заданные входные столбцы, пока sql на кадре данных

Платформа: IntelliJ Edition 2018.2.4 (Community Edition) SDK: 1.8.0_144 ОС: Виндовс 7 Как будущий выпускник, я выполняю свою первую миссию по работе с большими данными и столкнулся с проблемой: Код //Loading my csv file here val df...

apache-spark scala

01.05.2024

Режим вывода Append не поддерживается, если есть потоковые агрегации в потоковых кадрах данных/наборах данных без водяных знаков.

У меня есть поток кафки, который я загружаю в Spark. Сообщения из топика Kafka имеют следующие атрибуты: bl_iban , blacklisted , timestamp . Итак, есть IBANS, флаг о том, находится ли этот IBAN в черном списке (Y/N), а также есть временная метка...

java apache-spark spark-structured-streaming spark-streaming

10.04.2024

Объединение строк в периоды времени в pyspark

У нас есть двоичные данные датчика, где каждое событие (строка) сигнализирует о том, что что-то происходит, и каждое событие имеет временную метку «от» и «до». Датчик (или, скорее, то, что он измеряет) включен в промежутке времени между «от» и «до» и...

apache-spark pyspark apache-spark-sql

11.04.2024

Новые материалы

Угловая структура архитектуры

Обратите внимание, что эта статья устарела, я решил создать новую с лучшей структурой и с учетом автономных компонентов: https://medium.com/@marekpanti/angular-standalone-architecture-b645edd0d54a..

«Данные, которые большинство людей используют для обучения своих моделей искусственного интеллекта, поставляются со встроенным…

Первоначально опубликовано HalkTalks: https://hacktown.com.br/blog/blog/os-dados-que-a-maioria-das-pessoas-usa-para-treinar-seus-modelos-de-inteligencia-artificial- ja-vem-com-um-vies-embutido/..

Сильный ИИ против слабого ИИ: различия парадигм искусственного интеллекта

В последние годы изучению и развитию искусственного интеллекта (ИИ) уделяется большое внимание и прогресс. Сильный ИИ и Слабый ИИ — две основные парадигмы в области искусственного интеллекта...

Правильный способ добавить Firebase в ваш проект React с помощью React Hooks

React + Firebase - это мощная комбинация для быстрого и безопасного создания приложений, от проверки концепции до массового производства. Раньше (знаете, несколько месяцев назад) добавление..

Создайте API с помощью Python FastAPI

Создание API с помощью Python становится очень простым при использовании пакета FastAPI. После установки и импорта вы можете создать приложение FastAPI и указать несколько конечных точек. Каждой..

Веселье с прокси-сервером JavaScript

Прокси-серверы JavaScript — это чистый сахар, если вы хотите создать некоторую общую логику в своих приложениях, чтобы облегчить себе жизнь. Вот один пример: Связь клиент-сервер Мы..

Получить бесплатный хостинг для разработчиков | Разместите свой сайт за несколько шагов 🔥

Статические веб-сайты — это веб-страницы с фиксированным содержанием и его постоянным содержанием. Но теперь статические сайты также обрабатывают динамические данные с помощью API и запросов...

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Typescript Front End Development Java NLP Computer Science Tech Data CSS Algorithms Development Productivity ChatGPT Programming Languages HTML Neural Networks Tutorial Angular Reactjs Javascript Tips Mathematics API Startup Javascript Development AWS Csharp

Вопросы по теме 'apache-spark'

Новые материалы

Теги