Вопросы по теме 'apache-spark'
Spark: как создать идентификатор сеанса на основе идентификатора пользователя и отметки времени
Извините за вопрос новичка.
В настоящее время у меня есть файлы журналов, которые содержат такие поля, как: userId, event и timestamp, но не имеют идентификатора sessionId. Моя цель — создать sessionId для каждой записи на основе метки времени и...
24.05.2024
Добавьте столбец в Spark DataFrame и вычислите для него значение.
У меня есть CSV-документ, который я загружаю в SQLContext, содержащий столбцы широты и долготы.
val sqlContext = new org.apache.spark.sql.SQLContext(sc);
val df = sqlContext.read.format("com.databricks.spark.csv").option("header",...
26.04.2024
Spark: исключение в потоке dag-scheduler-event-loop java.lang.OutOfMemoryError: пространство кучи Java
Использование spark-1.6.0-bin-hadoop2.6 Согласно http://spark.apache.org/docs/latest/configuration.html
Я могу установить размер кучи с помощью spark.executor.memory , который равен --executor-memory из spark-submit.
При выполнении моей...
20.03.2024
Автономный кластер Spark
У меня есть искровой автономный кластер. Кластер состоит из 2 рабочих и 1 мастер узлов. Когда я запускаю программу на главном узле, задания назначаются только одному рабочему. Другой работник не может что-то сделать.
На картинке появляются...
29.04.2024
Как удалить файлы в каталоге hdfs после его чтения с помощью scala?
Я использую fileStream для чтения файлов в каталоге hdfs из Spark (контекст потоковой передачи). Если мой Spark выключится и запустится через некоторое время, я хотел бы прочитать новые файлы в каталоге. Я не хочу читать старые файлы в каталоге,...
20.04.2024
Запрос Hive не работает в Spark, но работает в Beeline Hive
Я пытаюсь создать таблицу кустов из искры, используя HiveContext следующим образом.
hiveContext.sql("create table db1.table1 as select A.* from db1.table 2 A left join db2.table1 B on A.col1 = B.col1 and A.col2 = B.col2 where B.col9 = 1")
Но...
15.04.2024
вычислить расстояние для столбцов фрейма данных из списка python
У меня есть датафрейм
data=sqlContext.createDataFrame([[33.603699,-83.967819[43.609422,-84.188726],[40.751800537,-74.066200256]],['a','b'])
и у меня есть список пар широта/долгота. Для каждой пары широта/долгота в данных я хочу вычислить...
13.03.2024
Использование LSH в искре для запуска запроса ближайших соседей в каждой точке фрейма данных
Мне нужно k ближайших соседей для каждого вектора признаков в кадре данных. Я использую BucketedRandomProjectionLSHModel из pyspark.
код для создания модели
brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345,...
02.06.2024
Spark с использованием разделения cassandra с Java API
У меня есть следующая таблица:
CREATE TABLE attribute (
pid text,
partner_id int,
key int,
value int,
PRIMARY KEY (pid, partner_id, key)
)
Я пытаюсь ввести свой RDD с помощью «pid», который является ключом раздела....
31.03.2024
Pyspark Jupyter - кадр данных, созданный в коде Java и коде Python
У меня есть класс в java, который создает сложный DataFrame Spark.
package companyX;
class DFBuilder {
public DataFrame build() {
...
return dataframe;
}
}
Я добавляю этот класс в путь к классам pyspark/jupiter, чтобы его...
11.03.2024
Поэтапная загрузка данных из СУБД и запись в Parquet
Я пытаюсь реализовать конвейер для чтения данных из источника данных РСУБД, разделения чтения на поле datetime и сохранения хранения этих данных с разделением на паркет.
Конвейер предназначен для запуска еженедельно, при каждом запуске просто...
03.04.2024
Spark SQL — regexp_replace не обновляет значение столбца
Я выполнил следующий запрос в Hive, и он успешно обновил значение столбца в таблице: select id, regexp_replace(full_name,'A','C') from table
Но когда я выполнил тот же запрос из Spark SQL, он не обновил фактические записи....
18.05.2024
Как найти RDD с наименьшим расстоянием
Я создал RDD такого типа:
RDD[(Long, Iterable[(String, Double)])]
Здесь первый длинный параметр — это идентификатор исходной точки на карте, второй параметр String — это идентификатор другой точки, представленной в формате String из одного...
24.03.2024
развернуть прогнозирование с автономным кластером искры
В качестве теста я использую официальную рекомендацию . Я сделал эти шаги успешно:
сервер событий установлен в док-контейнере (успешно)
config datadata, метаданные и все остальное хранится в mysql (успешно)
обучить и развернуть сервер в...
29.04.2024
PySpark - Как транспонировать фрейм данных
Я хочу транспонировать фрейм данных. Это всего лишь небольшая выдержка из моего исходного фрейма данных -
from pyspark.sql.functions import to_timestamp, date_format
valuesCol = [('22','ABC Ltd','U.K.','class 1',102),('22','ABC...
08.03.2024
Не удается разрешить заданные входные столбцы, пока sql на кадре данных
Платформа: IntelliJ Edition 2018.2.4 (Community Edition)
SDK: 1.8.0_144
ОС: Виндовс 7
Как будущий выпускник, я выполняю свою первую миссию по работе с большими данными и столкнулся с проблемой:
Код
//Loading my csv file here
val df...
01.05.2024
Режим вывода Append не поддерживается, если есть потоковые агрегации в потоковых кадрах данных/наборах данных без водяных знаков.
У меня есть поток кафки, который я загружаю в Spark. Сообщения из топика Kafka имеют следующие атрибуты: bl_iban , blacklisted , timestamp . Итак, есть IBANS, флаг о том, находится ли этот IBAN в черном списке (Y/N), а также есть временная метка...
10.04.2024
Объединение строк в периоды времени в pyspark
У нас есть двоичные данные датчика, где каждое событие (строка) сигнализирует о том, что что-то происходит, и каждое событие имеет временную метку «от» и «до». Датчик (или, скорее, то, что он измеряет) включен в промежутке времени между «от» и «до» и...
11.04.2024
Новые материалы
Угловая структура архитектуры
Обратите внимание, что эта статья устарела, я решил создать новую с лучшей структурой и с учетом автономных компонентов: https://medium.com/@marekpanti/angular-standalone-architecture-b645edd0d54a..
«Данные, которые большинство людей используют для обучения своих моделей искусственного интеллекта, поставляются со встроенным…
Первоначально опубликовано HalkTalks: https://hacktown.com.br/blog/blog/os-dados-que-a-maioria-das-pessoas-usa-para-treinar-seus-modelos-de-inteligencia-artificial- ja-vem-com-um-vies-embutido/..
Сильный ИИ против слабого ИИ: различия парадигм искусственного интеллекта
В последние годы изучению и развитию искусственного интеллекта (ИИ) уделяется большое внимание и прогресс. Сильный ИИ и Слабый ИИ — две основные парадигмы в области искусственного интеллекта...
Правильный способ добавить Firebase в ваш проект React с помощью React Hooks
React + Firebase - это мощная комбинация для быстрого и безопасного создания приложений, от проверки концепции до массового производства. Раньше (знаете, несколько месяцев назад) добавление..
Создайте API с помощью Python FastAPI
Создание API с помощью Python становится очень простым при использовании пакета FastAPI. После установки и импорта вы можете создать приложение FastAPI и указать несколько конечных точек.
Каждой..
Веселье с прокси-сервером JavaScript
Прокси-серверы JavaScript — это чистый сахар, если вы хотите создать некоторую общую логику в своих приложениях, чтобы облегчить себе жизнь. Вот один пример:
Связь клиент-сервер
Мы..
Получить бесплатный хостинг для разработчиков | Разместите свой сайт за несколько шагов 🔥
Статические веб-сайты — это веб-страницы с фиксированным содержанием и его постоянным содержанием. Но теперь статические сайты также обрабатывают динамические данные с помощью API и запросов...