Squeak.ru - шаблоны программирования

Вопросы по теме 'apache-spark'

Spark: как создать идентификатор сеанса на основе идентификатора пользователя и отметки времени
Извините за вопрос новичка. В настоящее время у меня есть файлы журналов, которые содержат такие поля, как: userId, event и timestamp, но не имеют идентификатора sessionId. Моя цель — создать sessionId для каждой записи на основе метки времени и...

Добавьте столбец в Spark DataFrame и вычислите для него значение.
У меня есть CSV-документ, который я загружаю в SQLContext, содержащий столбцы широты и долготы. val sqlContext = new org.apache.spark.sql.SQLContext(sc); val df = sqlContext.read.format("com.databricks.spark.csv").option("header",...

Spark: исключение в потоке dag-scheduler-event-loop java.lang.OutOfMemoryError: пространство кучи Java
Использование spark-1.6.0-bin-hadoop2.6 Согласно http://spark.apache.org/docs/latest/configuration.html Я могу установить размер кучи с помощью spark.executor.memory , который равен --executor-memory из spark-submit. При выполнении моей...

Автономный кластер Spark
У меня есть искровой автономный кластер. Кластер состоит из 2 рабочих и 1 мастер узлов. Когда я запускаю программу на главном узле, задания назначаются только одному рабочему. Другой работник не может что-то сделать. На картинке появляются...

Как удалить файлы в каталоге hdfs после его чтения с помощью scala?
Я использую fileStream для чтения файлов в каталоге hdfs из Spark (контекст потоковой передачи). Если мой Spark выключится и запустится через некоторое время, я хотел бы прочитать новые файлы в каталоге. Я не хочу читать старые файлы в каталоге,...

Запрос Hive не работает в Spark, но работает в Beeline Hive
Я пытаюсь создать таблицу кустов из искры, используя HiveContext следующим образом. hiveContext.sql("create table db1.table1 as select A.* from db1.table 2 A left join db2.table1 B on A.col1 = B.col1 and A.col2 = B.col2 where B.col9 = 1") Но...

вычислить расстояние для столбцов фрейма данных из списка python
У меня есть датафрейм data=sqlContext.createDataFrame([[33.603699,-83.967819[43.609422,-84.188726],[40.751800537,-74.066200256]],['a','b']) и у меня есть список пар широта/долгота. Для каждой пары широта/долгота в данных я хочу вычислить...
13.03.2024

Использование LSH в искре для запуска запроса ближайших соседей в каждой точке фрейма данных
Мне нужно k ближайших соседей для каждого вектора признаков в кадре данных. Я использую BucketedRandomProjectionLSHModel из pyspark. код для создания модели brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345,...

Spark с использованием разделения cassandra с Java API
У меня есть следующая таблица: CREATE TABLE attribute ( pid text, partner_id int, key int, value int, PRIMARY KEY (pid, partner_id, key) ) Я пытаюсь ввести свой RDD с помощью «pid», который является ключом раздела....

Pyspark Jupyter - кадр данных, созданный в коде Java и коде Python
У меня есть класс в java, который создает сложный DataFrame Spark. package companyX; class DFBuilder { public DataFrame build() { ... return dataframe; } } Я добавляю этот класс в путь к классам pyspark/jupiter, чтобы его...

Поэтапная загрузка данных из СУБД и запись в Parquet
Я пытаюсь реализовать конвейер для чтения данных из источника данных РСУБД, разделения чтения на поле datetime и сохранения хранения этих данных с разделением на паркет. Конвейер предназначен для запуска еженедельно, при каждом запуске просто...

Spark SQL — regexp_replace не обновляет значение столбца
Я выполнил следующий запрос в Hive, и он успешно обновил значение столбца в таблице: select id, regexp_replace(full_name,'A','C') from table Но когда я выполнил тот же запрос из Spark SQL, он не обновил фактические записи....

Как найти RDD с наименьшим расстоянием
Я создал RDD такого типа: RDD[(Long, Iterable[(String, Double)])] Здесь первый длинный параметр — это идентификатор исходной точки на карте, второй параметр String — это идентификатор другой точки, представленной в формате String из одного...

развернуть прогнозирование с автономным кластером искры
В качестве теста я использую официальную рекомендацию . Я сделал эти шаги успешно: сервер событий установлен в док-контейнере (успешно) config datadata, метаданные и все остальное хранится в mysql (успешно) обучить и развернуть сервер в...

PySpark - Как транспонировать фрейм данных
Я хочу транспонировать фрейм данных. Это всего лишь небольшая выдержка из моего исходного фрейма данных - from pyspark.sql.functions import to_timestamp, date_format valuesCol = [('22','ABC Ltd','U.K.','class 1',102),('22','ABC...

Не удается разрешить заданные входные столбцы, пока sql на кадре данных
Платформа: IntelliJ Edition 2018.2.4 (Community Edition) SDK: 1.8.0_144 ОС: Виндовс 7 Как будущий выпускник, я выполняю свою первую миссию по работе с большими данными и столкнулся с проблемой: Код //Loading my csv file here val df...
01.05.2024

Режим вывода Append не поддерживается, если есть потоковые агрегации в потоковых кадрах данных/наборах данных без водяных знаков.
У меня есть поток кафки, который я загружаю в Spark. Сообщения из топика Kafka имеют следующие атрибуты: bl_iban , blacklisted , timestamp . Итак, есть IBANS, флаг о том, находится ли этот IBAN в черном списке (Y/N), а также есть временная метка...

Объединение строк в периоды времени в pyspark
У нас есть двоичные данные датчика, где каждое событие (строка) сигнализирует о том, что что-то происходит, и каждое событие имеет временную метку «от» и «до». Датчик (или, скорее, то, что он измеряет) включен в промежутке времени между «от» и «до» и...

Новые материалы

Угловая структура архитектуры
Обратите внимание, что эта статья устарела, я решил создать новую с лучшей структурой и с учетом автономных компонентов: https://medium.com/@marekpanti/angular-standalone-architecture-b645edd0d54a..

«Данные, которые большинство людей используют для обучения своих моделей искусственного интеллекта, поставляются со встроенным…
Первоначально опубликовано HalkTalks: https://hacktown.com.br/blog/blog/os-dados-que-a-maioria-das-pessoas-usa-para-treinar-seus-modelos-de-inteligencia-artificial- ja-vem-com-um-vies-embutido/..

Сильный ИИ против слабого ИИ: различия парадигм искусственного интеллекта
В последние годы изучению и развитию искусственного интеллекта (ИИ) уделяется большое внимание и прогресс. Сильный ИИ и Слабый ИИ — две основные парадигмы в области искусственного интеллекта...

Правильный способ добавить Firebase в ваш проект React с помощью React Hooks
React + Firebase - это мощная комбинация для быстрого и безопасного создания приложений, от проверки концепции до массового производства. Раньше (знаете, несколько месяцев назад) добавление..

Создайте API с помощью Python FastAPI
Создание API с помощью Python становится очень простым при использовании пакета FastAPI. После установки и импорта вы можете создать приложение FastAPI и указать несколько конечных точек. Каждой..

Веселье с прокси-сервером JavaScript
Прокси-серверы JavaScript — это чистый сахар, если вы хотите создать некоторую общую логику в своих приложениях, чтобы облегчить себе жизнь. Вот один пример: Связь клиент-сервер Мы..

Получить бесплатный хостинг для разработчиков | Разместите свой сайт за несколько шагов 🔥
Статические веб-сайты — это веб-страницы с фиксированным содержанием и его постоянным содержанием. Но теперь статические сайты также обрабатывают динамические данные с помощью API и запросов...