Squeak.ru - шаблоны программирования

Использование elasticsearch-river-mysql для потоковой передачи данных из базы данных MySQL в Elasticsearch

Я хочу использовать elasticsearch-river-mysql для непрерывной передачи данных из базы данных MySQL в Эластичный поиск. Я новичок в ES и риверах, поэтому надеюсь, что вы поможете мне с моими вопросами.

  1. Насколько я знаю, данные будут передаваться из базы данных MySQL в кластер ES, который будет автоматически их индексировать. Это правильно? Существуют ли какие-либо тайм-ауты или ограничения, о которых я должен знать?
  2. Как отношения внешнего ключа между таблицами реляционной базы данных будут переведены в ES? Станет ли строка таблицы, содержащая внешний ключ, внутренним объектом для документа ЭП или будет использоваться какая-то другая связь между документами ЭП?
  3. Есть ли недостатки в использовании этой реки для указанной выше цели?
  4. Какая будет нагрузка на ES при реализации этого? Я предполагаю, что ES достаточно мощный, но все же мне было интересно. Повлияет ли этот сценарий каким-либо образом на поиски, выполненные в кластере ES?
14.05.2014

  • Сколько записей у вас есть в базе данных MySQL? 15.05.2014
  • Мой совет уже состоит в том, чтобы попытаться использовать elasticsearch-jdbc-river по многим причинам. Один из них заключается в том, что elasticsearch-jbdc-river является более универсальным на случай, если вы решите сменить СУБД, а другой заключается в том, что jbdc-river все еще поддерживается, когда другого не было с 2 лет, а Elasticsearch сильно развился. поскольку 15.05.2014
  • Вот некоторые статистические данные о нашей базе данных: общее количество записей 919161598, общее количество таблиц 314, общий размер 258,5 ГБ, самая большая таблица содержит 121942658 записей и имеет размер 25 ГБ. Итак, одна действительно огромная база данных. У нас есть много продаж, которые постоянно добавляют новые данные в базу данных (не считая новых добавленных функций в систему). Прирост базы составляет ~10 ГБ в месяц. Вы можете понять, почему мы начинаем испытывать некоторые проблемы с производительностью при выполнении тяжелых и сложных запросов (особенно для отчетов). 15.05.2014
  • @eliasah спасибо за совет. Поддерживает ли elasticsearch-jdbc-river поток репликации MySQL? 15.05.2014
  • Я не уверен в том, что вы подразумеваете под потоком репликации MySQL. 15.05.2014
  • Задумывались ли вы о масштабировании или использовании Hadoop для обработки ваших данных? 15.05.2014
  • Про хауоп — нет, про масштабирование — да. Что мы хотим сделать, так это разделить нашу систему на несколько небольших систем. Итак, мы хотим сделать это и с базой данных. Каждая система будет иметь небольшую и управляемую базу данных. Но эта разлука займет два-три года. 15.05.2014
  • Если вы помещаете объем данных в свой кластер ES, вы должны внимательно относиться к тому, как вы используете шардинг и реплики. 15.05.2014

Ответы:


1

Мой совет уже состоит в том, чтобы попытаться использовать elasticsearch-jdbc-river по многим причинам.

Один из них заключается в том, что elasticsearch-jbdc-river является более общим, если вы решите переключиться на RDBMS.

Другой заключается в том, что jbdc-river все еще поддерживается, тогда как другого не было уже 2 года, и с тех пор Elasticsearch сильно развился.

<сильный>1. Насколько я знаю, данные будут передаваться из базы данных MySQL в кластер ES, который будет автоматически их индексировать. Это правильно? Есть ли какие-либо тайм-ауты или ограничения, о которых я должен знать?

Данные из MySQL должны автоматически передаваться из MySQL в кластер Elasticsearch без ограничения времени ожидания, но узким местом будет размер кучи JVM. Я не уверен, сколько вам нужно для обработки того объема данных, который у вас есть. Вы должны проверить это.

<сильный>2. Как отношения внешнего ключа между таблицами реляционной базы данных будут переведены в ES? Станет ли строка таблицы, содержащая внешний ключ, внутренним объектом для документа ES или будет использоваться какая-то другая связь между документами ES?

Elasticsearch не имеет схемы, поэтому вам нужно управлять Elasticsearch изнутри. Река просто передает данные в ваш кластер. Вы можете определить свое сопоставление при создании индекса, а затем использовать реку для его потоковой передачи в кластер ES.

<сильный>3. Есть ли недостатки в использовании этой реки для указанной выше цели?

Река будет заменена другим более чистым способом передачи этих данных, но это лучшее решение, которое у вас есть на данный момент.

15.05.2014
  • Какие альтернативы/более чистые способы существуют в разработке? Похоже, что эта река все еще активно поддерживается и останется, верно? 17.02.2015
  • Я думаю о Логсташе, может быть. Я не уверен. Я еще не пробовал такой подход. Но я думаю, что вы могли бы использовать Logstash для перенаправления потока данных из вашей базы данных в кластер elasticsearch. 17.02.2015
  • Новые материалы

    Угловая структура архитектуры
    Обратите внимание, что эта статья устарела, я решил создать новую с лучшей структурой и с учетом автономных компонентов: https://medium.com/@marekpanti/angular-standalone-architecture-b645edd0d54a..

    «Данные, которые большинство людей используют для обучения своих моделей искусственного интеллекта, поставляются со встроенным…
    Первоначально опубликовано HalkTalks: https://hacktown.com.br/blog/blog/os-dados-que-a-maioria-das-pessoas-usa-para-treinar-seus-modelos-de-inteligencia-artificial- ja-vem-com-um-vies-embutido/..

    Сильный ИИ против слабого ИИ: различия парадигм искусственного интеллекта
    В последние годы изучению и развитию искусственного интеллекта (ИИ) уделяется большое внимание и прогресс. Сильный ИИ и Слабый ИИ — две основные парадигмы в области искусственного интеллекта...

    Правильный способ добавить Firebase в ваш проект React с помощью React Hooks
    React + Firebase - это мощная комбинация для быстрого и безопасного создания приложений, от проверки концепции до массового производства. Раньше (знаете, несколько месяцев назад) добавление..

    Создайте API с помощью Python FastAPI
    Создание API с помощью Python становится очень простым при использовании пакета FastAPI. После установки и импорта вы можете создать приложение FastAPI и указать несколько конечных точек. Каждой..

    Веселье с прокси-сервером JavaScript
    Прокси-серверы JavaScript — это чистый сахар, если вы хотите создать некоторую общую логику в своих приложениях, чтобы облегчить себе жизнь. Вот один пример: Связь клиент-сервер Мы..

    Получить бесплатный хостинг для разработчиков | Разместите свой сайт за несколько шагов 🔥
    Статические веб-сайты — это веб-страницы с фиксированным содержанием и его постоянным содержанием. Но теперь статические сайты также обрабатывают динамические данные с помощью API и запросов...