НАЧАЛО РАБОТЫ | МАШИНОСТРОЕНИЕ | ПЛАТФОРМА KNIME ANALYTICS

Платформа KNIME Analytics: машинное обучение стало проще

Новая эра Low Code No Code (LCNC)!

Вступление

В этой статье мы поговорим о программном обеспечении с открытым исходным кодом, которое нацелено на то, чтобы помочь специалистам по обработке данных и энтузиастам науки о данных решать сложные проблемы с небольшими знаниями в области кодирования или вообще без них. В этой статье я познакомлю вас с одним из таких инструментов на основе графического интерфейса - KNIME Analytics Platform. Прежде чем мы начнем, если вы не знакомы с основами KNIME и тем, как его загрузить, вы можете найти дополнительную информацию здесь.

Науки о данных изобилует. Он рассматривает различные области мира данных, включая их подготовку, очистку, моделирование и многое другое. К концу этой статьи вы сможете прогнозировать цены на аренду Airbnb в Нью-Йорке, не написав ни единой строчки кода! Вы можете найти описание набора данных и скачать его здесь. Также вы можете импортировать рабочие процессы, наборы данных, узлы, компоненты и многое другое из KNIME Hub.

Как настроить новый проект в KNIME

Прежде чем мы углубимся в то, как работает KNIME, давайте определим несколько ключевых терминов, которые помогут нам в нашем понимании, а затем давайте посмотрим, как мы можем открыть новый проект в KNIME.

Узел. Узел - это базовый блок обработки, который выполняет все виды задач с данными в зависимости от того, что вы выбираете в диалоговом окне конфигурации.

Рабочий процесс. Рабочий процесс - это последовательность узлов, которые моделируют поток данных и позволяют создавать и развертывать проект по науке о данных.

Так выглядит главная вкладка KNIME Analytics Platform.

Workflow Coach в левом верхнем углу объединяет механизм рекомендаций по узлам, который показывает, какой узел с большей вероятностью последует за вашим текущим, на основе статистики использования, полученной от сообщества KNIME. Репозиторий узлов отображает все узлы, доступные в вашей текущей настройке KNIME Analytics Platform. Вы также можете просмотреть сервер примеров в KNIME Explorer, чтобы узнать о других рабочих процессах после того, как вы создали свой первый. Это первый шаг к решению любой проблемы.

Чтобы настроить рабочий процесс, выполните следующие действия.

Шаг 1: Перейдите в меню «Файл», нажмите «Создать» и дайте своему рабочему процессу имя, например «ML_project». Также вы можете указать место назначения нового рабочего процесса.

Шаг 2: Теперь, когда вы нажимаете «Готово», вы должны успешно создать свой первый (пустой) рабочий процесс KNIME.

Это ваш пустой редактор рабочего процесса на платформе KNIME Analytics. Теперь вы готовы исследовать и решать проблемы, перетаскивая узлы из репозитория узлов в редактор рабочего процесса.

1. Импорт файлов данных

Давайте начнем с первого, но очень важного шага в решении проблемы науки о данных: импорта данных.

Перейдите в репозиторий узлов, перетащите узел File Reader в редактор рабочего процесса и дважды щелкните его. Затем просмотрите файл, который необходимо импортировать в рабочий процесс.

В этой статье мы будем прогнозировать цены на аренду NYC Airbnb. Следовательно, я импортирую набор данных NYC Airbnb Rental.

Так выглядит превью. Выбрав набор данных, нажмите OK и выполните узел.

2. Как вы очищаете свои данные?

Другие шаги, которые вы можете включить в свой подход перед обучением модели, - это очистка данных и извлечение функций. Вы можете вменять отсутствующие значения с помощью узла Отсутствующие значения, но KNIME также предоставляет компонент для Интерактивной очистки данных.

2.1 Поиск недостающих значений и условных обозначений

Прежде чем мы будем вменять значения, нам нужно знать, какие из них отсутствуют. Мы можем визуально проверить это, открыв выходную таблицу, созданную узлом File Reader. В KNIME отсутствующие значения представлены красными вопросительными знаками.

Чтобы вменять отсутствующие значения, снова перейдите в репозиторий узлов и найдите узел Отсутствующие значения. Перетащите его и подключите выходной порт узла File Reader к входному порту узла Missing Value. Чтобы настроить его, выберите соответствующий метод вменения, который вы хотите применить к своим данным, в зависимости от типа данных, а затем нажмите OK.

Теперь, когда мы его выполняем, наш полный набор данных с вмененными значениями готов в выходном порту узла Отсутствующее значение. Для своего анализа я выбрал методы вменения, которые вы видите выше, но вы можете выбирать из множества методов вменения.

2.2 Интерактивная очистка данных

Этот компонент KNIME позволяет интерактивно применять различные шаги по очистке данных. В конфигурациях по умолчанию выполняется очистка отсутствующих значений и обработка выбросов. Вы можете напрямую перетащить этот компонент из KNIME Hub.

Доступные этапы предварительной обработки:

  1. Автоматическое угадывание типа: определите наиболее конкретный тип в каждом строковом столбце и соответствующим образом измените типы столбцов.
  2. Обработка пропущенных значений: отдельные конфигурации для пропущенных значений в строковых и числовых столбцах.
  3. Удаление выбросов: настройка обработки выбросов.
  4. Удаление дубликатов: какие столбцы использовать для выявления дубликатов и как их лечить.

После импорта этого компонента KNIME в рабочий процесс запустите его и щелкните правой кнопкой мыши, чтобы открыть интерактивное представление.

Используя компонент «Интерактивная очистка данных», вы можете выполнять различные задачи, такие как удаление и вменение пропущенных значений, переименование и фильтрация столбцов, или вы можете интерактивно исследовать свои данные.

3. Моделирование машинного обучения в KNIME.

Давайте посмотрим, как мы построим модель машинного обучения в KNIME. После очистки данных, предварительной обработки и извлечения признаков мы знаем, что для моделирования сначала нам нужно разделить наши данные. Перейдите в репозиторий узлов и выберите узел Разделение.

3.1 Разбиение на разделы

В диалоговом окне конфигурации узла Разделение мы должны указать размер первого раздела , затем щелкнуть OK и выполнить узел. Вы можете выбрать одну из множества техник разделения.

3.2 Реализация модели случайного леса

Снова перейдите в репозиторий узлов и найдите узел Обучающийся случайный лес (регрессия) и Предиктор случайного леса (регрессия). Перетащите их и подключите выход нашего узла Partitioning, как показано ниже.

В диалоговом окне конфигурации узла Обучающийся случайный лес (регрессия) мы должны указать целевой столбец - в нашем случае столбец Цена, выберите, какие функции мы хотим включить. , а затем нажимаем ОК и выполняем узел.

В конфигурации узла Предиктор случайного леса (регрессия) вы можете изменить имя столбца прогнозирования, нажать OK и выполнить узел. Чтобы проверить прогнозы, щелкните узел правой кнопкой мыши и выберите Вывод прогноза.

3.3 Оценка модели

Перейдите в репозиторий узлов и перетащите узел Numeric Scorer. Вы также можете использовать различные методы для оценки вашей модели, и для этого вы можете найти разные узлы в репозитории узлов. Щелкнув правой кнопкой мыши узел Numeric Scorer и выбрав Статистика, вы можете найти значения R² и ошибок.

На рисунке выше вы можете увидеть обзор созданного нами рабочего процесса: импорт данных, очистка и предварительная обработка, секционирование, обучение модели случайного леса и ее оценка.

Рабочие процессы KNIME очень удобны, когда дело доходит до переносимости. Их можно отправить вашим друзьям или коллегам для совместной работы над проектом по науке о данных, добавив функциональности вашему анализу!

Чтобы экспортировать рабочий процесс KNIME, вы можете просто нажать Файл - ›Экспорт рабочего процесса KNIME. После этого выберите подходящий рабочий процесс, который нужно экспортировать, и нажмите Готово! Это создаст файл .knwf, который вы можете отправить кому угодно, и они смогут получить к нему доступ одним щелчком мыши!

Заключение

KNIME - это платформа, которую можно использовать практически для любого вида анализа. В этой статье мы узнали, как импортировать набор данных, очистить его и извлечь из него важные функции. Также было показано прогностическое моделирование с использованием предсказателя случайного леса для оценки стоимости аренды. Мы также проиллюстрировали, как вы можете оценить свой предсказатель, получив значения R² и ошибки. Наконец, мы описали, как мы можем поделиться своей работой с другими.

Я надеюсь, что это руководство помогло вам раскрыть аспекты платформы KNIME Analytics, которые вы могли упустить из виду раньше. В будущем я буду публиковать больше статей о KNIME и Data Science.

Просто попробуйте это и свяжитесь со мной, если у вас возникнут вопросы:

Вы можете написать мне в Linkedin.

А до тех пор Счастливого КНИМА !!