НАЧАЛО РАБОТЫ | МАШИНОСТРОЕНИЕ | ПЛАТФОРМА KNIME ANALYTICS
Платформа KNIME Analytics: машинное обучение стало проще
Новая эра Low Code No Code (LCNC)!
Вступление
В этой статье мы поговорим о программном обеспечении с открытым исходным кодом, которое нацелено на то, чтобы помочь специалистам по обработке данных и энтузиастам науки о данных решать сложные проблемы с небольшими знаниями в области кодирования или вообще без них. В этой статье я познакомлю вас с одним из таких инструментов на основе графического интерфейса - KNIME Analytics Platform. Прежде чем мы начнем, если вы не знакомы с основами KNIME и тем, как его загрузить, вы можете найти дополнительную информацию здесь.
Науки о данных изобилует. Он рассматривает различные области мира данных, включая их подготовку, очистку, моделирование и многое другое. К концу этой статьи вы сможете прогнозировать цены на аренду Airbnb в Нью-Йорке, не написав ни единой строчки кода! Вы можете найти описание набора данных и скачать его здесь. Также вы можете импортировать рабочие процессы, наборы данных, узлы, компоненты и многое другое из KNIME Hub.
Как настроить новый проект в KNIME
Прежде чем мы углубимся в то, как работает KNIME, давайте определим несколько ключевых терминов, которые помогут нам в нашем понимании, а затем давайте посмотрим, как мы можем открыть новый проект в KNIME.
Узел. Узел - это базовый блок обработки, который выполняет все виды задач с данными в зависимости от того, что вы выбираете в диалоговом окне конфигурации.
Рабочий процесс. Рабочий процесс - это последовательность узлов, которые моделируют поток данных и позволяют создавать и развертывать проект по науке о данных.
Так выглядит главная вкладка KNIME Analytics Platform.
Workflow Coach в левом верхнем углу объединяет механизм рекомендаций по узлам, который показывает, какой узел с большей вероятностью последует за вашим текущим, на основе статистики использования, полученной от сообщества KNIME. Репозиторий узлов отображает все узлы, доступные в вашей текущей настройке KNIME Analytics Platform. Вы также можете просмотреть сервер примеров в KNIME Explorer, чтобы узнать о других рабочих процессах после того, как вы создали свой первый. Это первый шаг к решению любой проблемы.
Чтобы настроить рабочий процесс, выполните следующие действия.
Шаг 1: Перейдите в меню «Файл», нажмите «Создать» и дайте своему рабочему процессу имя, например «ML_project». Также вы можете указать место назначения нового рабочего процесса.
Шаг 2: Теперь, когда вы нажимаете «Готово», вы должны успешно создать свой первый (пустой) рабочий процесс KNIME.
Это ваш пустой редактор рабочего процесса на платформе KNIME Analytics. Теперь вы готовы исследовать и решать проблемы, перетаскивая узлы из репозитория узлов в редактор рабочего процесса.
1. Импорт файлов данных
Давайте начнем с первого, но очень важного шага в решении проблемы науки о данных: импорта данных.
Перейдите в репозиторий узлов, перетащите узел File Reader в редактор рабочего процесса и дважды щелкните его. Затем просмотрите файл, который необходимо импортировать в рабочий процесс.
В этой статье мы будем прогнозировать цены на аренду NYC Airbnb. Следовательно, я импортирую набор данных NYC Airbnb Rental.
Так выглядит превью. Выбрав набор данных, нажмите OK и выполните узел.
2. Как вы очищаете свои данные?
Другие шаги, которые вы можете включить в свой подход перед обучением модели, - это очистка данных и извлечение функций. Вы можете вменять отсутствующие значения с помощью узла Отсутствующие значения, но KNIME также предоставляет компонент для Интерактивной очистки данных.
2.1 Поиск недостающих значений и условных обозначений
Прежде чем мы будем вменять значения, нам нужно знать, какие из них отсутствуют. Мы можем визуально проверить это, открыв выходную таблицу, созданную узлом File Reader. В KNIME отсутствующие значения представлены красными вопросительными знаками.
Чтобы вменять отсутствующие значения, снова перейдите в репозиторий узлов и найдите узел Отсутствующие значения. Перетащите его и подключите выходной порт узла File Reader к входному порту узла Missing Value. Чтобы настроить его, выберите соответствующий метод вменения, который вы хотите применить к своим данным, в зависимости от типа данных, а затем нажмите OK.
Теперь, когда мы его выполняем, наш полный набор данных с вмененными значениями готов в выходном порту узла Отсутствующее значение. Для своего анализа я выбрал методы вменения, которые вы видите выше, но вы можете выбирать из множества методов вменения.
2.2 Интерактивная очистка данных
Этот компонент KNIME позволяет интерактивно применять различные шаги по очистке данных. В конфигурациях по умолчанию выполняется очистка отсутствующих значений и обработка выбросов. Вы можете напрямую перетащить этот компонент из KNIME Hub.
Доступные этапы предварительной обработки:
- Автоматическое угадывание типа: определите наиболее конкретный тип в каждом строковом столбце и соответствующим образом измените типы столбцов.
- Обработка пропущенных значений: отдельные конфигурации для пропущенных значений в строковых и числовых столбцах.
- Удаление выбросов: настройка обработки выбросов.
- Удаление дубликатов: какие столбцы использовать для выявления дубликатов и как их лечить.
После импорта этого компонента KNIME в рабочий процесс запустите его и щелкните правой кнопкой мыши, чтобы открыть интерактивное представление.
Используя компонент «Интерактивная очистка данных», вы можете выполнять различные задачи, такие как удаление и вменение пропущенных значений, переименование и фильтрация столбцов, или вы можете интерактивно исследовать свои данные.
3. Моделирование машинного обучения в KNIME.
Давайте посмотрим, как мы построим модель машинного обучения в KNIME. После очистки данных, предварительной обработки и извлечения признаков мы знаем, что для моделирования сначала нам нужно разделить наши данные. Перейдите в репозиторий узлов и выберите узел Разделение.
3.1 Разбиение на разделы
В диалоговом окне конфигурации узла Разделение мы должны указать размер первого раздела , затем щелкнуть OK и выполнить узел. Вы можете выбрать одну из множества техник разделения.
3.2 Реализация модели случайного леса
Снова перейдите в репозиторий узлов и найдите узел Обучающийся случайный лес (регрессия) и Предиктор случайного леса (регрессия). Перетащите их и подключите выход нашего узла Partitioning, как показано ниже.
В диалоговом окне конфигурации узла Обучающийся случайный лес (регрессия) мы должны указать целевой столбец - в нашем случае столбец Цена, выберите, какие функции мы хотим включить. , а затем нажимаем ОК и выполняем узел.
В конфигурации узла Предиктор случайного леса (регрессия) вы можете изменить имя столбца прогнозирования, нажать OK и выполнить узел. Чтобы проверить прогнозы, щелкните узел правой кнопкой мыши и выберите Вывод прогноза.
3.3 Оценка модели
Перейдите в репозиторий узлов и перетащите узел Numeric Scorer. Вы также можете использовать различные методы для оценки вашей модели, и для этого вы можете найти разные узлы в репозитории узлов. Щелкнув правой кнопкой мыши узел Numeric Scorer и выбрав Статистика, вы можете найти значения R² и ошибок.
На рисунке выше вы можете увидеть обзор созданного нами рабочего процесса: импорт данных, очистка и предварительная обработка, секционирование, обучение модели случайного леса и ее оценка.
Рабочие процессы KNIME очень удобны, когда дело доходит до переносимости. Их можно отправить вашим друзьям или коллегам для совместной работы над проектом по науке о данных, добавив функциональности вашему анализу!
Чтобы экспортировать рабочий процесс KNIME, вы можете просто нажать Файл - ›Экспорт рабочего процесса KNIME. После этого выберите подходящий рабочий процесс, который нужно экспортировать, и нажмите Готово! Это создаст файл .knwf, который вы можете отправить кому угодно, и они смогут получить к нему доступ одним щелчком мыши!
Заключение
KNIME - это платформа, которую можно использовать практически для любого вида анализа. В этой статье мы узнали, как импортировать набор данных, очистить его и извлечь из него важные функции. Также было показано прогностическое моделирование с использованием предсказателя случайного леса для оценки стоимости аренды. Мы также проиллюстрировали, как вы можете оценить свой предсказатель, получив значения R² и ошибки. Наконец, мы описали, как мы можем поделиться своей работой с другими.
Я надеюсь, что это руководство помогло вам раскрыть аспекты платформы KNIME Analytics, которые вы могли упустить из виду раньше. В будущем я буду публиковать больше статей о KNIME и Data Science.
Просто попробуйте это и свяжитесь со мной, если у вас возникнут вопросы:
Вы можете написать мне в Linkedin.
А до тех пор Счастливого КНИМА !!