Платформа KNIME Analytics: машинное обучение стало проще

НАЧАЛО РАБОТЫ | МАШИНОСТРОЕНИЕ | ПЛАТФОРМА KNIME ANALYTICS

Платформа KNIME Analytics: машинное обучение стало проще

Новая эра Low Code No Code (LCNC)!

Вступление

В этой статье мы поговорим о программном обеспечении с открытым исходным кодом, которое нацелено на то, чтобы помочь специалистам по обработке данных и энтузиастам науки о данных решать сложные проблемы с небольшими знаниями в области кодирования или вообще без них. В этой статье я познакомлю вас с одним из таких инструментов на основе графического интерфейса - KNIME Analytics Platform. Прежде чем мы начнем, если вы не знакомы с основами KNIME и тем, как его загрузить, вы можете найти дополнительную информацию здесь.

Науки о данных изобилует. Он рассматривает различные области мира данных, включая их подготовку, очистку, моделирование и многое другое. К концу этой статьи вы сможете прогнозировать цены на аренду Airbnb в Нью-Йорке, не написав ни единой строчки кода! Вы можете найти описание набора данных и скачать его здесь. Также вы можете импортировать рабочие процессы, наборы данных, узлы, компоненты и многое другое из KNIME Hub.

Как настроить новый проект в KNIME

Прежде чем мы углубимся в то, как работает KNIME, давайте определим несколько ключевых терминов, которые помогут нам в нашем понимании, а затем давайте посмотрим, как мы можем открыть новый проект в KNIME.

Узел. Узел - это базовый блок обработки, который выполняет все виды задач с данными в зависимости от того, что вы выбираете в диалоговом окне конфигурации.

Рабочий процесс. Рабочий процесс - это последовательность узлов, которые моделируют поток данных и позволяют создавать и развертывать проект по науке о данных.

Так выглядит главная вкладка KNIME Analytics Platform.

Workflow Coach в левом верхнем углу объединяет механизм рекомендаций по узлам, который показывает, какой узел с большей вероятностью последует за вашим текущим, на основе статистики использования, полученной от сообщества KNIME. Репозиторий узлов отображает все узлы, доступные в вашей текущей настройке KNIME Analytics Platform. Вы также можете просмотреть сервер примеров в KNIME Explorer, чтобы узнать о других рабочих процессах после того, как вы создали свой первый. Это первый шаг к решению любой проблемы.

Чтобы настроить рабочий процесс, выполните следующие действия.

Шаг 1: Перейдите в меню «Файл», нажмите «Создать» и дайте своему рабочему процессу имя, например «ML_project». Также вы можете указать место назначения нового рабочего процесса.

Шаг 2: Теперь, когда вы нажимаете «Готово», вы должны успешно создать свой первый (пустой) рабочий процесс KNIME.

Это ваш пустой редактор рабочего процесса на платформе KNIME Analytics. Теперь вы готовы исследовать и решать проблемы, перетаскивая узлы из репозитория узлов в редактор рабочего процесса.

1. Импорт файлов данных

Давайте начнем с первого, но очень важного шага в решении проблемы науки о данных: импорта данных.

Перейдите в репозиторий узлов, перетащите узел File Reader в редактор рабочего процесса и дважды щелкните его. Затем просмотрите файл, который необходимо импортировать в рабочий процесс.

В этой статье мы будем прогнозировать цены на аренду NYC Airbnb. Следовательно, я импортирую набор данных NYC Airbnb Rental.

Так выглядит превью. Выбрав набор данных, нажмите OK и выполните узел.

2. Как вы очищаете свои данные?

Другие шаги, которые вы можете включить в свой подход перед обучением модели, - это очистка данных и извлечение функций. Вы можете вменять отсутствующие значения с помощью узла Отсутствующие значения, но KNIME также предоставляет компонент для Интерактивной очистки данных.

2.1 Поиск недостающих значений и условных обозначений

Прежде чем мы будем вменять значения, нам нужно знать, какие из них отсутствуют. Мы можем визуально проверить это, открыв выходную таблицу, созданную узлом File Reader. В KNIME отсутствующие значения представлены красными вопросительными знаками.

Чтобы вменять отсутствующие значения, снова перейдите в репозиторий узлов и найдите узел Отсутствующие значения. Перетащите его и подключите выходной порт узла File Reader к входному порту узла Missing Value. Чтобы настроить его, выберите соответствующий метод вменения, который вы хотите применить к своим данным, в зависимости от типа данных, а затем нажмите OK.

Теперь, когда мы его выполняем, наш полный набор данных с вмененными значениями готов в выходном порту узла Отсутствующее значение. Для своего анализа я выбрал методы вменения, которые вы видите выше, но вы можете выбирать из множества методов вменения.

2.2 Интерактивная очистка данных

Этот компонент KNIME позволяет интерактивно применять различные шаги по очистке данных. В конфигурациях по умолчанию выполняется очистка отсутствующих значений и обработка выбросов. Вы можете напрямую перетащить этот компонент из KNIME Hub.

Доступные этапы предварительной обработки:

Автоматическое угадывание типа: определите наиболее конкретный тип в каждом строковом столбце и соответствующим образом измените типы столбцов.
Обработка пропущенных значений: отдельные конфигурации для пропущенных значений в строковых и числовых столбцах.
Удаление выбросов: настройка обработки выбросов.
Удаление дубликатов: какие столбцы использовать для выявления дубликатов и как их лечить.

После импорта этого компонента KNIME в рабочий процесс запустите его и щелкните правой кнопкой мыши, чтобы открыть интерактивное представление.

Используя компонент «Интерактивная очистка данных», вы можете выполнять различные задачи, такие как удаление и вменение пропущенных значений, переименование и фильтрация столбцов, или вы можете интерактивно исследовать свои данные.

3. Моделирование машинного обучения в KNIME.

Давайте посмотрим, как мы построим модель машинного обучения в KNIME. После очистки данных, предварительной обработки и извлечения признаков мы знаем, что для моделирования сначала нам нужно разделить наши данные. Перейдите в репозиторий узлов и выберите узел Разделение.

3.1 Разбиение на разделы

В диалоговом окне конфигурации узла Разделение мы должны указать размер первого раздела , затем щелкнуть OK и выполнить узел. Вы можете выбрать одну из множества техник разделения.

3.2 Реализация модели случайного леса

Снова перейдите в репозиторий узлов и найдите узел Обучающийся случайный лес (регрессия) и Предиктор случайного леса (регрессия). Перетащите их и подключите выход нашего узла Partitioning, как показано ниже.

В диалоговом окне конфигурации узла Обучающийся случайный лес (регрессия) мы должны указать целевой столбец - в нашем случае столбец Цена, выберите, какие функции мы хотим включить. , а затем нажимаем ОК и выполняем узел.

В конфигурации узла Предиктор случайного леса (регрессия) вы можете изменить имя столбца прогнозирования, нажать OK и выполнить узел. Чтобы проверить прогнозы, щелкните узел правой кнопкой мыши и выберите Вывод прогноза.

3.3 Оценка модели

Перейдите в репозиторий узлов и перетащите узел Numeric Scorer. Вы также можете использовать различные методы для оценки вашей модели, и для этого вы можете найти разные узлы в репозитории узлов. Щелкнув правой кнопкой мыши узел Numeric Scorer и выбрав Статистика, вы можете найти значения R² и ошибок.

На рисунке выше вы можете увидеть обзор созданного нами рабочего процесса: импорт данных, очистка и предварительная обработка, секционирование, обучение модели случайного леса и ее оценка.

Рабочие процессы KNIME очень удобны, когда дело доходит до переносимости. Их можно отправить вашим друзьям или коллегам для совместной работы над проектом по науке о данных, добавив функциональности вашему анализу!

Чтобы экспортировать рабочий процесс KNIME, вы можете просто нажать Файл - ›Экспорт рабочего процесса KNIME. После этого выберите подходящий рабочий процесс, который нужно экспортировать, и нажмите Готово! Это создаст файл .knwf, который вы можете отправить кому угодно, и они смогут получить к нему доступ одним щелчком мыши!

Заключение

KNIME - это платформа, которую можно использовать практически для любого вида анализа. В этой статье мы узнали, как импортировать набор данных, очистить его и извлечь из него важные функции. Также было показано прогностическое моделирование с использованием предсказателя случайного леса для оценки стоимости аренды. Мы также проиллюстрировали, как вы можете оценить свой предсказатель, получив значения R² и ошибки. Наконец, мы описали, как мы можем поделиться своей работой с другими.

Я надеюсь, что это руководство помогло вам раскрыть аспекты платформы KNIME Analytics, которые вы могли упустить из виду раньше. В будущем я буду публиковать больше статей о KNIME и Data Science.

Просто попробуйте это и свяжитесь со мной, если у вас возникнут вопросы:

Вы можете написать мне в Linkedin.

А до тех пор Счастливого КНИМА !!

смотрите также:

Новые материалы

Угловая структура архитектуры

Обратите внимание, что эта статья устарела, я решил создать новую с лучшей структурой и с учетом автономных компонентов: https://medium.com/@marekpanti/angular-standalone-architecture-b645edd0d54a..

«Данные, которые большинство людей используют для обучения своих моделей искусственного интеллекта, поставляются со встроенным…

Первоначально опубликовано HalkTalks: https://hacktown.com.br/blog/blog/os-dados-que-a-maioria-das-pessoas-usa-para-treinar-seus-modelos-de-inteligencia-artificial- ja-vem-com-um-vies-embutido/..

Сильный ИИ против слабого ИИ: различия парадигм искусственного интеллекта

В последние годы изучению и развитию искусственного интеллекта (ИИ) уделяется большое внимание и прогресс. Сильный ИИ и Слабый ИИ — две основные парадигмы в области искусственного интеллекта...

Правильный способ добавить Firebase в ваш проект React с помощью React Hooks

React + Firebase - это мощная комбинация для быстрого и безопасного создания приложений, от проверки концепции до массового производства. Раньше (знаете, несколько месяцев назад) добавление..

Создайте API с помощью Python FastAPI

Создание API с помощью Python становится очень простым при использовании пакета FastAPI. После установки и импорта вы можете создать приложение FastAPI и указать несколько конечных точек. Каждой..

Веселье с прокси-сервером JavaScript

Прокси-серверы JavaScript — это чистый сахар, если вы хотите создать некоторую общую логику в своих приложениях, чтобы облегчить себе жизнь. Вот один пример: Связь клиент-сервер Мы..

Получить бесплатный хостинг для разработчиков | Разместите свой сайт за несколько шагов 🔥

Статические веб-сайты — это веб-страницы с фиксированным содержанием и его постоянным содержанием. Но теперь статические сайты также обрабатывают динамические данные с помощью API и запросов...

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Typescript Front End Development Java NLP Computer Science Tech Data CSS Algorithms Development Productivity ChatGPT Programming Languages HTML Neural Networks Tutorial Angular Reactjs Javascript Tips Mathematics API Startup Javascript Development AWS Csharp

Платформа KNIME Analytics: машинное обучение стало проще

НАЧАЛО РАБОТЫ | МАШИНОСТРОЕНИЕ | ПЛАТФОРМА KNIME ANALYTICS