Автоматизация и искусственный интеллект могут применяться для создания инновационных продуктов, автоматизации процессов и улучшения качества обслуживания клиентов, часто путем прогнозирования. Эти прогнозы могут принести огромную пользу бизнесу, но предсказывать будущее очень сложно.

Компоненты задач автоматизации могут делать что-то относительно простое, например, использовать OCR (оптическое распознавание символов) для транскрипции в базу данных. Или они могут быть более сложными, такими как использование чат-ботов и прогнозов вашей модели для маршрутизации запросов клиентов в режиме реального времени.

Даже самые хорошо выполненные средства автоматизации и ИИ могут запутаться из-за исключений, пограничных случаев и необычных данных, и когда это происходит, человек должен быть вовлечен в обработку данных, модерацию ситуации или принятие решения.

Кроме того, модели машинного обучения будут давать прогнозы с разной степенью достоверности, часто выдавая так называемые оценки склонности. Вы можете уверенно действовать как при высоких, так и при низких оценках, но вам также приходится иметь дело с тем, что гость LinkedIn Live из CloudFactory Дин Эбботт любит называть мягкой серединой, когда оценки указывают на то, что возможен любой исход.

Соотношение 80/20 и люди в петле

Как и во многих других вещах в бизнесе, здесь применяется что-то вроде соотношения 80/20. То есть вы, вероятно, обнаружите, что можете автоматизировать около 80% процесса, но вам потребуется участие людей примерно в 20% времени.

Специалисты по обработке и анализу данных с энтузиазмом решают головоломки и получают удовольствие от своей работы. Имея «еще немного времени», они могут выяснить некоторые крайние случаи и повысить полноту модели.

Однако, чтобы раскрыть высочайший потенциал автоматизации и ИИ, вы должны стратегически применять людей наряду с автоматизацией и ИИ. Это лучший способ получить выгоду сейчас, одновременно улучшая модель. Эти люди, которых иногда называют «людьми в петле», должны хорошо понимать ваши правила и вашу область, но, что может показаться удивительным, они редко должны быть экспертами в предметной области.

В этой статье, первой в серии из трех, мы исследуем, как вы можете сделать стратегический выбор в отношении этих людей в процессе, чтобы вы могли добиться наилучших результатов для своей организации.

Этап проектирования и бизнес-понимание

Первым этапом хорошо известного межотраслевого стандартного процесса интеллектуального анализа данных (CRISP-DM) является понимание бизнеса. Крайне важно начать с оценки текущей ситуации с нетехнической точки зрения бизнеса. Слишком рано беспокоиться об алгоритмах или точности моделей.

На этом этапе лучше задавать прямые вопросы, например:

  1. Какие процессы занимают слишком много времени и создают отставание?
  2. Существует ли идентифицируемое подмножество случаев, которые относительно легко обработать или предсказать вероятный исход?
  3. Есть ли другие случаи, которые плохо определены или трудно предсказуемы?

Если ваша организация не является стартапом, у вас есть существующие процессы, которые являются зрелыми, некоторые аспекты которых работают хорошо, а другие создают проблемы. На этом этапе важно рассмотреть, какие задачи и решения выиграют от прогнозов машинного обучения, а какие имеет смысл продолжать направлять людям.

Генеральный директор Decision Management Solutions Джеймс Тейлор описывает это так: Компании, которые сосредотачиваются на решении, которое они хотят улучшить, прежде чем приступать к аналитической работе, с гораздо большей вероятностью преуспеют в применении аналитического или основанного на данных подхода.

Итак, у вас есть это — для лучших результатов начните с решения, которое вы хотите улучшить. В отрасли мы все видели достаточно автоматизации и провалов проектов машинного обучения, поэтому мы знаем кое-что о том, что нельзя делать.

3 распространенные ошибки, которые совершают моделисты

Вот три распространенные ошибки моделистов, которых вам следует избегать:

1. Попытка предсказать слишком много результатов

Лучше не мешать существующим людям или процессам более чем в одной области одновременно. Поэтому, если вы нацелены на несколько результатов, часто лучше начать с моделирования только двух. Вы можете оставить третью категорию направленной на человека или существующий процесс. Кроме того, опытные разработчики моделей знают, что прогнозирование трех или более исходов усложняет каждую фазу процесса. Сначала выйдите на рынок с более простой версией.

Есть классический пример из первых дней практического применения машинного обучения. При прогнозировании лояльности клиентов в сфере телекоммуникаций часто проводится различие между добровольным оттоком, когда клиент уходит к конкуренту, и вынужденным оттоком, когда клиент теряется из-за неуплаты. Если у вас есть успешный процесс сбора платежей, сохраните его и используйте модель только для уменьшения добровольного оттока. Пусть существующие процессы непроизвольного оттока останутся нетронутыми.

2. Отсутствие стратегического и избирательного подхода к источникам данных

Разработчики моделей с большим полевым опытом рано учатся не добавлять в модель все переменные слишком рано и не спешить с моделированием. Вы должны начать с прочной основы входных переменных и первого проекта модели, а затем итерировать, усложняя со временем.

В сеансе LinkedIn Live Дин Эбботт описал итерацию как работу с «элементами данных, которые вы вносите в модель, и функциями, которые вы создаете из этих элементов данных». Другими словами, усилия по итерации не должны быть потрачены просто на настройку модели, а скорее должны включать в себя начало с начального набора данных и добавление ширины — то есть все больше и больше переменных — с каждой итерацией.

Подготовка данных занимает много времени. Таким образом, стратегический подход состоит в том, чтобы сначала развернуть структурированные данные и начать получать окупаемость инвестиций, одновременно направляя неструктурированные данные в существующие процессы и позволяя специалистам по данным работать над следующей итерацией. Если вы ждете совершенства, вы никогда не развернетесь. Дин ярко описал эту тенденцию:

«Исследователям, всем нам, которые так стараются построить наилучшую возможную модель, очень легко просто погрузить голову в сорняки, где вы можете провести месяцы. Нет конца интересным вопросам, на которые нужно ответить о данных», — сказал он.

Как вы поддерживаете команду специалистов по обработке и анализу данных в их усилиях? Удостоверьтесь, что интегрированная система, человеческая обработка и компьютерная обработка работают вместе. Не переключаясь преждевременно на 100% автоматизацию, вы снимаете нагрузку с первой итерации и позволяете быстрее запустить ее в производство.

3. Предполагать, что одной модели будет достаточно (но этого никогда не бывает)

Развертывание похоже на сортировку: в реальных решениях редко используется одна модель, несколько моделей направляют обращения к разным процессам. Если ваша модель работает отлично, а некоторые процессы — нет, создайте для этого отдельную модель. Эта ошибка тесно связана с нашей первой ошибкой. Построение слишком сложной модели первой итерации является ошибкой, но когда вы можете, вы должны добавить сложности, и это часто принимает форму добавления моделей.

Например, во время нашего интервью в LinkedIn Live Дин поделился примером из науки о данных, связанным с отслеживанием медицинских причин, когда стажеры спецназа выбывали из программы обучения. В этом проекте они изначально решали основную задачу: предсказать вероятность того, что стажер пройдет обучение или провалит его.

Создав рабочую модель, они попытались предсказать третий исход — отсев по медицинским показаниям. И, в конце концов, они добавили больше сложности для рассмотрения «пролонгированных» случаев, которые закончились, но в другой когорте, чем та, в которой они начали обучение.

Вы можете себе представить, если бы они попытались справиться со всей этой сложностью с первого раза? Они бы никогда не закончили проект.

Один из моих любимых примеров этой третьей ошибки в моей карьере был озвучен участником проекта, который работал в таможенных и пограничных инспекциях. Он был в команде проекта в качестве предметного эксперта (SME) и элегантно описал его. Он представлял себе каждую модель так, как если бы они были переулком в его инспекционной зоне с различной моделью риска для каждого из трех физических переулков, через которые проходят пассажиры в реальном здании: переулка для рентгеновских снимков, переулка для собак и «грязевой переулок». на сапогах» пер.

У него была правильная идея. Мы продолжаем выполнять человеческие процессы с человеческим опытом и моделями машинного обучения, что делает эти процессы более эффективными. Если мы погрузимся в математику и забудем об организациях, которым служат эти модели, мы отвлечемся от нашей настоящей миссии.

В следующих двух статьях мы подробно рассмотрим эту стратегию, сосредоточив внимание на том, как создавать полные системы, в которых люди и машины работают вместе. Мы рассмотрим некоторые реальные приложения автоматизации и машинного обучения и рассмотрим проблемы, с которыми столкнулись команды разработчиков при их создании. Мы также расскажем, как они решили эти проблемы. Посмотрите наш Прямой сеанс LinkedIn с участием главного специалиста по анализу данных SmarterHQ Дина Эбботта.

Это первая статья из серии из трех частей.

Первоначально опубликовано на https://blog.cloudfactory.com.