Авторы: Ручи Махиндру, Минакши Мадугула, Нил Бойетт

IBM Cloud Pak для Watson AIOps помогает группе ИТ-эксплуатаций (ITOps) быстрее реагировать, понимать и разрешать инциденты. Это достигается за счет уменьшения шума, определения приоритетов фокусировки, предоставления рекомендаций по параметрам разрешения и, в конечном итоге, автоматизации разрешения.

Большинство клиентских сред состоят из смеси компонентов собственной разработки и готовых компонентов. Однако быть экспертом в каждом из них непросто, особенно в тех случаях, когда требуется круглосуточное покрытие. Эти задачи были подробно описаны в предыдущем посте.

Команды ITOps ищут готовые к использованию решения, которые не требуют обучения и предоставляют ценный контекст и информацию в первый день. В IBM Cloud Pak для Watson AIOps 3.5 мы выполнили это требование для нескольких продуктов в области промежуточного программного обеспечения, таких как IBM Websphere. Сервер приложений, IBM WebSphere Liberty и IBM MQ.

Используя глубокие экспертные знания IBM, IBM Cloud Pak для Watson AIOps представила автоматическое обнаружение аномалий в журналах для конкретных доменов, объяснение предупреждений и рекомендации по устранению. Такие готовые к использованию модели имеют решающее значение для более быстрого обнаружения и решения проблем.

Эта возможность предоставляется через конвейер, показанный ниже.

Коннектор данных:

IBM Cloud Pak для Watson AIOps поддерживает прием журналов от всех ведущих агрегаторов, включая Mezmo (ранее LogDNA), CrowdStrike Falcon LogScale (ранее Humio), Splunk и ELK, а также поддержку пользовательских регистраторов. После подключения с помощью выбранного вами коннектора данных к IBM Cloud Pak for Watson AIOps журналы будут непрерывно обрабатываться и анализироваться почти в реальном времени.

Подготовка данных журнала:

Продукты IBM создают стандартизированные метрики, журналы и трассировки. Каждый журнал содержит назначенный идентификатор сообщения, уровень журнала, тип и другие метаданные. Такая информация используется для помощи в идентификации исходного продукта. На этапе Подготовка данных журнала, если система обнаружит, что сообщения журнала относятся к поддерживаемым продуктам, таким как WebSphere или MQ, то объекты, такие как идентификаторы сообщений и уровни журналов, автоматически извлекается. Мы используем наши предварительные экспертные знания об идентификаторах сообщений и уровнях журналов, которые являются индикаторами ненормального поведения системы. Затем эти извлеченные объекты передаются в модуль обнаружения аномалий журнала.

Обнаружение аномалий журнала:

Извлеченные объекты затем обрабатываются для построения статистической базовой модели обнаружения аномалий журнала для конкретного продукта. Такая обученная модель способна обнаруживать аномалии, как только она подключается к сети, с автоматическим повторным обучением каждые 30 минут для повторного обучения базовому уровню. Базовая модель имеет предварительные экспертные знания для автоматической идентификации, дифференциации и обнаружения ошибочных объектов из извлеченных объектов. Функционирование статистической базовой модели осуществляется вручную и полностью автоматизировано, что обеспечивает немедленную пользу команде ITOps. Для получения дополнительной информации о работе этих моделей прочитайте Прогнозы за 30 минут с использованием нового Cloud Pak для Watson AIOps.

Поскольку может быть несколько идентификаторов сообщений, которые могут быть обнаружены в окне аномалий журнала, IBM Cloud Pak для Watson AIOps использует новый алгоритм, учитывающий исторический контекст для определения важного идентификатора сообщения. Детектор логарифмических аномалий усиливает аномалию с помощью идентифицированного важного идентификатора сообщения, который в дальнейшем используется в модуле Noise Reduction, описанном далее.

Шумоподавление:

Чтобы команды ITOps не перегружались потоком событий и аномалий, IBM Cloud Pak для Watson AIOps предлагает несколько методов шумоподавления.

Обнаруженная аномалия сначала дедуплицируется с использованием идентифицированного значимого идентификатора сообщения. Это позволяет свести постоянные аномалии к одному уникальному предупреждению. Оповещения далее группируются в истории с использованием нескольких алгоритмов, основанных на временных, топологических и областях. Оповещения группируются по времени, если они происходят в течение короткого промежутка времени друг от друга. Оповещения группируются топологически, когда они возникают на ресурсах в заранее определенном разделе топологии сети. Оповещения также группируются, когда они появляются в течение настраиваемого временного окна в определенной администратором области, например, в местоположении, службе или ресурсе. Например, если одна и та же аномалия имеет общую причину, поскольку все они произошли на одном и том же ресурсе с интервалом N друг от друга, они группируются вместе. N — настроенное время.

На скриншоте ниже видно, что 3 оповещения были сгруппированы в 1 историю. Кроме того, каждое оповещение содержало около 25 дедуплицированных событий.

Все эти различные методы объединены, чтобы дать целостное представление об инциденте, включая все доказательства (предупреждения), контекст и идеи.

Улучшение аномалии:

Этот этап состоит из различных подзадач, а именно: «Объяснимость», «Распределение аномалий» и «Рекомендация по разрешению».

Объяснимость:

  • Как правило, данные журналов, генерируемые системой, носят технический характер, поэтому аномалии обогащаются, чтобы помочь SRE лучше понять проблему. Такие объяснения извлекаются из различных источников данных, таких как

Аномальное распределение:

  • Для команды ITOps очень важно понимать распределение аномалий журналов за определенный период времени. Поэтому идентификаторы сообщений — вместе с их частотами — перечислены для пользовательского анализа.

Рекомендация по решению:

  • Крайне важно, чтобы рекомендации соответствовали цели для более быстрого восстановления системы. Этот компонент был создан путем объединения опыта в области инженерии знаний, науки о данных, искусственного интеллекта и глубоких ноу-хау группы поддержки IBM.
  • В процессе автономной сборки была построена готовая к использованию расширенная база знаний путем использования огромного количества существующей информации IBM, распределенной по разрозненным источникам данных, таким как исторические данные о случаях, менеджер повторного использования активов (таксономия категории проблем и подсистем). категорию, поддерживаемую инженерами службы поддержки IBM) и статьи центра знаний. Целью использования вспомогательных данных является использование встроенных знаний предметных экспертов (SME) для решения проблем.
  • Во время выполнения это предварительно обученное знание запрашивается для пояснения и рекомендаций по разрешению. История создается с несколькими предупреждениями об обнаруженных аномалиях журнала. Каждое оповещение создается с наиболее значимым идентификатором сообщения и дополняется пояснениями, а также тремя наиболее подходящими рекомендуемыми решениями. Это позволяет команде ITOps с доверием и уверенностью следовать рекомендациям SME при разрешении инцидента.

Вывод:

Без этой возможности цикл восстановления, выполняемый командой ITOps, будет намного дольше из-за отсутствия опыта в каждой области и продукте. Дополнительные проблемы могут возникать из-за отложенного реактивного процесса диагностики проблем, ручного поиска в дезагрегированных базах знаний и потенциальных ненадежных попыток исправления.

IBM Cloud Pak для Watson AIOps может автоматически обнаруживать аномалии в журналах, четко объяснять проблему и давать рекомендации по устранению в режиме реального времени по мере ее проявления. Кроме того, рекомендации по разрешению очень ценны и надежны, поскольку они были проверены и постоянно использовались экспертами в предметной области при аналогичных прошлых аномалиях. Следовательно, это приводит к сокращению среднего времени восстановления (MTTR) и повышению удовлетворенности клиентов.

Подробное руководствоОбъяснение AIOps: готовые модели (OOB)

Мы искренне благодарим сотрудников: Айшварию Гуду, Ашиша Годасара, Энди Ту, Боба Гибсона, Колина Батлера, Дона Борна, Хайбин Лю, Харшита Кумара, Кевина Нг, Майкла Маккарри, Майлза Вуллакотта, Оуэн Джеффс, Пужита Кара, Севилья Мостафа, Сраджан Дубе, Сяотун Лю