Ценности SHAP: декада релизов, артисты и многое другое

В этой статье я использую набор данных из около 169 000 записей, собранных с помощью Spotify Web API. Набор данных публично доступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.

Оглавление

· Шаг 1 — предварительная обработка данных
· Шаг 2 — настройка модели машинного обучения для прогнозирования рейтинга популярности песен
· Шаг 3 — объяснение полученной модели машинного обучения

Шаг 1 — предварительная обработка данных

Здесь предварительная обработка данных состоит из следующих шагов:

  • выбор песен с известными рейтингами Spotify (›0);
  • преобразование годов выпуска в десятилетия;
  • группировка числовых столбцов в более крупные ячейки (официальное описание столбца см. в Справочнике по веб-API | Spotify для разработчиков);
  • преобразование duration_ms в минуты и log10-преобразование (так что 1 минута становится 0,0, 10 минут становится 1,0 и т. д.);
  • извлечение информации о исполнителях с помощью CountVectorizer, берущего только элементы с не менее чем 250 появлением в наборе данных;
  • наконец, удаление неиспользуемых столбцов.

В результате мы получили очищенный набор данных, содержащий 142 000 песен с рейтингом от 1 до 100.

Шаг 2 — настройка модели машинного обучения для прогнозирования рейтинга популярности песен

Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 9,9 балла, что улучшение по сравнению со среднеквадратичной ошибкой базовой модели примерно на 18,1 балла (при том же strong>рейтинг около 37,7 балла для каждой песни).

Шаг 3 — объяснение полученной модели машинного обучения

Здесь мы используем метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицы ценности SHAP выражаются в рейтинговых баллах.

Во-первых, мы изучаем диапазон значений SHAP для основных функций, которые нас интересуют:

Как мы видим, наиболее важными факторами для прогнозирования рейтингов популярности для песен Spotify являются десятилетие выпуска, акустика и громкость.

Теперь рассмотрим индивидуальные особенности.

Что касается десятилетия выпуска, наивысшие рейтинги популярности связаны с недавно выпущенными песнями:

Что касается акустики песен, мы видим, что наивысшие рейтинги популярности связаны с относительно небольшими уровнями акустики (‹ 0,5):

Что касается средней громкости, примечательно, что самые высокие рейтинги популярности связаны с самыми высокими значениями громкости (-7,5 дБ или выше):

Что касается инструментальности песен, наивысшие рейтинги популярности связаны с наименьшими уровнями инструментальности:

Что касается танцевальности песен, мы видим, что наивысшие рейтинги популярности связаны с самыми танцевальными треками:

Что касается длительности песен, мы видим, что наивысшие рейтинги популярности связаны с продолжительностью от 10**0.5 = 3.2 до 10**0.7 = 5.0 минут:

Что касается живости песен, то наивысшие рейтинги популярности связаны с малой вероятностью того, что трек был исполнен вживую:

Что касается громкости песен, неудивительно, что наивысшие рейтинги популярности связаны с небольшими уровнями речи:

Что касается валентности песен, примечательно, что самые высокие рейтинги популярности связаны с более негативными (например, грустными, депрессивными, злыми) треками:

Что касается модальности песен, мы видим, что наивысшие рейтинги популярности связаны с нулевой модальностью (второстепенная модальность ):

Что касается откровенного содержания песен, то самые высокие рейтинги популярности связаны с наличием откровенного содержания:

Что касается энергии песен, наивысшие рейтинги популярности связаны с наименьшей энергией (например, классической музыкой):

Что касается исполнителей, наивысшие рейтинги популярности связаны с The Beatles, за которыми следует Элвис Пресли, Led Zeppelin, Билли Холидей, Фрэнк Синатра, Нина Симон, Боб Марли и Эминем:

Что касается темпа песен, мы видим, что самые высокие рейтинги популярности связаны с либо очень маленьким (‹ 20 ударов в минуту, BPM), либо очень высоким ( › темп 170 ударов в минуту:

И, наконец, что касается ключи песен, тут почти нет зависимости от рейтингов популярности песен:

Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.

Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.