Использование помеченных вспомогательных образцов для полуконтролируемого обучения

В этой статье мы более подробно рассмотрим PAWS (pпереопределение представления aподписей сс sподдержкой labels), новый метод применения обучения с полуучителем к задачам компьютерного зрения.

Этот метод был представлен как часть недавней статьи Assran et al. на ICCV 2021. В отличие от некоторых других статей, о которых я писал, этот метод позволяет ограниченно использовать размеченные данные только для проецирования этой информации на более широкий пул неразмеченных данных для обучения. Таким образом, размеченные данные становятся даже более ценными, чем если бы обучение модели проходило под полным наблюдением. Как всегда, я старался сделать статью простой, чтобы даже читатели с небольшими предварительными знаниями могли следовать ей. Без дальнейших церемоний, давайте погрузимся!

Предварительное условие: обучение с самостоятельным наблюдением или полууправляемое обучение

Важным различием, которое необходимо сделать, является разница между самоконтролируемым и полуконтролируемым обучением.

При обучении модели с самоконтролем контроль не исходит из помеченных данных. Скорее модель, как следует из названия, контролирует себя. Как может выглядеть этот надзор? Проще говоря, модели можно передать одно и то же изображение с различными дополнениями данных, и цель будет состоять в том, чтобы узнать, что изображение остается прежним. Таким образом, процесс обучения направляется.

Напротив, полууправляемое обучение опирается на помеченные данные, но очень немногие из них. При использовании традиционного подхода к обучению с учителем все данные должны быть помечены. Модели с частичным наблюдением используют только часть размеченных данных и очищают их, чтобы рассуждать и узнавать о неразмеченных обучающих данных. Это становится более ясным в этой статье.

Обучение на нескольких помеченных изображениях

В прошлом контролируемые модели компьютерного зрения всегда оценивались на данных ImageNet. Для проведения оценки модели обучались на наборе данных с использованием только размеченных изображений. PAWS имеет только 1% или 10% меток, доступных для обучения, и при этом обеспечивает невероятную производительность. Давайте посмотрим, почему!

Начнем с того, что каждое изображение случайным образом дополняется, чтобы сформировать 2 представления: якорное представление и положительное представление. Хотя содержимое изображения остается прежним, например. он содержит собаку, аугментации теперь исказили его визуальное представление, т.е. они выглядят по-другому.

Эти два вида одного и того же изображения теперь кодируются с помощью сверточной нейронной сети, в данном случае ResNet-50. Эта сеть принимает каждое изображение в качестве входных данных и выводит его векторное представление.При обучении с самоконтролем мы теперь сформулируем потерю сходства или что-то подобное между двумя представлениями одного и того же изображения. Но в полууправляемом обучении, прежде чем формулировать какую-либо функцию потерь для обучения на этих выходных данных, мы можем извлечь выгоду из имеющихся у нас помеченных изображений.

Помеченные изображения называются опорными образцами в статье. Эти помеченные образцы поддержки также кодируются с использованием того же ResNet-50 для формирования векторного представления для каждого из них.

Теперь, когда у нас есть векторные представления с их метками, мы можем использовать их для измерения их сходства с кодировкой привязки и положительного изображения. Это достигается с помощью так называемой мягкой стратегии ближайшего соседа. Это означает, что привязка и положительное представление классифицируются в соответствии с их сходством с одним из образцов поддержки, и им присваивается мягкая псевдометка, т. е. метка опорный образец с минимальным расстоянием.

Теперь, когда мягкие псевдометки были сгенерированы для положительного и анкерного представления, между ними вычисляется перекрестная энтропия как формулировка термина потерь.

Обратите внимание, что для предотвращения коллапса обучения температурные параметры вводятся в классификатор ближайшего соседа, а также в целевой прогноз, отображаемый в правом нижнем углу иллюстрации. Параметр температуры действует в этом случае как инструмент заточки. Проще говоря, в выходном распределении высокие значения становятся еще выше, а низкие — еще ниже, увеличивая контраст между ними. Это приближает цель обучения к горячему кодированию (метка кодируется массивом нулей и единицы).

На этом мы завершим наш краткий обзор методов, лежащих в основе статьи. Теперь давайте посмотрим на некоторые результаты!

Полученные результаты

Как обсуждалось ранее, по сравнению с обучением с самоконтролем, обучение с частичным наблюдением может использовать информацию в виде меток, чтобы научиться понимать окружающий визуальный мир. В рамках оценки 1 % или 10 % обучающих данных ImageNet были помечены для PAWS во время предварительного обучения.Все методы обучались без наблюдения, а затем настраивались с использованием 10 % помеченных данных ImageNet. . Это делает первое преимущество PAWS довольно интуитивно понятным.

На первой диаграмме показано, что PAWS намного лучше справляется с этим классификационным тестом с меньшим количеством тренировок, поскольку его обучающие данные содержат гораздо больше информации. Таким образом, использование меток во время обучения устраняет необходимость в длительном обучении, которое требуется SwAV или SimCLRv2. Это имеет смысл, поскольку SwAV, метод с самоконтролем, должен составить хорошую модель визуального мира без какой-либо помощи человека, тогда как PAWS в этом случае использует 10% данных с метками.

Преимущество PAWS в производительности остается верным при сравнении его с другими методами предварительной подготовки, а также с современной предварительной подготовкой с самоконтролем. С меньшим количеством периодов обучения PAWS может превзойти их все, используя 1% или 10% помеченных данных ImageNet в качестве вспомогательных образцов. Еще более впечатляющими являются результаты, полученные при PAWS-NN. Для этого не проводилась тонкая настройка PAWS, и все изображения были классифицированы на основе классификации ближайших соседей их необработанных выходных вложений. Это замечательно и показывает истинный потенциал полуконтролируемого обучения.

Это показывает, что обогащенные человеческие знания в виде ярлыков при правильном использовании могут быть чрезвычайно мощными. Как показывает более короткое время обучения по сравнению с обучением с самоконтролем, если человек помогает процессу обучения, искусственная нейронная сеть может гораздо эффективнее воспринимать информацию. В каком-то смысле это две нейронные сети, работающие вместе. Один биологический, один искусственный.

Завершение

В этой статье вы узнали о PAWS, статье, использующей обучение с полуучителем, чтобы извлечь выгоду из нескольких помеченных изображений и перенести эти знания на все другие немаркированные изображения. Было показано, что они демонстрируют желаемые свойства, такие как меньшее время предварительной тренировки и отличная производительность. Хотя я надеюсь, что эта история дала вам хорошее первое представление о статье, еще многое предстоит узнать. Поэтому я бы посоветовал вам прочитать статью самостоятельно, даже если вы новичок в этой области. С чего-то надо начинать ;)

Если вас интересуют более подробные сведения о методе, представленном в статье, не стесняйтесь, напишите мне сообщение в Твиттере, моя учетная запись связана с моим профилем на Medium.

Надеюсь, вам понравилось это бумажное объяснение. Если у вас есть какие-либо комментарии к статье или вы видите какие-либо ошибки, не стесняйтесь оставлять комментарии.

И последнее, но не менее важное: если вы хотите глубже погрузиться в область передового компьютерного зрения, рассмотрите возможность стать моим последователем. Я стараюсь публиковать статью раз в неделю и информировать вас и всех, кто интересуется, о том, что нового в исследованиях компьютерного зрения!

Использованная литература:

[1] Репозиторий PAWS GitHub: https://github.com/facebookresearch/suncet

[2] Чен, Тинг и др. Простая структура для контрастного обучения визуальным представлениям. Международная конференция по машинному обучению. ПМЛР, 2020. https://arxiv.org/pdf/2002.05709.pdf

[3] Асран, Махмуд и др. Полуконтролируемое изучение визуальных функций путем непараметрического прогнозирования назначений представлений с помощью образцов поддержки. препринт arXiv arXiv:2104.13963 (2021 г.). https://arxiv.org/pdf/2104.13963.pdf