1. Контролируемая контрастная потеря изучает ортогональные кадры и вопросы пакетной обработки (arXiv)

Автор: Ганеша Рамачандра Кини, Вала Вакилиан, Тина Бехния, Джайдев Гилл, Христос Трампулидис.

Аннотация: контролируемая контрастивная потеря (SCL) является конкурентоспособной и часто превосходящей альтернативой кросс-энтропийной (CE) потере для классификации. В этой статье мы спрашиваем: какие различия в процессе обучения возникают при оптимизации двух разных функций потерь? Чтобы ответить на этот вопрос, наш основной вывод заключается в том, что геометрия вложений, изученная SCL, образует ортогональный фрейм (OF) независимо от количества обучающих примеров в классе. Это контрастирует с потерей CE, для которой предыдущая работа показала, что она изучает геометрию встраивания, которая сильно зависит от размеров классов. Мы пришли к нашему выводу теоретически, доказав, что глобальные минимизаторы модели без ограничений с потерями SCL и неотрицательными ограничениями на входе образуют OF. Затем мы проверяем предсказание модели, проводя эксперименты со стандартными моделями глубокого обучения на эталонных наборах данных о зрении. Наконец, наш анализ и эксперименты показывают, что схема пакетной обработки, выбранная во время обучения SCL, играет решающую роль в определении качества сходимости к геометрии ОВ. Это открытие мотивирует простой алгоритм, в котором добавление нескольких примеров связывания в каждую партию значительно ускоряет появление геометрии OF.

2.Sy-CON: симметричная контрастная потеря для непрерывного обучения репрезентации с самоконтролем (arXiv)

Автор: Сонмин Ча, Тэсуп Мун.

Аннотация: Мы представляем новую и общую функцию потерь, называемую симметрично-контрастной (Sy-CON) потерей, для эффективного непрерывного обучения с самоконтролем (CSSL). Сначала мы утверждаем, что традиционная форма непрерывного обучения с потерями, которая состоит из одной потери для конкретной задачи (для пластичности) и регуляризатора (для стабильности), может быть не идеальной для CSSL на основе контрастных потерь, которые сосредоточены на обучении репрезентации. Наше рассуждение состоит в том, что в методах, основанных на контрастном обучении, потери, специфичные для задачи, будут страдать от уменьшения разнообразия отрицательных образцов, а регуляризатор может препятствовать изучению новых отличительных представлений. С этой целью мы предлагаем Sy-CON, который состоит из двух потерь (одна для пластичности, а другая для стабильности) с симметричной зависимостью от текущих и прошлых моделей отрицательных вложений образцов. Мы утверждаем, что наша модель может естественным образом найти хороший компромисс между пластичностью и стабильностью без какой-либо явной настройки гиперпараметров. Мы подтверждаем эффективность нашего подхода с помощью обширных экспериментов, демонстрирующих, что реализация потери Sy-CON на основе MoCo обеспечивает превосходную производительность по сравнению с другими современными методами CSSL.