1. SAMO: одноклассное многоцентровое обучение Speaker Attractor для защиты от спуфинга голоса(arXiv)

Автор:Сивэнь Дин, Ю Чжан, Чжияо Дуань.

Аннотация. Системы голосовой защиты от спуфинга являются важнейшим вспомогательным средством для систем автоматической проверки говорящего (ASV). Серьезную проблему вызывают невидимые атаки, усиленные передовыми технологиями синтеза речи. Наше предыдущее исследование одноклассового обучения улучшило способность к обобщению невидимых атак за счет уплотнения истинной речи в пространстве встраивания. Однако в такой компактности отсутствует учет разнообразия говорящих. В этой работе мы предлагаем многоцентровое одноклассовое обучение с использованием аттракторов говорящих (SAMO), которое группирует подлинную речь вокруг ряда аттракторов говорящих и отталкивает атаки спуфинга от всех аттракторов в многомерном пространстве встраивания. Для обучения мы предлагаем алгоритм совместной оптимизации кластеризации добросовестной речи и классификации подлинности/обманки. Для вывода мы предлагаем стратегии включения защиты от спуфинга для говорящих без регистрации. Предлагаемая нами система превосходит существующие современные отдельные системы с относительным улучшением на 38 % при равной частоте ошибок (EER) в оценочном наборе ASVspoof2019 LA.

2. Нейронная сеть на основе ConvNext для защиты от спуфинга(arXiv)

Автор: Цяовэй Ма, Цзинхуэй Чжун, Итао Ян, Вэйхэн Лю, Ин Гао, Винг В. Ю. Нг

Вывод:автоматическая проверка говорящего (ASV) широко используется в реальной жизни для аутентификации личности. Однако с бурным развитием преобразования речи, алгоритмов синтеза речи и улучшением качества записывающих устройств системы ASV становятся уязвимыми для спуф-атак. В последние годы появилось много работ об обнаружении синтетической и повторной речи, исследователи предложили ряд методов защиты от спуфинга, основанных на созданных вручную функциях, для повышения точности и надежности системы обнаружения синтетической и повторной речи. Однако использование созданных вручную функций, а не необработанных сигналов, приведет к потере определенной информации для защиты от спуфинга, что снизит эффективность обнаружения системы. Вдохновленные многообещающей производительностью ConvNext в задачах классификации изображений, мы расширяем сетевую архитектуру ConvNext соответствующим образом для задачи обнаружения спуфинговых атак и предлагаем сквозную модель защиты от спуфинга. Интегрируя расширенную архитектуру с блоком внимания канала, предлагаемая модель может сосредоточиться на наиболее информативных поддиапазонах речевых представлений для повышения эффективности защиты от спуфинга. Эксперименты показывают, что предложенная нами лучшая отдельная система может обеспечить одинаковую частоту ошибок 1,88% и 2,79% для набора данных оценки LA ASVSpoof 2019 и набора данных оценки PA соответственно, что демонстрирует способность модели противостоять спуфингу.

3. Защита от спуфинга лиц с точки зрения выборки данных(arXiv)

Автор:Усман Мухаммад, Мурад Уссалах

Выдержка . Без применения мер защиты от спуфинга лица системы распознавания лиц можно подделать, предъявив распечатанную фотографию, видео или силиконовую маску подлинного пользователя. Таким образом, обнаружение атаки по представлению лица (PAD) играет жизненно важную роль в обеспечении безопасного доступа к цифровым устройствам по лицу. Большинству существующих средств противодействия PAD на основе видео не хватает способности справляться с длительными временными изменениями видео. Кроме того, выборка ключевых кадров перед этапом извлечения признаков не была широко изучена в области защиты от спуфинга лица. Чтобы смягчить эти проблемы, в этой статье предлагается подход к выборке данных, в котором предлагается схема обработки видео, которая моделирует долгосрочные временные вариации на основе взвешивающей функции Гаусса. В частности, предлагаемая схема кодирует последовательные t кадров видеопоследовательностей в одно изображение RGB на основе взвешенного по Гауссу суммирования t кадров. Используя только схему выборки данных, мы демонстрируем, что современная производительность может быть достигнута без каких-либо наворотов как в сценариях тестирования внутри базы данных, так и между базами данных для трех общедоступных эталонных наборов данных; а именно Replay-Attack, MSU-MFSD и CASIA-FASD. В частности, предлагаемая схема обеспечивает гораздо более низкую ошибку (от 15,2% до 6,7% для CASIA-FASD и от 5,9% до 4,9% для повторной атаки) по сравнению с базовыми уровнями в сценариях с несколькими базами данных.