Мультимодальные трансформаторы быстро растут. Отличным примером является Audio Spectrogram Transformer, модель классификации звука, которая была только что добавлена ​​в библиотеку Hugging Face Transformers. Эта модель сначала создает изображение спектрограммы аудиоклипа, а затем классифицирует изображение с помощью модели Vision Transformer. Удивительные результаты!

✅ Демонстрация пространств: https://huggingface.co/spaces/juliensimon/keyword-spotting
✅ Модель: https://huggingface.co/MIT/ast-finetuned-speech-commands-v2< br /> ✅ Статья: https://arxiv.org/abs/2104.01778