Как разработчик глубокого обучения, быть в курсе последних научных работ имеет решающее значение для того, чтобы оставаться впереди в этой области. В этом сообщении блога мы составили список из 10 обязательных к прочтению исследовательских работ, которые оказали значительное влияние на разработку моделей глубокого обучения.

«Классификация ImageNet с глубокими свёрточными нейронными сетями» Алекса Крижевского, Ильи Суцкевера и Джеффри Хинтона (2012)

В этой статье представлена ​​известная ныне архитектура AlexNet, которая произвела революцию в классификации изображений с помощью глубоких сверточных нейронных сетей. Авторы показали, что их модель достигла коэффициента ошибок 15,3% в наборе данных ImageNet, что значительно превосходит предыдущие современные модели.

«Глубокое остаточное обучение для распознавания изображений», Каймин Хэ, Сянъюй Чжан, Шаоцин Рен и Цзянь Сунь (2016 г.)

В этом документе была представлена ​​архитектура ResNet, которая позволила обучить еще более глубокие нейронные сети и достичь самых современных результатов в различных задачах распознавания изображений. Авторы показали, что их модель смогла достичь более низкого уровня ошибок, чем предыдущие модели, даже при увеличении глубины сети.

«Последовательное обучение с помощью нейронных сетей» Ильи Суцкевера, Ориола Виньялса и Куока Ле (2014)

В этой статье представлена ​​модель «последовательность к последовательности», которая в настоящее время широко используется в обработке естественного языка и других задачах, основанных на последовательностях. Авторы продемонстрировали, что их модель способна, в частности, достичь высочайшей производительности в задачах машинного перевода.

«Генеративно-состязательные сети» Яна Гудфеллоу, Жана Пуже-Абади, Мехди Мирзы, Бинга Сюй, Дэвида Варде-Фарли, Шерджила Озаира, Аарона Курвилля и Йошуа Бенжио (2014)

В этом документе представлена ​​модель GAN, которая позволяет генерировать новые данные, которые следуют тому же распределению, что и обучающие данные. GAN применялись, помимо прочего, для создания изображений, аудио и текста. Авторы показали, что их модель способна генерировать высококачественные изображения, которые трудно отличить от реальных изображений.

«Игра в Atari с глубоким обучением с подкреплением» Владимира Мниха, Корая Кавуккуоглу, Дэвида Сильвера, Алекса Грейвса, Иоанниса Антоноглу, Даана Вирстра и Мартина Ридмиллера (2013 г.)

В этой статье было представлено использование глубокого обучения с подкреплением для игры в игры Atari на сверхчеловеческом уровне, демонстрируя потенциал сочетания глубокого обучения с обучением с подкреплением. Авторы продемонстрировали, что их модель способна научиться играть в игры Atari, используя только необработанные пиксельные входные данные, и добилась производительности, превосходящей экспертов-людей.

«Внимание — это все, что вам нужно» Ашиша Васвани, Ноама Шазира, Ники Пармар, Якоба Ушкорейта, Лилиона Джонса, Эйдана Н. Гомеса, Лукаша Кайзера и Ильи Полосухина (2017)

В этой статье представлена ​​модель Transformer, которая произвела революцию в обработке естественного языка и других задачах, основанных на последовательностях, за счет устранения необходимости в рекуррентных нейронных сетях. Авторы показали, что их модель способна достичь самых современных результатов при выполнении различных языковых задач, включая машинный перевод и языковое моделирование.

«DeepFace: преодоление разрыва с производительностью на уровне человека при проверке лица», Янив Тайгман, Мин Ян, Марк’Аурелио Ранзато и Лиор Вольф (2014 г.)

В документе «DeepFace» предлагается подход глубокого обучения для проверки лиц с использованием нейронной сети, обученной на большом наборе данных изображений лиц. Модель использует 3D-выравнивание для нормализации изображений и извлечения неизменяемых черт лица. Авторы показали, что их модель превзошла другие современные методы и даже достигла более высокой точности, чем люди, в тесте Labeled Faces in the Wild. Модель DeepFace стала прорывом в области проверки лиц, впервые достигнув производительности на уровне человека и проложив путь для многих последующих достижений в области компьютерного зрения.

«Неконтролируемое репрезентативное обучение с помощью глубоких сверточных генеративно-состязательных сетей» Алека Рэдфорда, Люка Метца и Сумита Чинтала (2015)

В этом документе представлена ​​модель DCGAN, которая позволяет неконтролируемому обучению высококачественным представлениям изображений с использованием GAN. Авторы показали, что их модель способна генерировать изображения, которые визуально соответствовали набору обучающих данных и превосходили другие методы обучения без учителя.

«Mask R-CNN» Кайминга Хе, Джорджии Гкиоксари, Петра Доллара и Росса Гиршика (2017)

В этом документе представлена ​​архитектура Mask R-CNN, которая расширила популярную модель обнаружения объектов Faster R-CNN, чтобы также предсказывать маски сегментации экземпляров. Авторы показали, что их модель достигла высочайшей производительности на нескольких эталонных наборах данных для обнаружения объектов и сегментации экземпляров.

Таким образом, эти 10 исследовательских работ оказали значительное влияние на разработку моделей глубокого обучения в различных областях. В этих работах, от классификации изображений до обработки естественного языка и обнаружения объектов, представлены новые архитектуры, методы и идеи, которые сформировали область глубокого обучения. Как разработчик глубокого обучения, чтение и понимание этих документов может помочь вам оставаться в курсе последних разработок и улучшать свои собственные модели.

Если вам понравилась эта статья, вот некоторые другие статьи, которые могут вам понравиться: