Google AI выпустил свой набор данных, состоящий из 15K аннотированных видео и 4M аннотированных изображений.

Большинство исследований компьютерного зрения сосредоточено на двумерных изображениях, и они достигли исключительной точности благодаря достижениям в предсказании объектов.

В то время как прогнозирование двухмерных объектов предоставляет ограничивающие рамки, которые позволяют нам узнать, где находится объект на изображении, расширение этого метода для трехмерного прогнозирования позволит нам фиксировать размер, положение и ориентацию объекта. Прогнозирование трехмерных объектов имеет большой потенциал для различных приложений в робототехнике, беспилотных транспортных средствах, поиске изображений и дополненной реальности.

Несмотря на то, что методы обнаружения 2D-объектов являются зрелыми и широко используются в отрасли, расширение этих методов для методов обнаружения 3D-объектов из 2D-изображений является сложной задачей. Это связано с отсутствием больших реальных наборов данных аннотированных 3D-видео по сравнению с 2D-изображениями.

Подобно тому, как ImageNet позволил исследователям компьютерного зрения продвигать задачи с 2D-изображениями, команда Google AI выпустила набор данных Objectron для обнаружения 3D-объектов. Этот набор данных призван дать исследовательскому сообществу возможность улучшить понимание трехмерных объектов.

О наборе данных Objectron

Набор данных Objectron - это набор коротких объектно-ориентированных видеоклипов, в настоящее время содержащий 15 000 видеороликов с аннотациями. Он ориентирован на объектно-ориентированные мультиракурсы, наблюдая за одним и тем же объектом под разными углами.

Каждый видеоклип сопровождается метаданными сеанса AR, включая изображения в высоком разрешении, позу объекта, позу камеры, облако точек и плоскости поверхности.

Набор данных содержит вручную аннотированные трехмерные ограничивающие рамки для каждого объекта, которые описывают положение, ориентацию и размеры объекта.

Имея более 4 миллионов аннотированных изображений, изображения разделены на следующие категории:

bikes, books, bottles, cameras, cereal boxes, chairs, cups, laptops, and shoes.

Чтобы обеспечить географическое разнообразие, видеозаписи в наборе данных собираются из 10 стран на пяти континентах.

В этом руководстве рассказывается, как загружать и использовать наборы данных Objectron. Вы можете загрузить набор данных тремя способами:

  • Используйте gsutil
  • Скачать через общедоступный HTTP API
  • Скачать с помощью клиента Cloud Python.

В настоящее время, в ноябре 2020 года, размер набора данных составляет 1,9 ТБ, включая видео и аннотации.

Как выполнить обнаружение 3D-объекта

Наряду с набором данных команда поделилась своими решениями для прогнозирования трехмерных ограничивающих рамок. Они предоставили решения для четырех категорий объектов - обуви, стульев, кружек и фотоаппаратов. Вот несколько примеров результатов решения для обнаружения 3D-объектов, работающего на мобильном устройстве.

В отличие от ранее выпущенной одноступенчатой ​​модели Objectron, эта новая версия использует двухступенчатую архитектуру.

На первом этапе используется модель обнаружения объектов TensorFlow для определения положения объекта в каждом кадре. Затем на втором этапе обрезанное 2D-изображение используется для оценки ограничивающего 3D-прямоугольника при одновременном вычислении 2D-кадрирования объекта для следующего кадра, так что детектору объекта не нужно запускать каждый кадр.

Двухступенчатый конвейер показан на этой схеме.

Этот двухступенчатый конвейер в 3 раза быстрее, чем предыдущий одноступенчатый конвейер с аналогичной или лучшей точностью. Мы даже можем отказаться от использования любого детектора 2D-объектов на первом этапе.

В этом руководстве показано, как использовать набор данных Objectron. SequenceExamples содержат всю видеопоследовательность и соответствующую аннотацию в них. Каждый пример последовательности состоит из двух частей: контекста и списков функций. Контекст - это атрибуты последовательности, которые применяются ко всей последовательности. Это отслеживает объекты в 3D в нескольких кадрах.

Вот результаты трехмерных ограничивающих рамок, взятых из записной книжки.

Как оценивать задачи обнаружения 3D-объектов

С помощью наземных аннотаций мы оцениваем производительность задач обнаружения 2D-объектов с помощью пересечения над объединением (IoU). Эта метрика оценки измеряет, насколько близки ограничивающие рамки к истине.

Для задач обнаружения 3D-объектов команда предлагает алгоритм из трех частей для вычисления точных значений 3D IoU для 3D-ориентированных блоков. Во-первых, мы вычисляем точки пересечения между гранями двух боксов, используя алгоритм отсечения многоугольника Сазерленда-Ходжмана. Объем пересечения вычисляется по выпуклой оболочке всех обрезанных многоугольников. Затем IoU вычисляется из объема пересечения и объема объединения двух блоков.

Команда выпустила этот исходный код 3D IoU вместе с набором данных, чтобы позволить исследовательскому сообществу сравнить производительность со стандартной метрикой оценки.

Итак, почему это так интересно?

С ростом популярности приложений и исследований для беспилотных автомобилей прогресс в понимании трехмерных объектов позволит определять размер, положение и ориентацию объектов в мире, тем самым улучшая возможности автономного вождения.

С появлением ARCore от Google и ARKit от Apple, а также с появлением сотен миллионов смартфонов теперь есть возможности дополненной реальности, это позволит нам собирать больше данных и создавать интересные приложения.

Подобно тому, как ImageNet позволил компьютерному зрению стремительно развиваться благодаря достижениям, он принес полезные приложения в реальный мир и год за годом выходит за рамки всех тестов. Мы можем ожидать увидеть аналогичные эффекты для понимания и обнаружения 3D-объектов с выпуском этого набора данных.