Google AI выпустил свой набор данных, состоящий из 15K аннотированных видео и 4M аннотированных изображений.
Большинство исследований компьютерного зрения сосредоточено на двумерных изображениях, и они достигли исключительной точности благодаря достижениям в предсказании объектов.
В то время как прогнозирование двухмерных объектов предоставляет ограничивающие рамки, которые позволяют нам узнать, где находится объект на изображении, расширение этого метода для трехмерного прогнозирования позволит нам фиксировать размер, положение и ориентацию объекта. Прогнозирование трехмерных объектов имеет большой потенциал для различных приложений в робототехнике, беспилотных транспортных средствах, поиске изображений и дополненной реальности.
Несмотря на то, что методы обнаружения 2D-объектов являются зрелыми и широко используются в отрасли, расширение этих методов для методов обнаружения 3D-объектов из 2D-изображений является сложной задачей. Это связано с отсутствием больших реальных наборов данных аннотированных 3D-видео по сравнению с 2D-изображениями.
Подобно тому, как ImageNet позволил исследователям компьютерного зрения продвигать задачи с 2D-изображениями, команда Google AI выпустила набор данных Objectron для обнаружения 3D-объектов. Этот набор данных призван дать исследовательскому сообществу возможность улучшить понимание трехмерных объектов.
О наборе данных Objectron
Набор данных Objectron - это набор коротких объектно-ориентированных видеоклипов, в настоящее время содержащий 15 000 видеороликов с аннотациями. Он ориентирован на объектно-ориентированные мультиракурсы, наблюдая за одним и тем же объектом под разными углами.
Каждый видеоклип сопровождается метаданными сеанса AR, включая изображения в высоком разрешении, позу объекта, позу камеры, облако точек и плоскости поверхности.
Набор данных содержит вручную аннотированные трехмерные ограничивающие рамки для каждого объекта, которые описывают положение, ориентацию и размеры объекта.
Имея более 4 миллионов аннотированных изображений, изображения разделены на следующие категории:
bikes, books, bottles, cameras, cereal boxes, chairs, cups, laptops, and shoes.
Чтобы обеспечить географическое разнообразие, видеозаписи в наборе данных собираются из 10 стран на пяти континентах.
В этом руководстве рассказывается, как загружать и использовать наборы данных Objectron. Вы можете загрузить набор данных тремя способами:
- Используйте
gsutil
- Скачать через общедоступный HTTP API
- Скачать с помощью клиента Cloud Python.
В настоящее время, в ноябре 2020 года, размер набора данных составляет 1,9 ТБ, включая видео и аннотации.
Как выполнить обнаружение 3D-объекта
Наряду с набором данных команда поделилась своими решениями для прогнозирования трехмерных ограничивающих рамок. Они предоставили решения для четырех категорий объектов - обуви, стульев, кружек и фотоаппаратов. Вот несколько примеров результатов решения для обнаружения 3D-объектов, работающего на мобильном устройстве.
В отличие от ранее выпущенной одноступенчатой модели Objectron, эта новая версия использует двухступенчатую архитектуру.
На первом этапе используется модель обнаружения объектов TensorFlow для определения положения объекта в каждом кадре. Затем на втором этапе обрезанное 2D-изображение используется для оценки ограничивающего 3D-прямоугольника при одновременном вычислении 2D-кадрирования объекта для следующего кадра, так что детектору объекта не нужно запускать каждый кадр.
Двухступенчатый конвейер показан на этой схеме.
Этот двухступенчатый конвейер в 3 раза быстрее, чем предыдущий одноступенчатый конвейер с аналогичной или лучшей точностью. Мы даже можем отказаться от использования любого детектора 2D-объектов на первом этапе.
В этом руководстве показано, как использовать набор данных Objectron. SequenceExamples содержат всю видеопоследовательность и соответствующую аннотацию в них. Каждый пример последовательности состоит из двух частей: контекста и списков функций. Контекст - это атрибуты последовательности, которые применяются ко всей последовательности. Это отслеживает объекты в 3D в нескольких кадрах.
Вот результаты трехмерных ограничивающих рамок, взятых из записной книжки.
Как оценивать задачи обнаружения 3D-объектов
С помощью наземных аннотаций мы оцениваем производительность задач обнаружения 2D-объектов с помощью пересечения над объединением (IoU). Эта метрика оценки измеряет, насколько близки ограничивающие рамки к истине.
Для задач обнаружения 3D-объектов команда предлагает алгоритм из трех частей для вычисления точных значений 3D IoU для 3D-ориентированных блоков. Во-первых, мы вычисляем точки пересечения между гранями двух боксов, используя алгоритм отсечения многоугольника Сазерленда-Ходжмана. Объем пересечения вычисляется по выпуклой оболочке всех обрезанных многоугольников. Затем IoU вычисляется из объема пересечения и объема объединения двух блоков.
Команда выпустила этот исходный код 3D IoU вместе с набором данных, чтобы позволить исследовательскому сообществу сравнить производительность со стандартной метрикой оценки.
Итак, почему это так интересно?
С ростом популярности приложений и исследований для беспилотных автомобилей прогресс в понимании трехмерных объектов позволит определять размер, положение и ориентацию объектов в мире, тем самым улучшая возможности автономного вождения.
С появлением ARCore от Google и ARKit от Apple, а также с появлением сотен миллионов смартфонов теперь есть возможности дополненной реальности, это позволит нам собирать больше данных и создавать интересные приложения.
Подобно тому, как ImageNet позволил компьютерному зрению стремительно развиваться благодаря достижениям, он принес полезные приложения в реальный мир и год за годом выходит за рамки всех тестов. Мы можем ожидать увидеть аналогичные эффекты для понимания и обнаружения 3D-объектов с выпуском этого набора данных.