Представляем Objectron: следующий этап в понимании трехмерных объектов

Google AI выпустил свой набор данных, состоящий из 15K аннотированных видео и 4M аннотированных изображений.

Большинство исследований компьютерного зрения сосредоточено на двумерных изображениях, и они достигли исключительной точности благодаря достижениям в предсказании объектов.

В то время как прогнозирование двухмерных объектов предоставляет ограничивающие рамки, которые позволяют нам узнать, где находится объект на изображении, расширение этого метода для трехмерного прогнозирования позволит нам фиксировать размер, положение и ориентацию объекта. Прогнозирование трехмерных объектов имеет большой потенциал для различных приложений в робототехнике, беспилотных транспортных средствах, поиске изображений и дополненной реальности.

Несмотря на то, что методы обнаружения 2D-объектов являются зрелыми и широко используются в отрасли, расширение этих методов для методов обнаружения 3D-объектов из 2D-изображений является сложной задачей. Это связано с отсутствием больших реальных наборов данных аннотированных 3D-видео по сравнению с 2D-изображениями.

Подобно тому, как ImageNet позволил исследователям компьютерного зрения продвигать задачи с 2D-изображениями, команда Google AI выпустила набор данных Objectron для обнаружения 3D-объектов. Этот набор данных призван дать исследовательскому сообществу возможность улучшить понимание трехмерных объектов.

О наборе данных Objectron

Набор данных Objectron - это набор коротких объектно-ориентированных видеоклипов, в настоящее время содержащий 15 000 видеороликов с аннотациями. Он ориентирован на объектно-ориентированные мультиракурсы, наблюдая за одним и тем же объектом под разными углами.

Каждый видеоклип сопровождается метаданными сеанса AR, включая изображения в высоком разрешении, позу объекта, позу камеры, облако точек и плоскости поверхности.

Набор данных содержит вручную аннотированные трехмерные ограничивающие рамки для каждого объекта, которые описывают положение, ориентацию и размеры объекта.

Имея более 4 миллионов аннотированных изображений, изображения разделены на следующие категории:

bikes, books, bottles, cameras, cereal boxes, chairs, cups, laptops, and shoes.

Чтобы обеспечить географическое разнообразие, видеозаписи в наборе данных собираются из 10 стран на пяти континентах.

В этом руководстве рассказывается, как загружать и использовать наборы данных Objectron. Вы можете загрузить набор данных тремя способами:

Используйте gsutil
Скачать через общедоступный HTTP API
Скачать с помощью клиента Cloud Python.

В настоящее время, в ноябре 2020 года, размер набора данных составляет 1,9 ТБ, включая видео и аннотации.

Как выполнить обнаружение 3D-объекта

Наряду с набором данных команда поделилась своими решениями для прогнозирования трехмерных ограничивающих рамок. Они предоставили решения для четырех категорий объектов - обуви, стульев, кружек и фотоаппаратов. Вот несколько примеров результатов решения для обнаружения 3D-объектов, работающего на мобильном устройстве.

В отличие от ранее выпущенной одноступенчатой модели Objectron, эта новая версия использует двухступенчатую архитектуру.

На первом этапе используется модель обнаружения объектов TensorFlow для определения положения объекта в каждом кадре. Затем на втором этапе обрезанное 2D-изображение используется для оценки ограничивающего 3D-прямоугольника при одновременном вычислении 2D-кадрирования объекта для следующего кадра, так что детектору объекта не нужно запускать каждый кадр.

Двухступенчатый конвейер показан на этой схеме.

Этот двухступенчатый конвейер в 3 раза быстрее, чем предыдущий одноступенчатый конвейер с аналогичной или лучшей точностью. Мы даже можем отказаться от использования любого детектора 2D-объектов на первом этапе.

В этом руководстве показано, как использовать набор данных Objectron. SequenceExamples содержат всю видеопоследовательность и соответствующую аннотацию в них. Каждый пример последовательности состоит из двух частей: контекста и списков функций. Контекст - это атрибуты последовательности, которые применяются ко всей последовательности. Это отслеживает объекты в 3D в нескольких кадрах.

Вот результаты трехмерных ограничивающих рамок, взятых из записной книжки.

Как оценивать задачи обнаружения 3D-объектов

С помощью наземных аннотаций мы оцениваем производительность задач обнаружения 2D-объектов с помощью пересечения над объединением (IoU). Эта метрика оценки измеряет, насколько близки ограничивающие рамки к истине.

Для задач обнаружения 3D-объектов команда предлагает алгоритм из трех частей для вычисления точных значений 3D IoU для 3D-ориентированных блоков. Во-первых, мы вычисляем точки пересечения между гранями двух боксов, используя алгоритм отсечения многоугольника Сазерленда-Ходжмана. Объем пересечения вычисляется по выпуклой оболочке всех обрезанных многоугольников. Затем IoU вычисляется из объема пересечения и объема объединения двух блоков.

Команда выпустила этот исходный код 3D IoU вместе с набором данных, чтобы позволить исследовательскому сообществу сравнить производительность со стандартной метрикой оценки.

Итак, почему это так интересно?

С ростом популярности приложений и исследований для беспилотных автомобилей прогресс в понимании трехмерных объектов позволит определять размер, положение и ориентацию объектов в мире, тем самым улучшая возможности автономного вождения.

С появлением ARCore от Google и ARKit от Apple, а также с появлением сотен миллионов смартфонов теперь есть возможности дополненной реальности, это позволит нам собирать больше данных и создавать интересные приложения.

Подобно тому, как ImageNet позволил компьютерному зрению стремительно развиваться благодаря достижениям, он принес полезные приложения в реальный мир и год за годом выходит за рамки всех тестов. Мы можем ожидать увидеть аналогичные эффекты для понимания и обнаружения 3D-объектов с выпуском этого набора данных.

смотрите также:

Новые материалы

Как работает промежуточный надзор, часть 2 (машинное обучение)

Эффективная сегментация медицинских изображений с промежуточным механизмом наблюдения (arXiv) Автор: Ди Юань , Цзюнян Чен , Чжэнхуа Сюй , Томас Лукасевич , Чжиган Фу , Гуйчжи Сюй ...

Что такое A11y (и почему вы должны его использовать)

Возможно, вы слышали об атрибутах W3C или ARIA, но что они на самом деле означают? Доступность определяется как процесс разработки продуктов, устройств и сред, которые могут использовать люди..

День 76/100 Книга

День 76/100 Книга Обучение — это непрерывный процесс с ресурсами, широко используемыми людьми, которые признают сложный путь достижения успешной цели. Хотя поначалу это может показаться..

Gmail Smart Compose: умный способ написать электронное письмо

Gmail означает почту Google, это бесплатная служба электронной почты, предоставляемая Google по всему миру. Google официально запустил Gmail в 2004 году, и в настоящее время этой услугой..

API следующего поколения: gRPC n Javascript

gRPC - быстро развивающаяся технология, которая потенциально может заменить протокол HTTP. Это быстрее, чем традиционные HTTP-вызовы, потому что он отправляет данные в двоичном формате, а не в..

Ускоренный курс по жадным алгоритмам

Дай мне, дай мне, дай мне Аудитория Эта статья предназначена для инженеров, достаточно хорошо разбирающихся в программировании, структурах данных и алгоритмах. Он в основном основан на..

Изучайте Java (Урок 2: Комментарии)

Как и зачем использовать комментарии в java с примерами Введение: Комментарии — это строки текста в программе Java, которые игнорируются компилятором и используются для добавления..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Coding Web Development Deep Learning AI React Software Engineering Nodejs Typescript Java Front End Development CSS NLP Development Data Computer Science Algorithms Productivity ChatGPT Tech HTML Tutorial Reactjs API Neural Networks Mathematics Javascript Tips Programming Languages Statistics Angular AWS Javascript Development Computer Vision