Исследователи из Apple, Нанкинского университета и Гонконгского технологического университета создали новую 3D-модель на основе ИИ под названием Matrix3D. Благодаря ей трёхмерные объекты и сцены можно воссоздать всего по нескольким двумерным фотографиям.
Matrix3D работает по принципам фотограмметрии, объединяя в единой архитектуре оценку позы, определение глубины и сведения параметров камеры — угла обзора и фокусного расстояния. Ранее для каждого из этих этапов требовались отдельные модели, что нередко влечёт за собой погрешности. Теперь все операции выполняются одновременно, что упрощает процесс и повышает точность результатов.
При обучении учёные применили стратегию маскированного обучения: часть входных данных намеренно скрывалась, и модель училась заполнять образовавшиеся пробелы. Такой подход позволил добиться высокой эффективности даже при использовании скромных и неполных наборов изображений.
В тестах оказалось, что при трёх фотографиях Matrix3D выдаёт детализированные 3D-реконструкции как отдельных предметов, так и целых пространств. Предполагается, что модель найдёт применение в создании контента для иммерсивных гарнитур, включая будущие версии Apple Vision Pro.
Команда разработчиков опубликовала исходный код Matrix3D на GitHub и запустила сайт с демонстрациями возможностей новой фотограмметрической модели.