AI навчили розуміти 3D-світ навіть за браку даних

8 апрель, 2026 - 15:35

Уявіть, що безпілотний автомобіль або дрон не просто бачить нагромадження геометричних фігур, а розуміє їхній сенс так само блискавично, як і ми. Людина на переході, покинутий на тротуарі велосипед чи собака, що біжить через подвір'я - для нас ці образи миттєві. Для машин, що покладаються на дані, це довгий час залишалося серйозним викликом.

Дослідники Каунаського технологічного університету (KTU) розробили модель, яка виводить аналіз тривимірного простору на новий рівень, наближаючи машинний зір до людського сприйняття.

Основою технології є 3D-хмари точок - мільйони надточних лазерних вимірювань, зібраних у єдину тривимірну карту. Проблема в тому, що ці дані неструктуровані (точки розташовані хаотично), нерівномірні (об'єкти поблизу виглядають чіткими, а віддалені - як розріджений «пил») та дисбалансовані (доріг та будівель у кадрі багато, а таких критично важливих об'єктів, пішоходи, - обмаль).

«Уявіть величезний заплутаний 3D-пазл із мільйонів частинок, який потрібно розсортувати на осмислені об’єкти. Наша модель діє як надрозумний та ефективний розв'язувач таких пазлів», - пояснює професор KTU Ритіс Маскелюнас (Rytis Maskeliūnas).

Замість того щоб аналізувати кожну деталь окремо, нова модель KTU використовує трансформерну архітектуру. Це дозволяє системі бачити зв'язки у всій сцені одночасно, а не лише в ізольованих регіонах.

Серед головних переваг моделі слід зазначити контекстуальне мислення. Якщо безпілотник бачить лише кілька точок від частково закритого пішохода в сутінках, він аналізує оточення (стовп, пішохідний перехід) і робить правильний висновок про присутність людини, навіть якщо даних бракує.

Система обробляє складні сцени всього за 2 секунди на кадр, зберігаючи високу точність.

Модель дозволяє передавати масивні 3D-дані майже в реальному часі без втрати важливих деталей.

Потенціал розробки виходить далеко за межі автономного транспорту. Це можуть бути пошуково-рятувальні операції, де роботи зможуть краще орієнтуватися в завалах; цифрові двійники міст зі створенням віртуальних копій мегаполісів для моніторингу змін у реальному часі; археологія та криміналістика з реконструкцією об'єктів за розрізненими та неповними даними; а також доповнена реальність (AR) з безшовною інтеграцією цифрового контенту в складне фізичне середовище.