
Дослідники Массачусетського технологічного інституту (MIT) понад десять років розробляли методи, що дозволяють роботам знаходити об'єкти за перешкодами, буквально «бачачи» крізь них. Їхня технологія базується на радіосигналах, які проникають крізь поверхні та відбиваються від прихованих предметів.
Тепер команда використала генеративний штучний інтелект, щоб подолати головну проблему минулих років — низьку точність реконструкції. Новий метод дозволяє роботам не просто помічати об'єкт, а точно відтворювати його форму, щоб надійно схопити та маніпулювати ним, навіть якщо він повністю заблокований для зору.
Система створює часткову реконструкцію об'єкта на основі відбитих радіосигналів, а потім заповнює відсутні частини за допомогою спеціально навченої моделі генеративного AI.
Дослідники представили розширену систему, яка здатна відтворити всю кімнату з меблями, використовуючи лише один стаціонарний радар.
Система аналізує сигнали, що відбиваються від людей, які рухаються в просторі. Це дозволяє відмовитися від рухомих датчиків на самих роботах.
На відміну від камер, цей метод не ідентифікує обличчя та зберігає приватність мешканців дому.
«Ми розробили моделі генеративного AI, які допомагають нам розуміти бездротові відбиття. Це якісний стрибок: від заповнення невеликих прогалин до інтерпретації відбиттів і реконструкції цілих сцен. AI нарешті розблокував "бездротовий зір"», — каже Фадель Адіб (Fadel Adib), доцент MIT та керівник групи Signal Kinetics.
Головна технічна складність полягає в тому, що міліметрові хвилі (mmWave) відбиваються «дзеркально» — в одному напрямку. Через це сенсор бачить лише верхню частину об'єкта, а боки та низ залишаються невидимими.
Оскільки великих наборів даних для навчання радіочастотного AI не існувало, дослідники пішли на хитрість. Вони взяли величезні бази даних звичайних зображень, штучно додали до них властивості радіовідбиття (шум, дзеркальність) та навчили модель Wave-Former добудовувати форму об'єктів на основі цих синтетичних даних.
Таким чином точність реконструкції 70 типів побутових предметів (банок, коробок, фруктів), захованих за деревом, гіпсокартоном або пластиком, зросла на 20%.
Система для реконструкції сцен під назвою RISE використовує так звані «сигнали-привиди» (ghost signals). Це вторинні відбиття: сигнал відбивається від людини, потім від стіни, а вже потім повертається до сенсора. Зазвичай їх вважають шумом, але RISE аналізує ці «привиди» як джерело інформації про планування кімнати.
Випробування показали, що RISE вдвічі точніша за наявні аналоги в побудові карти приміщення лише за траєкторією руху людини.
За допомогою цієї розробки роботи зможуть перевіряти вміст запакованих коробок перед відправленням, не відкриваючи їх. Домашні роботи зможуть точно знати місцеперебування власника для безпечної взаємодії, не порушуючи приватність камерами. А у сфері логістиці можна реалізувати пошук товарів, завалених іншими предметами на полицях.
У майбутньому розробники планують створити величезні базові моделі (foundation models) для бездротових сигналів — аналог GPT або Gemini, але для світу радіохвиль.