Meta відкриває АІ-технології, що дозволяють швидко і точно розпізнавати об’єкти на зображенні

6 апреля 2023 г., 9:35

Software

Дослідники штучного інтелекту з Meta Platforms заявили, що вони сподіваються демократизувати ключовий аспект комп’ютерного зору.

Компанія заявила, що випускає для дослідницької спільноти свою нову модель Segment Anything Model (SAM), а також набір даних масок Segment Anything 1-Billion, який називається SA-1B. Це має на меті заохотити подальші дослідження базових моделей, необхідних для створення комп’ютерного зору.

Сегментація є основним завданням комп’ютерного зору, яке дозволяє моделям АІ розпізнавати об’єкти на зображенні. Вона використовується в широкому спектрі застосувань, від аналізу наукових зображень до редагування фотографій. Однак завдання створення точної моделі сегментації для конкретних випадків використання - це те, що виходить за межі можливостей більшості дослідників АІ, оскільки вимагає вузькоспеціалізованої роботи технічних експертів і доступу до надзвичайно потужної інфраструктури навчання АІ та величезних обсягів анотованих і специфічних для домену даних.

Саме ці проблеми, як запевняє Meta, можна подолати за допомогою SAM і SA-1B, який є найбільшим набором даних сегментації, що коли-небудь випускався. Набір даних SA-1B надається для дослідницьких цілей, в той час як SAM випускається під дозвільною відкритою ліцензією.

Проєкт Segment Anything, як називають цю ініціативу, має на меті допомогти дослідникам, зменшивши потребу в спеціальних знаннях з моделювання, навчальних обчисленнях і спеціальних анотаціях даних. SAM було створено як базову модель для сегментації зображень.

Це модель, яка навчається на різноманітних даних і може бути адаптована до різних завдань, подібно до того, як підказки використовуються в моделях обробки природної мови. Проблема сегментації полягає в тому, що дані, необхідні для навчання такої моделі, недоступні в Інтернеті або деінде, на відміну від тексту, зображень і відео, яких є безліч.

Модель SAM вже засвоїла загальне уявлення про те, що таке об’єкти. Вона може генерувати «маски» для будь-якого об’єкта на будь-якому зображенні або відео, навіть для об’єктів і зображень, з якими вона раніше не стикалася. Маскування - це техніка, яка передбачає ідентифікацію об’єкта на основі зміни контрасту на його краях і відокремлення його від решти сцени. Дослідники Meta кажуть, що SAM є достатньо загальним, щоб охопити широкий спектр випадків використання і може бути використаний «з коробки» в будь-якій області зображень без додаткового навчання.

Як пояснює Мета, модельSAM поєднує в собі два поширені підходи до сегментації. Це інтерактивна сегментація, коли людина керує моделлю, ітеративно уточнюючи маску, і автоматична сегментація, коли модель робить це сама після навчання на сотнях або тисячах анотованих об’єктів.

Набір даних зображень SA-1B, що використовується для навчання САМ, містить понад 1,1 мільярда масок сегментації, зібраних з 11 мільйонів ліцензованих зображень зі збереженням конфіденційності, тобто в ньому в 400 разів більше масок, ніж у будь-якому іншому наборі даних. Великий обсяг даних дозволяє SAM узагальнювати нові типи об’єктів і зображень, що виходять за рамки того, на чому він навчався. В результаті фахівцям зі штучного інтелекту більше не потрібно буде збирати власні дані сегментації, щоб точно налаштувати SAM для конкретних випадків використання.

Стратегія охолодження ЦОД для епохи AI