Google зробив мультимодальний AI для мобільних пристроїв

1 июль, 2025 - 16:25Sergey Petrenko

Google представив повну версію Gemma 3n – мультимодальної моделі, спеціально розробленої для роботи на мобільних пристроях. Модель підтримує зображення, аудіо, відео і текст, при цьому завдяки архітектурним інноваціям працює з пам'яттю всього 2-3 ГБ.

Ключова особливість – архітектура MatFormer за принципом матрьошки, де більша модель містить всередині меншу, повнофункціональну версію. Це дає змогу розробникам обирати між моделями E2B (ефективні 2 млрд параметрів) і E4B (4 млрд) залежно від завдань і обмежень пристрою.

Технологія Per-Layer Embeddings дає змогу розміщувати основну частину параметрів у звичайній пам'яті CPU, залишаючи у відеопам'яті тільки ключові ваги трансформера. Для опрацювання аудіо використовується енкодер на базі Universal Speech Model з підтримкою розпізнавання та перекладу мови, особливо ефективний для романських мов.

Новий візуальний енкодер MobileNet-V5 забезпечує обробку до 60 кадрів на секунду на Google Pixel, перевершуючи попередні рішення в 13 разів за швидкістю при значно меншому розмірі.

Модель має відкриті ваги, тому її вже можна завантажити на HuggingFace або спробувати в AI Studio.

Google зробив мультимодальний AI для мобільних пристроїв