+22 голоса |
Google представив повну версію Gemma 3n – мультимодальної моделі, спеціально розробленої для роботи на мобільних пристроях. Модель підтримує зображення, аудіо, відео і текст, при цьому завдяки архітектурним інноваціям працює з пам'яттю всього 2-3 ГБ.
Ключова особливість – архітектура MatFormer за принципом матрьошки, де більша модель містить всередині меншу, повнофункціональну версію. Це дає змогу розробникам обирати між моделями E2B (ефективні 2 млрд параметрів) і E4B (4 млрд) залежно від завдань і обмежень пристрою.
Технологія Per-Layer Embeddings дає змогу розміщувати основну частину параметрів у звичайній пам'яті CPU, залишаючи у відеопам'яті тільки ключові ваги трансформера. Для опрацювання аудіо використовується енкодер на базі Universal Speech Model з підтримкою розпізнавання та перекладу мови, особливо ефективний для романських мов.
Новий візуальний енкодер MobileNet-V5 забезпечує обробку до 60 кадрів на секунду на Google Pixel, перевершуючи попередні рішення в 13 разів за швидкістю при значно меншому розмірі.
Модель має відкриті ваги, тому її вже можна завантажити на HuggingFace або спробувати в AI Studio.
Google зробив мультимодальний AI для мобільних пристроїв
+22 голоса |