+11 голос |
Непоганий огляд на голосову модель Sesame. Пишуть, що реалізм моделі такий, що користувачі повідомляють про емоційну прихильність до AI-асистента. Conversational Speech Model (CSM) від Sesame долає «зловісну долину» штучної мови, імітуючи людські недосконалості – паузи на вдих, сміх, застереження і самовиправлення.
На відміну від традиційних систем синтезу мовлення, CSM використовує два взаємопов'язаних AI-модулі (основний і декодер), навчених на приблизно мільйоні годин аудіо. Модель обробляє текст і аудіо одночасно, що робить мову природнішою, а в основі лежить, як не дивно, Llama. Загалом натреновано три моделі різних розмірів – від 1 до 8B в основному і від 100 до 300M у декодері.
Реакції користувачів варіюються від захоплення до занепокоєння. Дехто називає технологію «приголомшливою» і «першою справжньою розмовою з AI». Тоді як інші, наприклад редактор PCWorld Марк Хачман, описують взаємодію як «лячну». Особливо вражає здатність моделі розігрувати емоційні сценарії – наприклад, сварку з розгніваним начальником, що відмовляється робити ChatGPT.
Компанія Sesame, заснована Бренданом Айрібом, Анкітом Кумаром і Раяном Брауном, отримала значні інвестиції від Andreessen Horowitz та інших венчурних фондів. Вона планує зробити ключові компоненти своєї технології відкритими та розширити підтримку до більш ніж 20 мов.
Комп’ютерний розум: генеративний штучний інтелект у рішеннях AWS
+11 голос |