+11 голос |
Непоганий огляд на голосову модель Sesame. Пишуть, що реалізм моделі такий, що користувачі повідомляють про емоційну прихильність до AI-асистента. Conversational Speech Model (CSM) від Sesame долає «зловісну долину» штучної мови, імітуючи людські недосконалості – паузи на вдих, сміх, застереження і самовиправлення.
На відміну від традиційних систем синтезу мовлення, CSM використовує два взаємопов'язаних AI-модулі (основний і декодер), навчених на приблизно мільйоні годин аудіо. Модель обробляє текст і аудіо одночасно, що робить мову природнішою, а в основі лежить, як не дивно, Llama. Загалом натреновано три моделі різних розмірів – від 1 до 8B в основному і від 100 до 300M у декодері.
Реакції користувачів варіюються від захоплення до занепокоєння. Дехто називає технологію «приголомшливою» і «першою справжньою розмовою з AI». Тоді як інші, наприклад редактор PCWorld Марк Хачман, описують взаємодію як «лячну». Особливо вражає здатність моделі розігрувати емоційні сценарії – наприклад, сварку з розгніваним начальником, що відмовляється робити ChatGPT.
Компанія Sesame, заснована Бренданом Айрібом, Анкітом Кумаром і Раяном Брауном, отримала значні інвестиції від Andreessen Horowitz та інших венчурних фондів. Вона планує зробити ключові компоненти своєї технології відкритими та розширити підтримку до більш ніж 20 мов.
Стратегія охолодження ЦОД для епохи AI
+11 голос |