Поговорити з AI по душах

6 марта 2025 г., 17:55

Непоганий огляд на голосову модель Sesame. Пишуть, що реалізм моделі такий, що користувачі повідомляють про емоційну прихильність до AI-асистента. Conversational Speech Model (CSM) від Sesame долає «зловісну долину» штучної мови, імітуючи людські недосконалості – паузи на вдих, сміх, застереження і самовиправлення.

На відміну від традиційних систем синтезу мовлення, CSM використовує два взаємопов'язаних AI-модулі (основний і декодер), навчених на приблизно мільйоні годин аудіо. Модель обробляє текст і аудіо одночасно, що робить мову природнішою, а в основі лежить, як не дивно, Llama. Загалом натреновано три моделі різних розмірів – від 1 до 8B в основному і від 100 до 300M у декодері.

Реакції користувачів варіюються від захоплення до занепокоєння. Дехто називає технологію «приголомшливою» і «першою справжньою розмовою з AI». Тоді як інші, наприклад редактор PCWorld Марк Хачман, описують взаємодію як «лячну». Особливо вражає здатність моделі розігрувати емоційні сценарії – наприклад, сварку з розгніваним начальником, що відмовляється робити ChatGPT.

Компанія Sesame, заснована Бренданом Айрібом, Анкітом Кумаром і Раяном Брауном, отримала значні інвестиції від Andreessen Horowitz та інших венчурних фондів. Вона планує зробити ключові компоненти своєї технології відкритими та розширити підтримку до більш ніж 20 мов.

Поговорити з AI по душах

Стратегія охолодження ЦОД для епохи AI