ElevenLabs представляет базовую голосовую модель на основе искусственного интеллекта для 28 языков
Компания ElevenLabs запустила новую модель искусственного интеллекта для голосового воспроизведения речи. После длительного периода разработки, компания утверждает, что их новая модель, Eleven Multilingual V2, способна точно воспроизводить «эмоционально насыщенный» звук искусственного интеллекта на 28 разных языках. На протяжении 18 месяцев работы над моделью, созданной на основе собственных исследований, компания изучала особенности человеческой речи и разработала новые механизмы для контекстного понимания и выражения эмоций при генерации речи, а также для создания новых уникальных голосов.
ElevenLabs отметила, что теперь модель поддерживает больше языков, включая китайский, корейский, голландский, турецкий, шведский, индонезийский, филиппинский, японский, украинский, греческий, чешский, финский, румынский, Датский, болгарский, малайский, словацкий, хорватский, классический арабский и тамильский. Это расширение языковой поддержки позволит создателям контента разрабатывать аудиоматериалы, адаптированные к особым требованиям международных рынков в Европе, Азии и Ближнем Востоке.
Для использования функции генерации речи с помощью Eleven Multilingual v2, пользователи могут вводить текст на любом из языков, поддерживаемых платформой для преобразования текста в речь.
Тем не менее, независимо от того, используется ли синтетический голос или клонированный, компания объяснила, что у говорящего будут одинаковые голосовые характеристики на всех языках, включая его оригинальный акцент. Кроме того, один голос может использоваться для генерации речи на 28 поддерживаемых языках.
Мати Станишевски, генеральный директор и соучредитель ElevenLabs, заявил, что наши инструменты для преобразования текста в речь помогут установить равные условия и дадут возможность всем создателям получить аудио высочайшего качества. В настоящее время эти преимущества распространяются на многоязычные приложения, охватывая почти 30 языков. Кроме того, мы надеемся расширить количество поддерживаемых языков и голосов с помощью искусственного интеллекта и устранить языковые барьеры для доступа к контенту.
После публичного выпуска Professional Voice Cloning в начале этого месяца, последовало внедрение Eleven Multilingual v2. Это предложение позволяет пользователям создавать точную цифровую копию своего голоса. Благодаря последнему обновлению, этот инструмент теперь позволяет пользователям непосредственно переводить голосовой звук на любой из недавно добавленных языков.
Компания ElevenLabs, сообщает, что с момента запуска бета-версии в январе, уже более 1 миллиона пользователей, зарегистрированных в творческих, развлекательных и издательских сферах, используют их платформу. В июне компания успешно привлекла инвестиции в размере 19 миллионов долларов США в рамках серии A, где лидерами стали бывший генеральный директор GitHub Нат Фридман, бывший партнер Y Combinator Дэниел Гросс и Андреессен Горовиц.
Кроме того, ElevenLabs недавно заключила партнерское соглашение с платформой видеоконтента D-ID, которая использует генеративный искусственный интеллект. Целью этого сотрудничества является совместное использование инструментов генеративного искусственного интеллекта.