Microsoft работает над искусственным интеллектом под названием VALL-E, который может клонировать ваш голос из 3-секундного аудиоклипа

22 января 2023 в 17:01

31 просмотр

1 дочитывание

0 комментариев

Эта публикация уже заработала 0,05 рублей за дочитывания

Зарабатывать

Microsoft, которая планирует инвестировать 10 миллиардов долларов в ChatGPT, работает над искусственным интеллектом под названием VALL-E, который может клонировать чей-то голос из трехсекундного аудиоклипа.

Согласно опубликованному документу, VALL-E, обученный 60 000 часов английской речи, способен имитировать голос в «нулевых сценариях», что означает, что инструмент ИИ может заставить голос произносить слова, которые он никогда раньше не слышал. Корнельского университета, в котором разработчики представили инструмент.

Согласно 16-страничной статье, VALL-E использует технологию преобразования текста в речь для преобразования написанных слов в произнесенные слова в «высококачественных персонализированных» речах.

Для проведения выборки использовались записи более 7000 реальных ораторов из LibriLight — набора данных аудиокниг, состоящего из общедоступных текстов, прочитанных добровольцами. Технический гигант выпустил образцы того, как будет работать VALL-E , демонстрируя, как клонируется голос говорящего.

Инструмент искусственного интеллекта в настоящее время недоступен для публичного использования, и Microsoft не дала понять, для чего он предназначен.

Исследователи заявили, что результаты на данный момент показали, что VALL-E «значительно превосходит» самые передовые системы в своем роде «с точки зрения естественности речи и сходства говорящих».

Но они указали на отсутствие разнообразия акцентов у говорящих и на то, что некоторые слова в синтезированной речи были «неразборчивы, пропущены или дублированы».

Они также включили этическое предупреждение о VALL-E и связанных с ним рисках, в котором говорилось, что инструмент может быть использован не по назначению, например, для «подмены голосовой идентификации или выдачи себя за определенного говорящего».

«Чтобы снизить такие риски, можно построить модель обнаружения, чтобы различать, был ли аудиоклип синтезирован VALL-E», — пишут разработчики в статье. Подробностей о том, как это можно сделать, они не сообщили.

Они добавили, что «если модель обобщается на невидимых говорящих в реальном мире, она должна включать протокол, гарантирующий, что говорящий одобряет использование своего голоса».

Тем временем Microsoft объявила в понедельник, что сделает OpenAI ChatGPT доступным для своих собственных сервисов после того, как объявила о своей заинтересованности в инвестировании 10 миллиардов долларов в инструмент для написания ИИ.

Хотя ChatGPT вдохновил на творчество человека, который, например, написал с его помощью детскую книгу за один уик-энд, он вызвал опасения по поводу того, можно ли доверять этому инструменту.

Понравилась публикация?

да

9 / 0

нет

Донаты ₽