Искусственный интеллект, разработанный израильтянами, способен дублировать фильмы голосами оригинала

Израильский стартап Deepdub разработал сервис для перевода видеоконтента на новые языки с помощью алгоритмов машинного обучения. Компания применяет нейронные сети для генерации речи оригинальных актеров из фильмов, телепередач, игр и рекламы. ИИ обрабатывает голоса, а затем переводит их на новый язык, сохраняя тембр, ритм, интонации и другие важные голосовые нюансы в работе профессионального артиста.

Deepdub обещает решить основные проблемы отраслей, связанных с озвучиванием и дублированием. По данным компании Aberdeen, в среднем на пять минут повествования уходит час работы в студии звукозаписи. А если актер дубляжа хочет максимально соответствовать исходной дорожке, то время, затраченное на дубляж, может увеличиться еще в два раза. При этом стоимость таких услуг составляет значительную часть бюджета для кинематографистов и разработчиков видеоигр — минута дублирования одного человека на один язык в среднем стоит около $75 для простого видео.

Стартап стремится создать универсальное решение для контент-мейкеров, которые хотят выйти на международный уровень или снизить собственные расходы на переводчиков. Используя синтетические голоса, основанные на оригинальных образцах голосов актеров, стартап дублирует фильмы, игры и рекламу на этапе постпродакшена. По словам разработчиков, помимо снижения затрат, дубляж с помощью нейросетей дает еще одно преимущество — ИИ воспроизводит голос оригинала, поэтому зритель всегда будет смотреть фильм в том виде, в котором его задумал режиссер и исполнил актер.«Наши модели искусственного интеллекта позволяют воспроизводить характеристики голоса, используя не более трех минут оригинальных голосовых данных. Голос, генерируемый ИИ, на целевом языке может воспроизводиться на любом уровне выразительности, включая плач, крик, разговор с едой во рту и многое другое — даже если исходные голосовые данные не содержали эту информацию», — рассказал соучредитель Deepdub Нир Краковски.

Дополнительно, алгоритмы Deepdub отслеживают мимику и движения губ актеров. Таким образом на выходе аудиодорожка стартапа полностью соответствует тому, как работают актеры озвучивания. Актуальная версия платформы поддерживает шесть языков, а стартап планирует добавить еще шесть новых до конца следующего года. В долгосрочной перспективе компания намерена также вывести свои алгоритмы на следующий уровень — научить ИИ дублировать голоса в режиме реального времени.

Среди известных работ Deepdub Красовски упомянул англоязычный триллер «Каждый раз, как я умираю» 2019 года. Стартап дублировал этот фильм на испанский и португальский языки. По словам разработчиков, это один из первых случаев, когда полноценный фильм с синтезированными голосами вышел в мировой прокат.

На днях Deepdub привлек $20 млн в рамках раунда серии A. Компания направит полученные средства на совершенствование своих технологий.