Китайцы научили нейросеть превращать речь в пение

Liqiang Zhang et al. / arXiv.org, 2019

Китайские разработчики создали алгоритм, способный синтезировать запись с пением человека на основе записи с его обычной речью, или же выполнять обратную задачу и синтезировать речь на основе пения. Статья с описанием разработки, обучения и тестирования алгоритма опубликована на arXiv.org.

В последние годы развитие нейросетевых алгоритмов для синтеза речи, таких как WaveNet, позволило создать системы, которые достаточно сложно отличить от реальных людей. Например, Google в 2018 году показала голосового помощника для бронирования мест, который умеет не только реалистично говорить, но и вставлять слова, придающие речи правдоподобность, например, «эмм». В результате компании пришлось также научить алгоритм предупреждать в начале разговора, что он не является человеком.

Как и в случае с другими нейросетевыми алгоритмами, успех систем синтеза речи во многом связан не с их архитектурой, а с большим объемом доступных данных для обучения. Создание системы синтеза пения представляет собой похожую на первый взгляд задачу, но на самом деле гораздо сложнее из-за значительно меньшей доступности данных. Многие разработчики систем генерации пения в последнее время шли по пути уменьшения объема необходимых образцов пения конкретного человека для обучения алгоритма, а теперь группа китайских исследователей под руководством Дуна Юя (Dong Yu) из компании Tencent создала систему, которая способна создавать реалистичную аудиозапись с пением, получая на вход только образцы речи.

Алгоритм основан на предыдущей разработке Tencent — нейросети DurIAN, предназначенной для синтеза реалистичных видеороликовс говорящим ведущим на основе текста. Перед DuarIAN в новом алгоритме установлен блок распознавания речи, который создает на основе входящей аудиозаписи фонемы с указанием их продолжительности, а также основные частоты. Эти данные попадают на блок, состоящий из кодировщика и декодировщика, который формирует мел-спектрограмму, которую отдельная нейросеть превращает в аудиозапись. Алгоритм может работать в обе стороны, конвертируя речь в пение и наоборот.

Авторы обучили алгоритм на двух собственных датасетах, состоящих из полутора часов пения и 28 часов речи. После обучения разработчики проверили эффективность алгоритма на 14 добровольцах, которые оценивали реалистичность синтезированного пения и похожесть тембра на исходную запись. В результате один из вариантов алгоритма набрал 3,8 балла по реалистичности и 3,65 по похожести. На сайте авторов опубликованы образцы работы нейросети.