Новый ИИ генерирует голос за 500 миллисекунд. Его разработали инженеры Facebook, они заявили, что их метод быстрее аналогов в несколько десятков раз.
Социальная сеть Facebook представила высокоэффективную систему на основе ИИ, которая быстро преобразовывает текст в речь. Ее можно использовать в режиме реального времени и с использованием обычных процессоров. Исследователи рассказали о новом подходе для сбора данных — он позволил производить секунду звука за 500 миллисекунд.
Система Facebook сможет производить высококачественные голоса без необходимости использования специализированного оборудования. Специалисты компании отмечают, что система достигла 160-кратного ускорения по сравнению с аналогами. Это сделает его пригодным даже для устройств с ограниченными вычислительными возможностями.
Система Facebook состоит из четырех частей, каждая из которых фокусируется на различных аспектах речи: лингвистической, особенностях произношения, акустической модели и нейронной кодировке голоса.
ИИ преобразовывает текст в последовательность лингвистических цепочек — предложения и единицы звука, которые отличаются друг от друга в зависимости от того, в каком слове они используется. Модель также отвечает за особенности происхождения и стиль — ИИ может интерпретировать и прогнозировать ритмы речи, предложения и частоты.
Встраивание стилей позволяет системе создавать новые голоса —»мягкие»,»быстрые»,»формальные», при этом для их изменений требуется лишь небольшое количество данных. Для каждого стиля требуется всего 30 до 60 минут, утверждает Facebook — на порядок меньше, чем несколько часов записей, которые нужны для аналогичной системы Amazon.