Старший преподаватель кафедры «Информатика и вычислительная техника» Института прикладных информационных технологий Грозненского государственного нефтяного технического университета имени академика М.Д.Миллионщикова Элиса Израилова последние несколько лет занимается исследованием в области речевых технологий. Основная научно-практическая задача – моделирование системы синтеза чеченской речи на основе глубоких сверхточных нейронных сетей.
Элиса Израилова, Фотот: Пресс-служба ГГНТУ
Основной характеристикой систем искусственного интеллекта, к которым относятся современные программы синтеза и распознавания речи, является обучение на предварительно созданных текстовых и речевых базах данных. От качества и объема этих баз данных зависит качество речевого сигнала. Была подготовлена небольшая экспериментальная база данных, состоящая из 5 часов речи, представленная в виде нескольких тысяч предложений, озвученных женским голосом. Затем запущено пробное обучение системы на подготовленной базе данных.
Эксперимент по машинному обучению был ориентирован как на положительный, так и на отрицательный результат, так как после обучения подобные системы могут выдавать как непонятные звуки, щелчки, свист, так и речь. Результат превзошел ожидания - удалось синтезировать чеченскую речь!
Качество синтезируемой речи по предварительным оценкам среднее. Некоторые слова система еще плохо читает, не всегда правильно озвучиваются долгие и краткие гласные, голос системы – роботизированный, но на данном первоначальном этапе результат эксперимента является в большей мере положительным. Разработчик проекта Элиса Израилова поблагодарила руководство ГГНТУ за содействие: эксперимент по машинному обучению системы удалось реализовать на базе современного оборудования в Хайпарке ГГНТУ.
Прослушать образцы синтеза речи, озвученные созданной системой, можно по ссылке.