«Фотошоп» для человеческой речи

Очень интересную научно-техническую разработку, которая в будущем может превратиться в популярное программное приложение. Если описать изобретение вкратце, то это программа для семантического редактирования человеческой речи. При этом применяется не просто стандартный метод синтеза из собранных фонем (компиляционный синтез), но и вспомогательные методы, которые повышают реалистичность. Это интеллектуальный выбор трифонов и использование специафических характеристик голоса образца.

В результате пользователь пишет произвольный текст - а программа озвучивает его тем голосом, на который её натренировали. Можно быстро добавить в речь любые слова или вырезать ненужные.

На практике программа, представленная в рамках проекта VoCo, работает следующим образом. Сначала собирается база фонем для голоса конкретного человека на определённом языке. Для реалистичных результатов программе нужно минимум 20 минут речи человека. Чем больше - тем лучше. На базе собранных фонем (трифонов) программа затем может собирать словно из кирпичиков практически любые новые слова.

Фрагмент презентации VoCo на конференции MAX

В каком-то смысле работает VoCo напоминает работу контекстной кисти в «Фотошопе». Она тоже берёт фрагменты из разных мест картинки - и собирает из этих фрагментов новое изображение. Кусочек леса с фотографии леса, кусочек травы из другой картинки и девочка с третьей фотографии - и мы получаем совершенно новое фотореалистичное произведение с лесом, травой и девочкой на переднем плане. Если работа выполнена профессионально, то монтаж очень сложно определить. Так в советские времена стирали из истории людей , которые внезапно стали врагами народа. Был человек на фотографии - а теперь там пустота или другой человек.

Так и технология VoCo позволяет дополнять речь человека произвольными словами и фразами.

На конференции MAX презентацию провёл один из разработчиков Цзэюй Цзинь (Zeyu Jin). В опубликованной ранее научной работе он указан как сотрудник Принстонского университета, вместе с коллегой Адамом Финкельштейном (Adam Finkelstein). Технология разрабатывалась подразделением Adobe Research совместно с Принстонским университетом.

По задумке Adobe, технология поможет создателям контента для более простого редактирования аудидорожки: диалогов и закадрового текста, чтобы быстро исправить ошибку или внести изменения в сюжетную линию.

Adobe подчёркивает, что в данном случае уместнее говорить о «преобразовании голоса», чем о классическом голосовом синтезе. Целью голосового преобразования (voice conversion) является такое преобразование оригинального голоса, чтобы для слушателя он казался голосом другого человека по образцу голоса последнего.

Более подробно технические основы голосового преобразования описаны в вышеупомянутой научной работе , подготовленной совместно с Принстонским университетом. Её авторы показывают, что разработанная техника CUTE качественно превосходит другие методы голосовой конверсии. Альтернативные способы конверсии обычно основаны на параллельном анализе идентичных фраз источника и цели с последующим вычислением неких векторов преобразования в каком-либо адресном пространстве. После этого любой произвольный фрагмент голоса оригинала может быть преобразован с помощью полученных векторов. Но эти методы страдают от неприятных побочных эффектов - синтезированная таким образом речь получается глухой, невнятной.

Исследователям Adobe удалось преодолеть недостатки других техник с помощью гибридного метода CUTE. В названии зашифрованы четыре основные составляющие компоненты этой техники: компиляционный синтез (Concatenative synthesis); выбор единицы (Unit selection); предварительный отбор трифонов, то есть единиц из трёх фонем (Triphone pre-selection); использование свойств образца (Exemplar-based features).

Компиляционный синтез сводится к составлению сообщения из предварительно записанного словаря фонем. Это главный метод работы синтезаторов речи, которыми оснащаются различные устройства: от военных самолётов до бытовых устройств, в справочных службах операторов сотовой связи и др.

Как понятно из названия, разработанная гибридная техника сочетает в себе несколько методов синтеза речи и голосового преобразования.

В научной работе приводятся результаты сравнительных тестов с другими методами голосовой конверсии, в которых CUTE значительно превосходит конкурентов. При этом упоминаются некоторые его недостатки: он также как и все страдает от недостаточного количества фонем в базе при синтезе новых слов, из-за чего генерируются фонетически правильные, но не очень реалистичные результаты. Кроме того, он зависит от работы движка распознавания речи для корректной фонетической сегментации.

Пока неизвестно, собирается ли Adobe реализовать эту перспективную разработку в виде реального коммерческого продукта. Но уже сейчас можно сказать, что такая программа стала бы очень востребованной, при условии реалистичности синтеза голоса из фонем. Например, её могли бы использовать подкастеры для генерации подкастов из текста. Её можно использовать также для озвучивания аудиокниг, используя голос произвольного человека (например, собственной девушки). Такая технология наверняка найдёт применение в Голливуде для озвучки кадров в отсутствие актёра. Например, если с ним разорвали контракт или он умер посреди съёмок.

Одним из немаловажных достоинств различных устройств, работающих под управлением ОС Android, является возможность использования их при чтении электронных книг. Для этой цели разработано достаточно много программ, основные из которых мы попробуем рассмотреть.

Cool Reader

Безусловным лидером в Play Market является программа от российских разработчиков – Cool Reader . Она опережает аналогичные продукты по:

Количеству скачиваний;
Числу поддерживаемых форматов – 12 в последней версии программы;
Рейтингу пользователей;

Дизайн не отличается особыми «наворотами», однако все необходимые параметры можно настроить под себя. Кроме начертания букв, их размера и подсветки очень удобная настройка тачскрина. Экран разделяется на девять областей, каждой из которых может быть назначено определенное действие на короткое и длинное касание пальцем.

FBReader

Отличительной особенностью программы является возможность ее установки в различной комплектации – дополнительные модули реализованы в виде плагинов, дополнительно скачиваемых с Play Market.

Голосовое чтение

Распознавание текста и чтение его голосом вслух на разных языках являются следующим шагом прогресса в разработке электронных читалок, добавляя в них функцию войс-ридера. Такое техническое решение позволит продолжить чтение любимой книги в дороге или параллельно с другими делами, освободив при этом глаза.

Установка движка

Для того чтобы превратить описанные выше читалки в полноценные войс-ридеры, в системе необходимо . В обзоре мы не будем подробно останавливаться на этом процессе, только дадим совет: к покупке дополнительных голосов нужно подходить очень внимательно. Обязательно следует прослушать семпл: некоторые русскоязычные голоса имеют свойство путать ударения и «съедать» окончания слов. Такие, на первый взгляд незначительные недостатки, при длительном прослушивании могут испортить впечатление от книги.

Голосовое чтение

Процесс чтения с помощью синтезатора речи несложный. В Cool Reader функция войс-ридера вызывается нажатием на иконку «Читать вслух» основного меню.

На нижней части экрана появляется пульт управления, и текст начнет читаться, начиная с текущей позиции.

В программе FBReader функция голосового чтения реализована гораздо интереснее и обладает расширенными возможностями. Для начала ее использования необходимо из Play Market установить дополнительный плагин .

Установив, идем в основное меню, выбираем в нем последний пункт «Читать вслух (+)».

Далее, как и в предыдущем случае, появляется панель управления голосовой читалкой, и текст начнет читаться с начала текущего абзаца. Помимо стандартных кнопок «Play/Pause», «Stop» и «Skip paragraph» можно изменить тембр голоса и скорость чтения, а также, не выходя в главное меню настроек ОС Android, изменить движок TTS системы.

Название: IVONA Русскоязычный синтезатор речи Татьяна + IVONA Reader
Разработчик: IVONA
Год: 2014
Платформа: PC
Язык интерфейса: Русский + Английский
Таблетка: Лекарство присутствует
Системные требования: PC, Intel Pentium 1 GHz processor, 512 MB RAM, Windows XP/Vista, sound card, disk space: IVONA Reader 40 MB, IVONA Voices 60 - 420 Mb per voice.

Описание : Компания IVONA Software является абсолютным лидером в области речевых технологий. Исходя из этого можно заключить, что и продукция IVONA по качеству наголову превосходит все аналоги. Над созданием голосов IVONA работали профессиональные дикторы.

Возможности: Позволяет компьютеру читать любой текст вслух для вас. Может читать документы, новости, RSS, книги, веб-страницы и электронные письма. Есть возможность сохранения текста в виде аудиофайла и таким образом использовать получившееся как аудиокнигу. С помощью KMPlayer, который может читать вслух субтитры, можно смотреть кино, не отвлекаясь взглядом на чтение субтитров [Как в KMPlayer запустить чтение субтитров голосовым синтезатором]. Голоса IVONA обладают естественным звуком речи и хорошим произношением, что может быть полезным для тех, кто изучает языки. Первоклассные движки поддерживают SAPI5 и запускаются в совместимости с внешними приложениями (например, Apple Itunes, Skype).

Инструкция по установке: УСТАНОВКА ДВИЖКОВ:
1. Скачать необходимые голоса.
2. Установить.
3. Скопировать dll из папки Crack for Voices и вставить с заменой в C:Program FilesIVONAIVONA 2 Voicex86 - для x86 bit Windows или C:Program Files (x86)IVONAIVONA 2 Voicex86 - для x64 bit windows.

4. Если в последствии потребуется дополнительно установить ещё какой-нибудь голос Ivona, то пункт 3 надо будет после этого повторить. При возникновении ошибки, необходимо предварительно удалить папку x86

УСТАНОВКА IVONA Reader:
1. Установить.
2. Заменить exe в каталоге с установленной программой на exe из папки Crack for Reader, Minireader.
Внимание: После лечения кол-во оставшихся дней изменится и заморозится.

УСТАНОВКА IVONA MiniReader:
1. Для работы в MiniReader необходимо просто его установить, он является свободным и лечить его не требуется...
2. НО для того, чтобы в MiniReader удалить две надписи "Buy IVONA Voice", при случайном нажатии на которые открывается браузер, необходимо заменить english.dll расположенный в C:Program FilesIVONAIVONA MiniReaderlang для x86 bit Windows или C:Program Files (x86)IVONAIVONAMiniReaderlang для x64 bit windows на аналогичный из папки Crack for Reader, Minireader.

Скачать торрент