Компьютер начал говорить

Да, это действительно так. На сегодняшний день язык, во всяком случае английский, компьютер освоил достаточно хорошо. Он не только говорит заранее записанными голосами известных актеров в саундтреках интерактивных игр, он умеет читать заранее написанные тексты и даже работать в качестве неплохого секретаря-референта. Хочу заметить, что проблема распознавания естественной речи стояла перед разработчиками софта и железа достаточно давно. Судите сами, практически любой человек может написать кому-нибудь письмо. Однако если он захочет это письмо распечатать или отправить по электронной почте, то придется человеку, помимо русского языка, осваивать еще и машинопись. В то же время, изучать все компьютерные премудрости только ради возможности черкнуть по-быстрому пару слов о погоде... Кстати сказать, достаточно привлекательной выглядит перспектива не читать электронные письма, а прослушивать их. Кроме того, по собственному опыту могу сказать, что нередко весьма полезно послушать только что написанный текст, ибо человек написанное и услышанное воспринимает по-разному. Любому, кто желает проверить сие высказывание самолично, рекомендую поэкспериментировать с программой, известной как "Голосовая мышь".

Я же в свою очередь хочу рассказать о нынешнем состоянии программ распознавания голоса. Не так давно попал ко мне весьма любопытный компакт-диск "Распознавание речи и управление ЭВМ голосом". Он представлял собой обычную солянку из пакетов интернет-телефонии, программ для обслуживания голосовых модемов и тому подобного. Однако среди них нашлась одна весьма любопытная штука под названием IBM VOICETYPE SIMPLY SPEAKING GOLD. Интерес эта программа представляет по двум причинам. Во-первых, компания IMB на сегодняшний день неоспоримо лидирует в области программ распознавания естественной речи. А во-вторых, IBM VOICETYPE была использована в качестве основы при разработке голосового интерфейса операционной системы OS/2.

Следует признать, несмотря на явную конкуренцию между IBM и Microsoft Corporation, IBM VOICETYPE поразительно легко и просто инсталлируется на компьютер с Microsoft Windows 95. Без каких бы то ни было проблем на компьютер устанавливаются три компонента: IBM VOICETYPE SIMPLY SPEAKING GOLD; IBM VOICETYPE DICTATION v.3.1.; IBM VOICETYPE DEVELOLOPER TOOLKIT v.3.1. Фактически, IBM VOICETYPE интегрируется во множество различных приложений, в первую очередь - в Microsoft Word.

На практике в Microsoft Word инициализируется модуль и инструментальная панель DICTATION, и сразу после старта текстовый процессор готов к общению на нормальном английском языке. Сразу после произнесения стандартного слова "dictation" редактор переходит в режим конспектирования. С этого момента IBM VOICETYPE пытается распознать естественную речь средней скорости и напечатать сказанное на английском. Однако процедура распознавания не ограничивается отдельными словами. Процесс идет как бы от точки до точки. Если IBM VOICETYPE не может однозначно распознать то или иное слово, то она стремится скорректировать его в зависимости от контекста последующей информации. Так, "оне", вероятнее всего будет воспринято как "one" (в смысле числительного), но если далее, по мнению программы, идет существительное, начинающееся с гласной, (например apple), то числительное будет тут же переписано на созвучный неопределенный глагол "an", и так далее.

Несмотря на столь странное поведение, в целом IBM VOICETYPE прекрасно справляется со стенографированием, даже если приходится записывать речь с сильным акцентом. Более того, так как IBM VOICETYPE позволяет производить точную настройку параметров распознавания буквально перед каждым сеансом работы, то система обеспечивает надежное функционирование даже в условиях высокой шумности, что является несомненным достоинством.

Изначально, IBM VOICETYPE содержит достаточно небольшой набор системных управляющих команд. Среди них: создать файл, открыть файл и так далее. Однако благодаря IBM VOICETYPE DEVELOLOPER TOOLKIT пользователь получает возможность настроить собственные голосовые режимы. Обычно после двух-трех попыток IBM VOICETYPE DEVELOLOPER TOOLKIT надежно запоминает произносимую команду и корректно обрабатывает ее. После двухчасовой практики, с помощью IBM VOICETYPE персональный компьютер удалось почти что приручить. Конечно, не совсем беспрекословно, однако достаточно качественно для нормальной работы.

Правда, есть одна сложность - встроенный активный словарь. При выборе и назначении команд следует помнить, что у IBM VOICETYPE существует режим, при котором программа автоматически набирает текстом все то, что не хранится в качестве голосового аналога системной команды. Поэтому если вы использовали созвучные выражения, то скорее всего IBM VOICETYPE начнет спотыкаться, чем испортит все дело.

Второй достаточно серьезной проблемой IBM VOICETYPE является встроенный модуль самообучения. Если программа решит, что правильно распознала слово или выражение, в смысле текстового эквивалента, но не уловила до конца вашей индивидуальной тонкости произношения, то она может "попросить" пользователя повторить слово пару раз и перезапишет совершенно исправный фрагмент. При плохом произношении можно вообще все испортить, так как IBM VOICETYPE DICTATION в состоянии все перепутать. Однако есть во всем этом и неоспоримо положительная сторона. Человек, еще только изучающий английский язык, получает прекрасный инструмент для контроля качества своего произношения.

Единственное, от чего сразу хочу предостеречь желающих поэкспериментировать с IBM VOICETYPE, - ее нельзя поставить на один вечер. Слишком уж многое IBM VOICETYPE переписывает в самой операционной системе и в пользовательских приложениях. Даже после деинсталляции, тот же Microsoft Word будет долго и витиевато ругаться при каждом старте. Работать это не мешает, но несколько раздражает. Не надейтесь, заболевание не лечится даже переустановкой всего офиса. Чтобы полностью от всего избавиться, вам придется переустановить всю операционную систему. Однако, по собственному опыту могу сказать, что сие есть вполне приемлемая плата за те преимущества, которые предоставляет IBM VOICETYPE.

Одно жалко - "говорит" этот инструментальный набор исключительно по-английски и переучиванию не поддается. Остается надеяться, что скоро возникнет острая потребность в подобных программах и в нашей стране, а вместе с ней и платежеспособный спрос, который и станет тем стимулом, благодаря которому у IBM появится желание "перевести" IBM VOICETYPE на русский. Полагаю, лишь тогда получится лучше, чем в известной программе "Горыныч", являющейся не чем иным, как достаточно топорной попыткой обмануть задаром продукт DRAGON VOICE, изначально также англоязычный. Александр Запольскис


Компьютерная газета. Статья была опубликована в номере 02 за 1999 год в рубрике soft :: текст

©1997-2024 Компьютерная газета