Компьютер по-японски

Компьютер по-японски

Некоторые языки можно записать при помощи двадцати шести знаков. Другие же требуют знания нескольких тысяч только для ежедневных нужд. Языки, которые относятся к первому типу, очень легко уживаются с любыми системами автоматизации письма. А вот народы, использующие некириллические и нероманские алфавиты, еще со времен изобретения печатного станка вынуждены решать проблему адаптации письма. Об их успехах и поражениях на этом пути мы сегодня и поговорим.

Конечно же, каждый язык имеет свои неповторимые особенности, и говорить об истории "взаимоотношений" восточных языков с компьютером в общем было бы некорректно. Поэтому остановимся на одном из них — на японском.
Двадцать пять лет прошло со времен изобретения японского текстового процессора. Японцы называют его "wapro" — это сокращение от "word processor" (поскольку в японском языке нет звука "wо", "word" звучит как "wado"). Изобретение вапро стало кульминацией длительного и тяжелого поиска машины, которая могла бы набирать быстрее, чем рука человека — писать.
Первый японский текстовый процессор появился в 1978 году, но его разработка началась еще в 1971-м. Именно тогда инженеру компании Toshiba Мори Кениши, который часто общался с представителями прессы, пришла в голову интересная идея. В разговоре с ним кто-то упомянул о низкой скорости работы... японских журналистов по сравнению с их американскими коллегами. Мори пришел к выводу, что они медленно работают потому, что не располагают подходящими инструментами для работы. В те дни большинство японских журналистов все еще пользовались ручками и бумагой (в начале семидесятых!). Правда, некоторыми техническими достижениями они все же могли пользоваться. Например, китайскими клавиатурами для набора иероглифов, которые задействовали не только обе руки, но и обе ноги, так как у них были педали. Только представьте, как удобно и быстро можно было работать на таком тракторе:).

Были также пишущие машинки, но работа с ними требовала знакомства с системой из нескольких тысяч иероглифов. Оба приспособления, понятное дело, были очень медленными, и, к тому же, нужно было очень много времени, чтобы хоть как-то научиться ими пользоваться.
Изобретателем японской пишущей машинки был Сигимота Кета (1882-1972). Его часто называют Эдисоном Японии. Ученый начал с изучения частоты использования иероглифов и выделил необходимый минимум в две тысячи четыреста знаков (полные словари японского языка содержат до пятидесяти тысяч). Сигимото разделил эти знаки на три группы в соответствии с частотой использования и расположил на своей клавиатуре. Знаки первой группы заняли место посередине, второй — слева и справа, третьей — в дальних концах клавиатуры.
Например, знаки, относящиеся к первой группе, включали в себя буквы японской азбуки (наряду с иероглифами в японском языке используются две фонетические азбуки по 46 знаков в каждой), знаки препинания, а также иероглифы, употребляемые наиболее часто. Например, обозначающие улицу, город, год, месяц, день, стороны света, числа и т.д.
Если же пользователю нужен был знак, который не вошел в эти две с половиной тысячи, он должен был отдельно докупать (!) нужные ему иероглифы. Таким образом, такая печатная машинка хоть и увеличивала скорость набора (потратив огромное количество времени на обучение, на ней можно было печатать в два раза быстрее, чем писать), все же оставалась очень неудобной. Машинистки из офисов ежедневно бегали в магазины по соседству и докупали редкие иероглифы (например, для обозначения имен), необходимые для того или иного документа. Понятное дело, что такие печатные машинки использовались только для официальных документов, таблиц или первых копий. В быту же японцы продолжали выводить иероглифы вручную.

Барьер скорости мог быть преодолен только при помощи средств электроники. Нужна была очень сложная печатная машинка, которая могла бы не просто уметь "читать" знаки, а и "управлять" языком. При этом она должна была быть доступна не только опытным наборщикам, но и простым обывателям. Одним словом, Мори представил себе пишущую машинку, которая могла бы печатать быстрее, чем человек — писать. К тому же, она должна была быть портативной и обязана была уметь передавать набранный текст по телефонным линиям. Через семь лет Мори и команда инженеров создали машину, которая смогла намного больше, чем было задумано с самого начала. Но в 1971-м все только начиналось.
Мори решил, что "в основе задания инженера — его понимание того, что технологические открытия — это не просто пересмотр того, что существовало ранее, а полный отказ от существовавших схем". Для того чтобы преодолеть барьеры, стоявшие на пути у тех, кто делал попытки до них, инженеры должны были посмотреть на проблему по-новому.
Поиски решения начались с того, что Мори... стал изучать японскую грамматику под руководством профессора Киотского университета. Ключом к созданию подобной машины должно было стать решение главных проблем, которое до сих пор не было найдено. Этими проблемами были: использование на письме множества китайских иероглифов, огромное количество омонимов в языке и двусмысленность синтаксиса.
Если пользователям предстояло набирать текст с клавиатуры стандартного размера, разработчики должны были найти способ набора иероглифов посредством ввода фонетических звуков японского алфавита (каны).
Кстати говоря, система конвертирования каны в иероглифы была изобретена не Мори, а работниками лаборатории научно-технических исследований Японской радиокомпании (NHK) Аизава Теруаки и Эхара Терумаза в 1973-м году. Стимулом для этого открытия стало желание NHK усовершенствовать читабельность новостей, полученных телексом из-за границы. Такие новости были полностью набраны при помощи фонетической азбуки.

Научная разработка предлагала способ конвертирования текста, набранного при помощи фонетической азбуки, в сложный текст, в котором присутствовали и иероглифы, и кана. Когда при помощи системы конвертирования на компьютере IBM была обработана статья, состоящая из семи тысяч фраз, точность преобразования иероглифов из каны составила 77.5%.
Этого было достаточно для того, чтобы "читать" новости, но мало — чтобы создать универсальный текстовый процессор. Чтобы усовершенствовать нормы конвертирования, команда Toshiba должна была разработать синтаксические и словарные формы, приемлемые для компьютера. Инженеры создали новую систему классификации глаголов и начали использовать систему относительной частоты повторения слов.
В японском языке слова пишутся слитно, поэтому компьютер часто не мог определить, где начинается и заканчивается слово, и предлагал пользователю выбрать из огромного количества комбинаций, большая часть из которых была грамматически неправильной. Например, фраза "hitowa" могла быть прочитана как "hi towa" ("солнце") или "hito wa" ("люди"). Мори и его команда внедрили новый метод, и теперь компьютер предлагал пользователю только грамматически правильные комбинации, автоматически отсеивая все неправильные.
Также были найдены новые системы, по которым определялись правильные и неправильные глаголы, а также подбирались окончания в зависимости от строения предложения (японские глаголы, как и русские, спрягаются, а также имеют форму прошедшего времени).
Были также пересмотрены категории существительных. Кроме имен нарицательных и имен собственных, была выделена группа существительных, которые могут быть преобразованы в глаголы при помощи глагола "суру" ("делать"). В японском языке такой способ словообразования встречается довольно часто. Выделение подобных существительных в отдельную группу упрощало процесс поиска и ускоряло работу. Так, если в тексте встречалось, например, слово "бенкёсуру" (учиться), программа искала иероглифы не для всех существительных, которые произносятся как "бенкё", а лишь для тех, которые могут употребляться с глаголом "суру".

Все эти разработки и легли в основу новой системы японской грамматики, созданной для текстового процессора.
Но и это было еще не все. Самым большим достижением команды Toshiba, несомненно, была система относительной частоты повторения слов.
Японский язык имеет предрасположенность к омонимии, поскольку звуков в нем не так-то и много. Поэтому несколько абсолютно разных по значению слов, которым соответствуют разные иероглифы, могут произноситься одинаково и, соответственно, одинаково записываться фонетической азбукой. Скажем, японское слово "ками" имеет очень много значений, совершенно не связанных между собой: "Бог", "волосы", "бумага" и т.д.
Для того чтобы компьютер мог выбирать из многих вариантов (иногда их может быть до двадцати) наиболее подходящие слова, исследователи сначала предложили систему ассоциаций по значению слова, но она оказалась слишком сложной. Тогда и была изобретена система относительной частоты повторения слов. То, какой именно иероглиф ставился на первое место среди вариантов замены, зависело только от текста. Текстовый процессор подсчитывал, насколько часто наборщик использует каждое слово в тексте, и те иероглифы, которые использовались чаще всего, перемещались наверх списка, в котором предлагались альтернативные чтения слова или фразы. Позднее Мори говорил: "Если бы нам не удалось создать систему относительной частоты повторения слов, возможно, у японцев до сих пор не было бы текстового процессора".
Немного позднее изобретателям пришлось поломать голову и над созданием словаря. Сначала было решено использовать слова, занесенные в существующие печатные словари, но в них не было очень многого: специальной лексики, используемой в делопроизводстве, обязательных формальных фраз, употребляемых в япоской корреспондении, имен собственных, диалектизмов и т.д.
Не имея совершенно никаких предварительных исследований, на которые можно было бы опереться, группа Toshiba самостоятельно составила собственный словарь на основе многих источников: от университетских учебников до пособий по написанию деловых писем. Интересный факт: в процессе работы разработчики обращались даже в Национальный институт изучения языка, но им было отказано в помощи. Институт объяснил это тем, что не помогает предприятиям, которые носят коммерческий характер.

Когда Мори и его команда наконец-то загрузили программу в вычислительную машину, результаты превзошли все ожидания. В 1976-м, через пять лет после возникновения идеи создания, текстовый процессор был одобрен руководством Toshiba и стал ее официальным проектом.
Теперь появилось другое задание — разработка подходящего аппаратного обеспечения. Прототип машины был собран очень быстро, но используемое оборудование было очень дорогим. Цена текстового процессора составляла двадцать миллионов йен (около $70.000). К тому же, он был очень громоздким. И тут на помощь пришел микропроцессорный чип, который в то время только начинал появляться во всем мире. Используя его, разработчики смогли существенно уменьшить размеры устройства. Теперь внимание было сосредоточено на принтере и мониторе.
Самой тяжелой проблемой была печать иероглифов, для которой требовалась игольчатая матрица с разрешением 24х24. Разработчики остановились на недорогом варианте — матричном принтере, который печатал знаки, ударяя металлическими иглами по ленте, пропитанной чернилам. Сам шрифт также был изменен. Благодаря этому даже сложные иероглифы при печати через копирку не превращались в непонятные кляксы.
Следующей проблемой стал выбор клавиатуры. Несколько сотен тысяч печатных машинок, существовавших в Японии на то время, уже использовали промышленный стандарт (JIS). Несмотря на разработку нескольких альтернативных раскладок, которые казались более удобными, чем JIS, команда исследователей Toshiba была вынуждена остановиться на последней как на уже существующем стандарте де-факто.
Первый текстовый процессор под названием JW-10, сразу же окрещенный для краткости "вапро", впервые появился на Токийской выставке информационных технологий осенью 1978 года. Его цена составила 6.3 миллиона йен (около $22 тысяч).
Поначалу вапро критиковали и хвалили в одинаковой мере. Даже после того как его изобретатели удостоились награды Научно-технического представительства и Японского общества содействия развитию компьютерной индустрии, нападки на текстовый процессор не прекращались. Известный японский писатель Ватанабе Джуниши заявил, что вапро, может, и удобная вещь, но "настоящие писатели пишут романы при помощи бумаги". Другие говорили о том, что зависимость от вапро приведет к тому, что все забудут, как нужно писать иероглифы, что, в свою очередь, будет означать упадок национальной культуры.

Несмотря на полемику, Мори Кениши и его команда инженеров Toshiba в 1992 году были награждены призом за лучшую разработку для национальной культуры. Организаторы конкурса отметили "огромный вклад, который вапро внес в культуру печатного слова нации благодаря тому, что его используют везде: и в офисах, и в каждом доме".
Вапро действительно стал таким, каким его видели создатели. Он позволяет управлять японским текстом быстрее и эффективнее, чем вручную. Сегодня в продаже огромное количество различных текстовых процессоров, а также программного обеспечения для персональных компьютеров. Даже писатели старой закалки и школьники переходят на новый инструмент для письма. Однако и для разработчиков следующих поколений работа найдется — все еще нужно совершенствовать механизм конвертирования букв в иероглифы и пополнять словарные базы. В скором времени вапро станет еще более мощным инструментом, чем сегодня, и сможет предложить японским писателям более широкую палитру для выражения экспрессии.
Многие европейцы и американцы (или "евроамериканцы", как называют нас японцы) никак не могут понять, почему этот народ не откажется от своих иероглифов и не перейдет полностью на "нормальный" фонетический алфавит. Ведь тогда отпали бы все проблемы. Могу с уверенностью сказать, что этого в ближайшие десятилетия не произойдет.
Японцы бросятся на решение любых проблем, связанных с автоматизацией письма, изобретут сложнейшие системы, но отказываться от иероглифов не станут. Потому что это — неотъемлемая часть их жизни, их культуры. Японцы прекрасно понимают, что, лишившись иероглифов, они перестанут быть самими собой. Именно поэтому они этого не допустят.

Марина Двораковская


Компьютерная газета. Статья была опубликована в номере 29 за 2003 год в рубрике soft :: текст

©1997-2024 Компьютерная газета