новости
статьи
.технологии

применение фолксономической классификации для визуального ориентирования в базе электронных документов

введение

По мере роста емкости накопителей и, соответственно, архивов документов, проблема эффективности поиска информации приобретает все более острый характер, а падение эффективности иерархических файловых систем как средства упорядочения становится все более заметным. На передний план выходят такие проблемы каталогизации, как необходимость дисциплинированного подхода к именованию и размещению файлов, вдумчивому составлению названий, а также значительные трудозатраты по разбору уже существующего хаоса.

Системы локального поиска по содержимому документов получили распространение на рабочих местах пользователей начиная с 2004 года. Разработчиками таких систем были опробованы два подхода: сканирование в процессе поиска и использование заранее составленных индексных таблиц. Поиск по первому варианту занимает слишком продолжительное время (а при использовании в локальной сети приводит к абсолютно неприемлемым задержкам); поэтому он не получил значительного распространения. Поиск с предварительным индексированием, занявший большую долю рынка, также нельзя назвать идеальным решением проблемы, поскольку операция индексирования – ресурсоемкая процедура, которая должна постоянно выполняться в фоновом режиме для обеспечения актуальности результатов поиска, тем самым заметно повышая загрузку системы и снижая срок службы аппаратного обеспечения. В дополнение к сказанному поиск сам по себе – отнюдь не идеальное решение. Применение вместо поиска информации визуального ориентирования в ее потоке, основанного на системе информационных тегов документов, позволяет увеличить наглядность и интуитивность интерфейса, упростить ориентирование человека в информационном пространстве.

тегирование информации

В последнее время в интернет-технологиях находят применение системы фолксономического упорядочения информации - категоризации информации посредством произвольно выбираемых тегов. Данный способ представления обладает рядом преимуществ по сравнению с более традиционными типами таксономической (иерархической) и фасетной классификации. Наблюдаемая тенденция является прямым следствием ограничений таксономии (если объект можно привязать только к одному узлу, становится невозможным описать все его необходимые качества) и фасетизации (необходимость существования заранее продуманной и слабо расширяемой системы тегов).

Фолксономия предоставляет пользователю ряд дополнительных преимуществ: возможность использовать наглядные средства навигации сразу по всему пространству тегов, а также актуализирующийся в реальном масштабе времени набор категорий классификатора. Пользователь оказывается избавлен от входного барьера, поскольку для начала работы (классифицирования) не нужно обладать знанием о существующем классификаторе. При этом обратная связь от использования фолксономии мгновенна: при назначении объекту тега, пользователь сразу может получить информацию о том, что еще помечено тем же тегом, сколько людей пометили этот объект и как теги пересекаются.

Фолксономические системы применяются в интернет-ресурсах с обширной базой документов. Пример типичного использования тегов документов - агент чтения новостей Google Reader. Новостные статьи, читаемые в рамках Google Reader, можно «тегировать» - маркировать уникальными ключевыми словами или фразами, чтобы упростить процесс персональной категоризации и группировки входящего контента. Кроме произвольных тегов, контент также можно маркировать как «избранное», в качестве дополнительного тега или маркера для идентификации важных статей. Функция фильтрации позволяет выбирать только те потоки, которые соответствуют введенным ключевым словам (фильтр применяется к заголовкам фидов).

Использование тегов документов упрощает навигацию, позволяя отображать документы, за которыми закреплены определенные ключевые слова. Однако средства, применяемые для обзора пространства тегов (по аналогии с просмотром структуры каталогов файловой системы) весьма ограничены. В более простом варианте пользователю предоставляется одноранговый список тегов, из которого предлагается сделать выбор, чтобы дальше посмотреть относящиеся к тегу документы. Такой подход не позволяет отслеживать структуру сложного графа, который представляет собой развитая фолксономическая система. Вместе с тем отображение фолксономических данных в виде графа не получило широкого распространения из-за ряда топологических и эргономических недостатков. Вместо отображения графа тегов в современных интернет-ресурсах применяется отображение их взвешенного списка, известное как облако тегов (tagcloud).

Хотя фолксономические системы активно применяются в интернет-ресурсах с обширной базой документов, для локальных хранилищ документов их возможности не задействованы. Отчасти это вызвано их относительно недавним появлением и тем, что существующие готовые реализации на сегодняшний день доступны лишь на языках веб-программирования.

навигация по фолксономическим данным

Нами разработана экспериментальная система фолксономической навигации по документам, использующая два средства визуализации категорий: облако тегов и связанные списки.

Облако тегов – структура, используемая для визуального представления категорий в веб-технологиях. Частота упоминаний ключевых слов отображается в виде изображения этих слов в формате гиперссылок. Размер изображения тем больше, чем выше релевантность данного слова (термина, имени). В памяти облако тегов хранится в виде массива взвешенных слов. Типичное облако включает от 30 до 150 тегов. Структура имеет значительно большую емкость по сравнению с такими традиционными способами отображения взвешенных массивов слов, как круговые диаграммы или гистограммы, наглядность которых резко ухудшается, когда число весовых коэффициентов превышает полтора десятка. В свою очередь, представление взвешенных массивов облаком тегов дает меньшую точность, а ее одноуровневая организация не предполагает ни развитой навигации, ни отслеживания внутренних связей между тегами.

Навигация по системе связанных списков, по нашему мнению перспективная для фолксономического представления, изначально была реализована в менеджере рабочего пространства системы NextStep для визуализации файловой системы. В режиме просмотра (browsing) файловый менеджер предоставляет пользователю два средства навигации: Icon Path и View Area. Icon Path представляет траекторию от корня файловой системы к текущему каталогу либо выбранному файлу. View Area отображает содержание файловой системы. Она представляет графическим способом среду выдвинутого на первый план объекта в виде последовательности списков содержимого элементов из Icon Path.

Для хранения информации о выборе пользователем документов и их информационных тегов при навигации по связанным спискам использована структура данных, приведенная на рис. 1.



Рис. 1. Структура данных в виде двунаправленного списка.

Структура хранит цепочку выбора пользователя и обеспечивает легкое передвижение по ней. Если пользователь возвращается на несколько шагов назад и осуществляет выбор в другом направлении, часть прежней цепочки удаляется и создается новая.



Рис. 2. Навигация по тегам.

Отображается три списка документов/тегов, один из которых является активным (рис. 2). По мере продвижения пользователя по базе изменяются отображаемые элементы путем манипуляций с их видимостью и/или координатами расположения на форме.

статистика применения на экспериментальной базе документов

Для апробации предложенных навигационных решений нами использована база текстовых документов, произвольно снабжавшаяся пользовательскими тегами. Документы добавлялись в архив постепенно, и к концу исследованного периода их число достигло 745. В подавляющем большинстве теги формировались пользователями в момент добавления документа. Рис. 3 демонстрирует динамику роста числа тегов за время существования архива, которое указано в днях. Как можно видеть, в результате число фолксономических категорий достигло 13. Наблюдаемая равномерность роста числа тегов свидетельствует о непрерывных коррективах, вносимых в пользовательскую систему классификации, что делает выигрышным предложенный фолксономический подход.



Рис. 3. Рост числа тегов за время существования системы.

Частота использования тегов в эксперименте оказалась неравномерной. 23% из созданного массива тегов пользуются значительной популярностью, 31% включает 5-10 документов, а остальными 46% тегов представлены уникальные и малоиспользуемые категории. Следует учитывать, что полученные соотношения могут являться функцией тематической направленности архива. Для получения более точной картины частотного распределения документов по категориям необходимо дополнительное исследование с привлечением значительного количества пользователей.



Роман Калиновский, Дмитрий Костюк, Ирина Ненадовец, Брестский государственный технический университет
обсудить статью
© сетевые решения
.
.