Интернет-поиск: изображения

Не думаю, что ошибусь, если скажу, что поиск изображений в Интернете по популярности уступает только поиску текстовых материалов. В большинстве случаев такой поиск и заканчивается на соответствующих разделах универсальных поисковиков — Google, Yandex и других. В то же время есть ряд альтернативных стратегий, которые способны дать весьма полезный результат. Давайте попробуем разобраться с достоинствами и недостатками различных технологий.

Универсальные поисковики


Большая часть современных универсальных поисковиков предлагает специальные разделы поиска по базам изображений. Для того чтобы понять сильные и слабые стороны такого поиска, необходимо немного остановиться на механике его работы. Реализовать поиск изображений намного сложнее, чем поиск текста. При индексации текста из него, как известно, выбираются ключевые слова, которые затем обрабатываются и включаются в соответствующую базу данных. В случае с изображением универсальные поисковики, по сути, тоже пытаются работать с текстом — alt-тегами к картинке, подписями, окружающим ее на веб-странице текстом, именем файла картинки, ориентируются на текст ведущих на изображения гиперссылок и т.д. То есть картинка сама по себе не анализируется, а "угадывается" по тексту содержащей ее веб-страницы и другим косвенным признакам. Именно так работают поисковики Google, Yahoo, Live, Yandex и масса других. Такой способ поиска накладывает свои ограничения на доступные инструменты составления запроса и на качество самого поиска. Давайте взглянем на страницу поиска по базе изображений Google. По сути, здесь предлагаются все те же привычные поля поиска на включение, точную фразу или исключение ключевого слова, а также поиск по определенному домену. К поиску собственно картинок относятся только поля, определяющие формат, размер и параметры цветности изображения. Сортировка изображений по размеру позволяет отсечь в результатах графические элементы оформления веб-страниц, не несущие смысловой нагрузки. Кроме того, нам доступен "семейный фильтр" (Safe Search), назначение которого — отсечь при поиске "взрослый" контент. Что интересно, Google предлагает несколько ступеней действия этого фильтра, в то время как его конкуренты ограничиваются простым включением/отключением данной опции. Поиск изображений в Yahoo очень похож на Google, разве что он сразу предлагает вести поиск по доменам в духе .edu или .gov. Вот только базы там свои, поэтому результаты поиска по одинаковому запросу отличаются от результатов Google.

Интересно решен поиск изображений на Windows Live Search (бывший MSN Search). Никаких принципиальных изменений в процесс поиска добавлено не было, но вот список результатов выглядит приятно. Если у конкурентов это обычно страница с миниатюрами картинок, сопровождаемых кратким описанием (имя файла, его размер, адрес сайта, на котором она была найдена), то здесь все немного по-другому. На странице результатов показываются только миниатюры, причем их размером можно управлять с помощью ползунка в верхней части списка. Вся информация о изображении выводится при наведении на него курсора — картинка слегка увеличивается в размерах, и нам показывают всю привычную информацию. Кроме того, можно дать собственный отзыв о найденном изображении. Аналогичная картина в плане возможностей поиска изображений наблюдается и на крупнейших российских поисковиках — никаких принципиально новых инструментов там вы не найдете. Отметим разве что Yandex, которому оказалось мало обычного деления размеров картинок на три группы — он предлагает целых пять групп. Таким образом, поиск изображений через универсальные поисковики дает нормальные результаты только тогда, когда искомую картинку можно явно и однозначно описать в текстовом виде. Как только дело доходит до более сложных запросов, резко растет уровень информационного шума в выдаваемых результатах поиска. В плюсы данного метода отнесем в первую очередь большой объем баз данных проиндексированных картинок, привычный и понятный поисковый интерфейс и независимость от тематики поиска. Еще раз заметим: индексные базы у крупных поисковиков собственные, результаты поиска по одинаковым запросам могут серьезно отличаться, поэтому, если вы не нашли нужного изображения одним поисковиком, обязательно попробуйте другой.

Сервисы обмена фотоснимками

Мы уже назвали недостатки поиска изображений обычными универсальными поисковиками. Однако на этих машинах свет клином не сошелся, есть другие пути. Например, можно посетить веб-сервисы хранения и обмена фотографиями, располагающие собственными поисковыми движками. Поскольку тематика хранящихся снимков может быть какой угодно, такие сайты можно назвать универсальными веб-галереями. На многих таких сайтах принят собственный способ индексации и поиска изображений. Здесь задача описания содержимого фотоснимков возлагается не на алгоритм системы поиска, а на авторов снимков, которые при загрузке своих файлов на сервер могут присваивать им собственные теги. Это может быть одно или несколько ключевых слов, которые затем и становятся поисковыми признаками фотоснимка. Преимущества такого способа по сравнению с автоматикой очевидны: авторы сами явно сообщают о содержимом снимков, причем точность таких описаний по определению должна быть выше, чем автоматическая "угадайка" по косвенным признакам. Другой подход к индексации картинок здорово сказывается на интерфейсе таких веб-сервисов и на предлагаемых инструментах поиска.

Хороших сервисов сетевой публикации фотографий сейчас более чем достаточно, но мы не будем сейчас заниматься их перечислением, поскольку предлагаемые ими инструменты, как правило, весьма схожи, и ничего принципиально нового мы в свой арсенал поисковых средств не добавим. Для примера мы возьмем известный сервис обмена фотографиями Flickr (flickr.com), в котором реализовано большинство поисковых инструментов, применяемых универсальными веб-галереями. На его стартовой странице предлагается хорошо знакомое по другим онлайновым социальным менеджерам "облако тегов" — перечень наиболее часто используемых в системе ключевых слов. В зависимости от популярности меняется размер и начертание шрифта тега, так что лидеров можно увидеть буквально с одного взгляда. Если быть совсем точным, то облаков здесь три: самые популярные теги за сутки, неделю и за все время работы Flickr. В верхней части страницы притаилось дополнительное поле поиска, в котором можно провести поиск по интересующему вас тегу, а также выбрать область поиска: по собственному фотоальбому Flickr (если он у вас есть), по фотоснимкам определенных пользователей Flickr или же по всему архиву открытых ресурсов сервиса. Опцию составления персональных фотоальбомов из понравившихся снимков (Flickr Organizr) можно использовать как средство сохранения результатов своего поиска.

Интересен поиск по так называемым "геотегам", указывающим место, где был сделан тот или иной фотоснимок. Для работы с ними предлагается интерфейс в виде карты мира и отдельного — надо признать, достаточно удобного — конструктора запросов (flickr.com/map). Сама карта сделана на основе сервиса Yahoo Map. Она имеет несколько режимов отображения и дополнительные инструменты управления. Мы не будем на них подробно останавливаться — интереснее будет просто попробовать с ними поработать. На карте при поиске появляются розовые кружочки с числом снимков, сделанных в той или иной точке земного шара и подпадающих под ваш запрос. Все сделано наглядно: чем больше снимков, тем крупнее кружок. Результаты показываются в виде миниатюр в небольшом встроенном браузере. Щелкнув по миниатюре, можно ее увеличить и переключиться на обычный интерфейс Flickr для удобного просмотра найденных картинок. Кстати говоря, "геотеги" не являются сейчас исключительной прерогативой Flickr — для этих целей можно также использовать связку Picasa+Google Earth. Еще одна любопытная возможность Flickr — кластеризация результатов поиска, которая, правда, пока не всегда работает корректно, так что у нее еще есть хороший резерв для совершенствования.

Ручное индексирование изображений их авторами — способ хороший, однако тоже не лишенный недостатков. Если в случае с универсальными поисковиками мы зависим от качества алгоритмов анализа элементов веб-страниц, то при поиске по универсальным веб-галереям мы зависим от качества индексирования авторами своих картинок. А качество это может быть разным. Во-первых, для описания близких по содержанию картинок авторы могут использовать различные ключевые слова, во-вторых, этих слов может быть указано крайне мало — в конце концов, развернутое описание фотоснимка требует времени, а снимков много. Наконец, в содержимом изображения вас и автора картинки могут привлечь совершенно разные аспекты, в результате вы можете никогда не найти нужного сюжета даже если он есть в базе. Именно поэтому на том же Flickr добавлять теги и заметки к фотоснимку могут не только его владельцы, но и другие пользователи Flickr.

Тематические галереи

Идем дальше. Универсальность — это хорошо, однако не стоит забывать про наличие специализированных тематических галерей. Они в данный момент интересны нам тем, что могут располагать довольно любопытными внутренними поисковыми движками. Пользователи таких сайтов как правило понимают необходимость четкого индексирования фотоснимков и не жалеют усилий на это важное мероприятие. Такие сайты часто предлагают четко продуманные и достаточно подробные формы описания добавляемых изображений, что коренным образом отличает их от универсальных галерей. Хорошим примером такого сервиса может стать посвященный авиации сайт Airliners.net, в галерее которого хранится более миллиона фотоснимков летательных аппаратов всех времен и народов. Страница поиска здесь именуется со вкусом — Aviation Photo Search Engine, причем у владельцев ресурса есть полное право на использование этого громкого названия. Даже базовый поиск здесь внушает уважение — сразу заметно, что поисковые признаки отбирали большие знатоки своего дела. Они связаны именно с авиацией — это тип летательного аппарата (в выпадающем меню представлен список наиболее известных машин), название авиакомпании, которой принадлежит самолет или вертолет, дата снимка.

Имеется и "географическая" привязка фотоснимков — можно искать по названию страны и даже конкретного аэропорта или авиабазы. Поиск можно ограничить самолетами определенного назначения — военными, гражданскими, правительственными и другими — все опции доступны через выпадающие меню. Есть поле поиска по ключевым словам — в этом случае в сферу поиска включаются текстовые комментарии, привязанные к фотоснимкам. В расширенном режиме можно искать по регистрационным кодам и номерам конкретных "бортов". Гибкие инструменты позволяют составлять весьма сложные запросы. Само собой, присутствует настройка параметров выдачи результатов: количество позиций на страницу и формат — только изображения, только текст или все вместе. Обратите внимание на интересную опцию предварительного подсчета количества фотоснимков, подходящих под заданные условия запроса. Для этого предусмотрена специальная кнопочка под формой запроса. Надо признать, что эта опция весьма полезна — по некоторым запросам вы можете получить тысячи ссылок. Увидев такое количество возможных результатов, можно заблаговременно скорректировать запрос и сэкономить время и трафик. Как видите, система поиска на Airliners.net весьма серьезная и заточена именно под авиационную тематику. Качество такого тематического поиска будет очень высоким, а количество информационного мусора сведено практически к нулю. Этот ресурс можно рассматривать как пример качественной тематической веб- галереи с хорошим набором инструментов поиска. Таким образом, при поиске по тематическим галереям нам, как правило, доступны специализированные инструменты составления запросов. Такой поиск может дать просто великолепные результаты. Вот только специальные веб-галереи с продвинутыми средствами поиска существуют не по всем тематикам, да и уровень реализации поиска на различных сайтах может серьезно отличаться.

Итог

В данной статье мы рассмотрели три источника поиска изображений: универсальные поисковики, веб-галереи и тематические галереи. Мы сосредоточились на их преимуществах и недостатках, а также особенностях предлагаемых инструментов поиска. В настоящее время эти способы — главные в деле поиска картинок в Сети. Однако в последнее время начались весьма и весьма любопытные эксперименты с новыми семантическими технологиями в этой сфере. Знакомство с ними вполне заслуживает отдельного рассказа.

Алексей Кутовенко, alteridem@tut.by


Компьютерная газета. Статья была опубликована в номере 47 за 2006 год в рубрике интернет

©1997-2024 Компьютерная газета