некоторые способы определения географической привязки веб-сайтов

главная » статьи » 2005 » 10 » 12.03.2005‣технологии

аннотация

В работе описаны способы формирования базы данных географической привязки IP-адресов. Мы использовали информацию из нескольких внешних баз данных (версии конца 2003 года). Кроме того , мы провели эксперимент по определению адреса организации, поддерживающей сайт, непосредственно по Интернет-страницам российских сайтов.
Произведен сравнительный анализ полученных данных.Делается вывод о неполноте информации каждого из рассмотренных источников, существовании определенного рассогласования между данными разных источников. Сформулированы рекомендации для интеграции данных разных источников. Работа поддержана компанией Яндекс , грант № 103032.1.

введение

Информация о фактическом (почтовом ) адресе владельца IP-адреса или веб-сайта - так называемая «географическая привязка IP-адреса» - требуется в различных задачах.

Следует отметить, что для разных ситуаций требуется знать разную географическую информацию об известном IP-адресе. Одному IP-адресу могут соответствовать следующие виды географической информации:

- физическое местонахождение компьютера с данным IP-адресом (host location);

- физическое нахождение владельца веб-ресурса, информация о котором помещается на компьютер, который, возможно, находится в другом месте (provider location);

- позиционирование сервиса (откуда будет доступен сервис, описываемый на страницах, размещенных на данном компьютере ) (serving location). Для владельца Интернет-сервиса наиболее важен первый из перечисленных типов адресов.

Для разработчиков поисковых машин, для ответа на запрос о поиске товара или услуги - прежде всего, третий тип, но также могут быть нужны первый и второй типы (пользователь организации, использующей известный IP-адрес). Согласно исследованию, пользователи Altavista в 2001 году в среднем в 25% поисковых запросов искали, где купить тот или иной товар.

При показе контекстной рекламы, нас, прежде всего, будет интересовать привязка первого и/или второго типа.

В настоящей работе мы рассмотрим связь между доступной информацией о первом и втором типах адресов, ассоциируемых с известным IP-адресом. Точнее, мы исследуем способы определения физического адреса владельца ресурса, зная информацию об IP-адресе (в данной работе мы не рассматриваем случаи маскировки истинного IP-адреса)

идея исследования

Как известно, при получении IP-адреса, при регистрации доменного имени, необходимо сообщить в глобальные службы Интернет свои учетные данные, в том числе: наименование, географическое местоположение, фамилии ответственных и т.п. Сервис доменных имен DNS предоставляет информацию о связи доменного имени и IP-адреса. Имеется команда traceroute (tracert), позволяющая получать подобную информацию, а также имена и IP-адреса компьютеров, через которые проходит трафик (если ими не используется блокирование посылки такой информации ). Регистраторы доменных имен и IP- адресов предоставляют учетную информацию посредством сервисов whois.

Однако существуют ограничения на автоматическое выкачивание учетной информации из баз данных глобальных служб с использованием сервиса whois. Без ограничений доступна только база данных с учетными данными провайдеров. Потенциально, возможно получение баз данных учетной информации у глобальных провайдеров по запросу.

Здесь необходимо отметить, что недостаточно получить тем или иным способом содержимое базы данных учетной информации у глобальных провайдеров. IP-адреса, DNS имена могут менять владельцев. Возникает задача актуализации имеющейся информации. На рынке присутствует несколько компаний, продающих базы данных привязки географической информации к IP-адресам - IP2country, Maxmind и др.

Кроме того, учетная информация, сообщенная при регистрации, может быть не актуальна. Например, указывается юридический адрес организации, который может не совпадать с фактическим и т.п.

В настоящей работе мы будем исследовать соответствие между:
- информацией, которую можно получить непосредственно от глобальных провайдеров;
- информацией, содержащейся в коммерческих базах данных географической привязки;
- информацией об адресах владельцев Интернет-страниц, которую можно получить непосредственно через Интернет.

Мы опишем использованные нами способы получения информации о географической привязке IP-адресов из различных источников. Приведем результаты сравнения информации, полученной из разных источников. Обсудим способы интегрирования информации из разных источников.

формирование базы данных

Нас будут интересовать IP-адреса, относящиеся к Российской Федерации.
Назовем «списком российских сайтов» список, полученный в декабре 2003 года объединением данных о доменах российских сайтов из нескольких каталогов российских Интернет-ресурсов.

В Таблице 1 сведены данные о количестве доменов, полученных из этих Интернет-ресурсов (для некоторых ресурсов были получены не все домены.
Таблица 1. Использованные каталоги российских сайтов (на декабрь 2003 года).

каталог	кол-во доменов
aport.ru	12797
mail.ru	12787
neyshtadt.org	13527
rambler.ru	3500
spylog.ru	21983

Среди каталогов имеются некоторые пересечения . В Таблице 2 - количество уникальных доменов для различных пар каталогов. В каждой ячейке - количество доменов каталога-строки, которые отсутствуют в каталоге-столбце. В сумме у нас получилось 47108 различных доменов.

Таблица 2. Количество уникальных доменов для различных каталогов российских сайтов, по сравнению с другими каталогами (на декабрь 2003 года).

Aport	Mail	Neyshtadt	Rambler	Spylog
Aport	-	10	11935	12326	10858
Mail	0	-	11926	12316	10848
Neyshtadt	12665	12666	-	13147	12702
Rambler	3029	3029	3120	-	2669
Spylog	20044	20044	21158	21152	-

Для каждого домена был определен соответствующий IP-адрес. По IP-адресу было определено местоположение компьютера с данным IP-адресом (Таблица 3). Использовались следующие источники информации:
1) MAXMIND_RUSSIA - база данных с www.maxmind.com по России (декабрь 2003 г.).
2) RIPE.DB - база данных ripe.net по IP-адресам европейской зоны и России (скачано с ftp-сайта RIPE, декабрь 2003 г.).
3) RIPE_PROVIDER - база данных российских провайдеров - членов RIPE (скачано с www-сайта RIPE, декабрь 2003 г.).
4) IP2COUNTRY - база данных с ip2country.com (декабрь 2003 г.).

Таблица 3. Результат сопоставления IP-адресов российских сайтов и баз данных IP-адресов.

источник	кол–во определенных данных по сайтам
MAXMIND_RUSSIA	27871
RIPE.DB	19165
RIPE_PROVIDER	18427
IP2COUNTRY	12399

Для фактического извлечения информации из заданного списка сайтов (июль 2005 г.) мы не стали обновлять данный список сайтов:
- имеющиеся у нас базы данных относятся к тому же периоду ;
- нам было интересно попутно оценить - сколько из имеющегося списка сайтов окажется «живыми».

Базы данных IP2COUNTRY и MAXMIND_RUSSIA содержат структурированную информацию об IP-адресах, в частности, каждому IP-адресу сопоставлен город в виде отдельного поля базы данных.

Базы данных RIPE.DB, RIPE_PROVIDER содержат неструктурированную информацию - для каждого IP-адреса имеется описание владельца данного адреса, которое может содержать адрес владельца. Нами разработаны специальные средства для выделения структурированной географической информации из неструктурированных записей указанных баз данных :

1) из полученных записей выделяются блоки, в которых может содержаться географическая информация (для RIPE.DB это блоки country, mntner, descr, city и т.п., для RIPE_PROVIDER - информация о провайдере );

2) производится сопоставление выделенных блоков с двуязычным русско-английским тезаурусом географических названий (7000 понятий, 9000 русскоязычных и 8000 англоязычных терминов);

3) выделяются варианты географической привязки в виде иерархии географических объектов «страна, город, адрес» по следующей схеме:
а) Определение страны. Если в выделенных географических наименованиях нет стран, то страна получается из списка найденных городов. Если найдено несколько стран, то наиболее вероятная страна привязки определяется с учетом списка найденных городов.
б) Определение региона России. Производится в случае, если в найденной информации одна страна - Россия. Алгоритм поиска отсутствующей и разрешения неоднозначной информации такой же, как и в пункте а ).
в) Определение города производится по списку выделенных городов. Все найденные города выдаются в списке возможных вариантов привязки.
г) Определение адреса внутри города определяется по шаблонам стандартных вариантов написания адреса.

Для базы данных RIPE_PROVIDER мы привязали информацию о провайдерах к IP-адресам провайдеров в базе RIPE.DB.
Из 47108 различных сайтов определить местоположение с точностью до города удалось для 34979 сайтов.

автоматический анализ веб-сайтов

Нами разработан алгоритм поиска страниц сайта, содержащих информацию о местоположении организации, а также алгоритм выделения этой информации. Суть задачи: определение фактического местонахождения «организации» через автоматический просмотр содержимого веб-сайта.
Для определения адреса необходимо:
- обнаружить на данном веб-сайте страницу, содержащую контактную информацию и в случае, если это произошло удачно, вычленить из нее необходимую информацию: страну,индекс, город, улицу, дом, телефон.
Мы здесь не использовали информацию, которую можно получить, анализируя:
- сумму упоминаний географических объектов в тексте веб-страницы;
- DNS-имя страницы;
- сумму входящих (или исходящих ) ссылок на сайты с известной географической привязкой.

Использовалось два словаря. Словарь поиска страницы - содержит ключевые слова (регулярные выражения), каждому из которых сопоставляется некоторая оценка релевантности перехода, такие слова будут искаться в ссылках, чтобы обнаружить наиболее релевантные (подходящие, с нашей точки зрения), которые приведут нас к искомой странице с адресом (см. таблицу 4).

Таблица 4. Фрагмент словаря поиска страниц.

About 30
Address 80
Company 60
Contact 85
Kontakt 85
Location 80
sitemap 40
адрес 95
звоните 64
как к нам 75
как нас найти 100
как с нами 64
Карта 40
компании 40
компания 30
контакт 95
координаты 80
нас можно 64
наш 40
наш адрес 100
о компании 70
о нас 70

Таблица 5. Фрагменты словаря поиска адреса на странице.

зона адреса
Адрес:
адресу:
Адрес:
зона населенного пункта
Город
Гор.
Г.
Г
, г
, г.

зона телефона
телефон:
факс:
телефоны:
телефон /факс:
тел./факс:
тел /факс:
тел:
телефон телефоны
телефон /факс
тел./факс
тел /факс
тел тел
тел.
т.
, тел:
звоните:

зона улицы
ул.
улица
проспект
набережная
проезд
Переулок
ул
,ул
,ул.
пр -кт.
пр -кт
пр -т.
пр -т
наб.
наб
пр.
пр.
пер.

Словарь поиска адреса - содержит ключевые слова (подстроки), которые будут указывать на конкретное место (название города, индекс, название улицы, телефон и т.п.) на странице (Таблица 5).

Опишем параметры, определяющие работу алгоритма поиска страницы с адресом.

Глубина поиска - числовая величина, указывающая, как глубоко нужно производить поиск на сайте, то есть мы будем искать страницу с адресом так, что на нее можно попасть, сделав не более чем указанное количество переходов по ссылкам. Для эффективного поиска достаточно значений 2-3. Продолжать ли поиск только по страницам с ненулевой релевантностью - вместо того чтобы каждый раз производить поиск на всех страницах, которые были найдены, можно ограничиться лишь теми, которые содержат хотя бы одно слово из словаря страниц. То есть, если бы поиск такой страницы производил пользователь, он бы ориентировался на некоторые ключевые слова, которые ему указывали, где дальше производить поиск. Например: на индексной странице мы нашли ссылку «о компании», прошли по ней, а там уже обнаружили ссылку «наши адреса», которая скорее всего и является искомой, при этом, фактически, все остальные ссылки мы проигнорировали.

Для поиска адреса на странице мы применяли следующий алгоритм.
Адрес искался в русскоязычной традиции записи:

[<адрес >] [<индекс >] [<страна >] [<город >] [<улица >] [<дом >] [<кв./офис >] [<телефон >]

Каждое поле является необязательным, для его определения в тексте используются элементы (ключевые слова ) соответствующей зоны словаря поиска адреса на странице. Особое внимание уделено поиску полей «город» (поиск названия города из имеющегося списка русскоязычных названий 5000 городов России и мира ) и «телефон» (анализ телефонного кода).

После того, как, предположительно, адрес был установлен, можно попытаться найти другие адреса (которые, возможно, присутствуют на странице ) начиная поиск от последнего (по номеру позиции в тексте) символа который входит в уже найденный адрес.

Вывод об отсутствии адреса на странице делался в случаях отсутствия на странице ключевых слов из словаря списка адреса, либо расстояние между ключевыми словами было слишком большим.

эксперимент по обходу сайтов

Используя алгоритмы, описанные в предыдущих разделах, мы запустили в июле 2005 года программу обхода по списку из 47108 различных доменов, полученного по данным разных российских каталогов в декабре 2003 года (глубина поиска 2, не более 10 секунд для получения ответа с сервера).

Мы получили следующие результаты:
- только для 16469 сайтов (34%) мы смогли скачать хотя бы одну страницу;
- только для 2123 сайтов программа определила адрес (12.9% от доступных сайтов).
Для оценки точности алгоритма мы выбрали случайным образом 50 сайтов из тех, на которых алгоритм определил город. При ручной проверке оказалось, что для 47 из них адрес определен правильно (оценка точности 94%).

Для оценки полноты алгоритма мы выбрали случайным образом 100 сайтов, где описанный алгоритм получил какой-то ответ от сайта, но не смог определить город. При ручной проверке оказалось, что для 21 сайта город мог быть определен при пополнении словарей и уточнении алгоритма - начинать искать адрес на странице не поиском характерных разделителей, которые могут быть весьма причудливым образом отделены от значимых элементов или отсутствовать, но сначала искать города и телефонные коды городов из имеющихся списков, а затем уже пытаться формировать адрес вокруг найденных строк. Экстраполируя оценку на все сайты, получаем, что полнота результатов примененной версии алгоритма поиска адреса оказалось равной 39%.

Отметим, что для проанализированных 100 сайтов адрес мог быть дополнительно определен еще для 18 сайтов - из них для 10 за счет разрешения проходить страницу заставки, разрешения редиректа по лексически связанным сайтам (www.delight2000.ru - www.delight2000.com, поиска адреса в тексте и т.п., для 8 - за счет поиска англоязычного адреса, суммирования упоминаний географических объектов на странице (b-vai.boom.ru, г.Балашов ). Для 31 сайтов из 100 адрес по содержимому страниц нам определить не удалось, для 28 сайтов наблюдался эффект получения ошибочной страницы (либо 404, либо редирект на лексически не связанный сайт).

Таким образом, экстраполируя, оцениваем общее количество сайтов, для которых можно рассчитывать на определение адреса по содержанию путем непринципиальной доработки алгоритма для (оценка ) 5400 сайтов, всего же можно рассчитывать на определение адреса для (оценка ) 8000 сайтов. При этом общее количество сайтов из сформированного в 2003 году списка, для которых можно получить хотя бы одну страницу в том же домене уменьшается до (оценка) 13887, то есть 29,7%.

сравнение различных методов определения географической привязки

Мы провели сравнение географических привязок сайтов, полученных с использованием различных источников данных. Для сравнения использовалась только информация о соответствии сайт-город.

При этом учитывалось, что методы обработки баз данных с неструктурированной информацией (RIPE.DB, RIPE_PROVIDER) допускают более одного варианта возможного соответствия города сайту (может быть несколько городов для одного сайта, обычно вариантов не более двух, в среднем не более 1,1 вариантов привязки для каждого сайта).

Опишем метрики, которые мы использовали для попарного сравнения различных баз.

Количество общих привязанных сайтов - количество сайтов, для которых есть (не обязательно одинаковая ) информация о привязке сайта в первой и второй базе.

Степень пересечения по сайтам - отношение количества общих привязанных сайтов к количеству сайтов, для которых есть информация о привязке в первой базе.

Количество совпадающих привязок - количество сайтов в первой и второй базе, для которых соответствующий город совпадает хотя бы для одного из вариантов привязки.

Степень согласованности привязки - отношение количества совпадающих привязок к количеству общих привязанных сайтов.

В таблице 6 представлена информация о количестве общих привязанных сайтов для различных баз. В столбце «всего сайтов» - количество привязанных сайтов для каждой из баз. В столбце «всегосайтов в %» - количество привязанных сайтов для каждой из баз в процентах от общего количества привязанных сайтов (34979).

В Таблице 7 отображено количество совпадающих привязок.
В Таблице 8 - степень согласованности привязки и степень пересечения по сайтам для различных баз (первое и второе число в ячейке
соответственно). Среднее значение степени согласованности привязки равно 85%.

Поясним на примере : среди 19165 сайтов, для которых удалось определить город с использованием RIPE.DB (55% от всех сайтов), для 7308 сайтов (38%) удалось также определить город и в IP2COUNTRY. Из этих 7308 сайтов для 6160 (84%) были определены одинаковые привязки городов.В связи с тем, что подавляющее число сайтов (86%) отнесены к Москве и Санкт-Петербургу, мы проанализировали отдельно информацию для привязок сайтов, относящихся к другим городам России. В таблице 9 отображена степень согласованности привязки и степень пересечения по сайтам для различных баз, для сайтов, не относящихся к городам Москва и Санкт-Петербург (первое и второе число в ячейке соответственно ). Среднее значение степени согласованности привязки для этих городов равно 81%.

Таблица 6. Количество общих привязанных сайтов для различных баз.

	IP2-COUNTRY	MAXMIND_RUSSIA	RIPE.DB	RIPE_PROVIDER	Всего сайтов	Всего сайтов в %
IP2COUNTRY	12399	11148	7308	5133	12399	35%
MAXMIND_RUSSIA	11148	27871	13909	12660	27871	80%
RIPE.DB	7308	13909	19165	9372	19165	55%
RIPE_PROVIDER	5133	12660	9372	18427	18427	53%

Таблица 7. Количество совпадающих привязок для различных баз.

	IP2-COUNTRY	MAXMIND_RUSSIA	RIPE.DB	RIPE_PROVIDER
IP2COUNTRY	12399	9401	6160	4154
MAXMIND_RUSSIA	9401	27871	13315	10531
RIPE.DB	6160	13315	19165	7609
RIPE_PROVIDER	4154	10531	7609	18427

Таблица 8. Степень согласованности привязки и степень пересечения по сайтам для различных баз.

	IP2-COUNTRY	MAXMIND_RUSSIA	RIPE.DB	RIPE_PROVIDER
IP2COUNTRY	--	84%/90%	84%/59%	81%/41%
MAXMIND_RUSSIA	84%/40%	--	96%/50%	83%/45%
RIPE.DB	84%/38%	96%/73%	--	81%/49%
RIPE_PROVIDER	81%/28%	83%/69%	81%/51%	--

Таблица 9. Степень согласованности привязки и степень пересечения по сайтам для различных баз (кроме Москвы и Санкт-Петербурга ).

	IP2-COUNTRY	MAXMIND_RUSSIA	RIPE.DB	RIPE_PROVIDER
IP2COUNTRY	--	77%/73%	85%/66%	81%/22%
MAXMIND_RUSSIA	77%/42%	--	89%/76%	65%/29%
RIPE.DB	85%/37%	89%/74%	--	89%/25%
RIPE_PROVIDER	81%/21%	65%/49%	89%/44%	--

интеграция данных из различных источников

Данные о географической привязке из четырех баз данных по IP-адресам (IP2COUNTRY, MAXMIND_RUSSIA, RIPE.DB, RIPE_PROVIDER) были объединены в одну базу IP_BASE. Таким образом, соответствие САЙТ -- ГОРОД в IP_BASE устанавливается в случае, если это соответствие есть хотя бы в одной из четырех указанных баз данных. При объединении информации о географической привязке из нескольких баз данных определяется:

1. Наиболее вероятный вариант географической привязки на основе:
a) информации об иерархии провайдеров (наиболее точной является информация о наиболее узком блоке IP-адресов, содержащем данный адрес) b) экспертной оценки качества исходной базы данных;
c) даты получения данной информации.

2. Другие возможные варианты местоположения ресурса.

Мы использовали такой ряд экспертных оценок качества баз данных RIPE.DB 40, MAXMIND_RUSSIA 30, RIPE_PROVIDER от 0 до 40 (в зависимости от оценки вероятности правильного сопоставления учетного адреса провайдера в RIPE_PROVIDER и его IP-адреса в RIPE.DB), IP2COUNTRY 20.
Список самых "интернетизированных " городов (по количеству
доменов сайтов, попавших в скачанные каталоги ) приведен в Таблице 10

Таблица 10. Список самых "интернетизированных " городов (по количеству доменов сайтов, попавших в скачанные каталоги ).

Город	Количество доменов	Доля
МОСКВА	26599	76,04%
САНКТ-ПЕТЕРБУРГ	3560	10,18%
ЕКАТЕРИНБУРГ	463	1,32%
НОВОСИБИРСК	373	1,07%
НИЖНИЙ НОВГОРОД	264	0,75%
ИРКУТСК	218	0,62%
ЧЕЛЯБИНСК	141	0,40%
ИВАНОВО	140	0,40%
ТОМСК	139	0,40%
КРАСНОЯРСК	133	0,38%
ПЕТРОЗАВОДСК	130	0,37%
РОСТОВ	120	0,34%
КАЗАНЬ	117	0,33%
САМАРА	106	0,30%
КРАСНОДАР	95	0,27%
НОВГОРОД	91	0,26%
ХАБАРОВСК	90	0,26%
ВОРОНЕЖ	84	0,24%

Вот некоторые статистические данные о многозначности определения города.

Всего доменов с определенными городами : 34979. Из них 6901 (20%) имеют более одного варианта привязки. В городе Москва доменов 26599 (76% от всех доменов) Из них 2104 (8%) имеют более одного варианта привязки. В городе Санкт -Петербург доменов 3560 (10% от всех доменов). Из них 2082 (58%) имеют более одного варианта привязки. В остальных городах доменов 4820 (14% от всех доменов). Из них 2715 (56%) имеют более одного варианта привязки.

Если рассматривать данные только из одного источника, то степень
многозначности определения города значительно меньше.
Наибольшая многозначность наблюдается для RIPE.DB - из 19165 сайтов для 2163 (11%) получено более одного варианта привязки.

сравнение внешних баз данных и данных, полученных обходом Интернет-страниц

Мы сравнили два метода географической привязки:
1) метод определения географической привязки по базам данных о владельцах IP-адресов;
2) метод определения положения организаций с помощью автоматического анализа веб-сайтов.

Данные о географической привязке, полученные с помощью автоматического анализа веб-сайтов мы будем называть базой данных _SPIDER.
Таким образом, полученные базы данных моделируют соответствующие типы географической привязки:
- IP_BASE моделирует физическое местонахождение компьютера с данным IP-адресом;
- _SPIDER моделирует физическое нахождение организации, информация о которой помещается на компьютер, который, возможно, находится в другом месте.

В таблице 11 представлены данные о степени согласованности баз данных IP_BASE и _SPIDER, а также средние значения степени согласованности для четырех баз данных по IP-адресам.

Поясним полученные данные на примере. Среди сайтов, для которых была определена географическая привязка с точностью до города при помощи анализа веб-сайтов и с помощью хотя бы одной из баз IP-адресов, для 79% сайтов города совпадают. Если рассмотреть только сайты, не отнесенные IP_BASE к Москве и Санкт-Петербургу, то совпадение наблюдается для 76% сайтов. Таблица 11 показывает, что степень согласованности данных между _SPIDER и IP_BASE несколько меньше, чем степень согласованности данных между базами, составляющими IP_BASE.

Таблица 11. Степень согласованности IP_BASE vs _SPIDER и баз данных по IP-адресам.

	_SPIDER vs IP_BASE	Ср. значение для баз данных по IP-адресам
Степень согласованности привязки	79%	85%
Степень согласованности привязки (не Москва и не СПб)	76%	81%

Учитывая высокую оценку точности алгоритма формирования базы _SPRIDER, стоит оценивать этот источник данных выше остальных в задаче получения информации о физическом расположении владельца Интернет-ресурса (provider location). А для определения физического адреса компьютера по IP- адресу (host location) лучшей, по нашим оценкам, является база данных RIPE.DB.

выводы и обсуждение результатов

Представлены текущие результаты продолжающегося исследования:

1) Проведен эксперимент по формированию базы данных географической привязки IP-адресов. При этом мы использовали в качестве источников: - учетные записи RIPE - организации, распределяющей IP-адреса (на декабрь 2003 года);
- информацию из баз данных коммерческих производителей IP2Location и MaxMind (Russia) (на декабрь 2003 года);
- данные, полученные выделением адреса с Интернет-страниц российских сайтов (июль 2005 года ).

2) Оказалось, что каждый из источников не полон, данные противоречивы

3) Для решения задачи поддержания актуальной привязки IP-адресов мы рекомендуем интегрировать информацию различных источников. Для этой цели мы предложили способ объединения указанных данных.

4) Примененный нами алгоритм обхода российских сайтов достаточно устойчиво определял адресную информацию, при условии наличия ее
стандартизованной текстовой записи.

Вместе с тем, оказалось, что:
- для более надежного извлечения географической привязки из содержимого страниц сайта следует использовать более сложные методы: суммирование информации об упоминании географических объектов, анализ ссылок между сайтами с известной географической привязкой и т.д.;
- в нашем эксперименте 64% сайтов из списка, полученного объединением списков некоторых российских каталогов в конце 2003 года, не были доступны в июле 2005 года (с учетом «пустых» страниц и редиректа на другие сайты оценка этого числа доходит до 70%).

5) Мы планируем продолжить свое исследование:
- усовершенствовать метод определения адреса по содержимому веб-страниц (пополнить словари, учесть упоминания географических объектов в тексте и т.п.);
- рассмотреть другие методы - учет ссылок на сайты с известной географической привязкой, анализ трассировки IP-маршрутов и т.д.;
- повторить эксперимент на современных данных и сравнить результаты с полученными.

Агеев М.С., Добров Б.В., Сидоров А.В. {ageev, dobroff, alexeys }@mail.cir.ru, Красильников П.В p.krasilnikov@gmail.com, Штернов С.В sergey@shternov.ru. Научно-исследовательский вычислительный центр МГУ им.М.В.Ломоносова, Механико-математический факультет МГУ им.М.В.Ломоносова, АНО Центр информационных исследований.

Сетевые решения. Статья была опубликована в номере 10 за 2005 год в рубрике технологии