New media общая информация об Internet - shikardos.ru o_O
Главная
Поиск по ключевым словам:
Похожие работы
New media общая информация об Internet - страница №1/9


Содержание

ВВЕДЕНИЕ

ГЛАВА 1. NEW MEDIA

  1. Общая информация об Internet

  2. New Media и СМИ

  3. Гипертекст и WWW

  4. Интеграция информационных ресурсов

  5. Топология Web-пространства

  6. Навигация в Internet

  7. Информационно-поисковые системы

  8. "Скрытый" Web




  1. Очередной феномен Internet

  2. Типы скрытых ресурсов

  3. Базы данных "скрытой" Сети

  4. Сталкеры в скрытом пространстве

  5. "Скрытый" Web в каталогах

  6. Системы поиска в "скрытом" Web

  7. Информация в различных форматах

  8. Скрытые новостные ресурсы

  9. "Скрытый" архив "поверхностного" Web

1.8.10. Подходы к решению проблемы "скрытого" Web

ГЛАВА 2. ПОИСК В INTERNET

  1. Характеристики ИПС

  2. Лингвистическое обеспечение ИПС

  3. Семантические методы

  4. Этапы поисковой процедуры

  5. Процесс поиска непосредственно

  6. Запросы пользователей

  7. Поиск подобных документов

  8. Ранжирование откликов

  9. Поиск по словам и словоформам




  1. Логические операторы

  2. Операторы контекстной близости

12

15

15

17

19

20

23

25

28

31 31 33 34 37 38 39 40 40 41 41

43 43 45 49 52 54 55 57 57 57 58 59

2.12. Поиск по параметрам

59



2.13. Популярные сетевые информационно-поисковые службы 61

  1. Крупнейшие зарубежные службы 61

  2. Службы поиска в российском сегменте Сети 68

  3. Крупнейшие украинские службы 70

2.14. Поиск информации в корпоративных сетях 73

  1. Популярные ИПС 73

  2. Новый уровень обработки сетевой информации 79

  3. Порталы знаний 81

2.15. Поисковые программно-аппаратные комплексы 83

ГЛАВА 3. СИСТЕМЫ ИНТЕГРАЦИИ INTERNET-КОНТЕНТА 87

  1. Статическая и динамическая составляющие Web-пространства 87

  2. Недостатки традиционного поиска 88

  3. Невизуальный Web 89

  4. Синдикация новостной информации 91

  5. От "поисковиков" — к "интеграторам" 91

  6. Форматы синдикации новостей 93

  7. OPML — формат для хранения списка RSS-фидов 96

  8. Источники новостного контента 98

  9. Системы поиска RSS-фидов 104




  1. Агрегаторы 106

  2. Новые подходы 109

  3. Информационные ресурсы для мобильных устройств 110




  1. Wireless Application Protocol 110

  2. WAP-ресурсы 111

  3. Реализация WAP-протокола 113

  4. WML и микробраузеры 114

  5. Эмуляторы WAP 116

  6. Проблемы и перспективы WAP 118

  7. Доступ к сетевому контенту с КПК 121

  8. Информационные ресурсы для КПК 122

  9. Эмуляция мобильности 124




  1. RSS-формат на КПК 125

  2. Игрушка или рабочий инструмент 126

3.13. Службы доставки новостей по электронной почте 127

  1. История сервиса 127

  2. Система телеконференций Usenet 128

  3. Доставка новостей с отдельных сайтов 131

  4. Специализированные службы рассылки новостей 133

  5. Интеграция новостей с целью рассылки 135


  1. Спам — альтернатива востребованной рассылке 139

  2. Перспективы технологий доставки новостей 139

ГЛАВА 4. XML — ЯЗЫК РАЗМЕТКИ И МОДЕЛЬ ДАННЫХ 141

  1. XML как модель данных 144

  2. XML-поиск и языки запросов 145

  3. XML-решения для хранения данных 149

  4. Корпоративные и офисные приложения для XML 154

  5. Настоящее и обозримое будущее XML 156

ГЛАВА 5. ОСНОВЫ ТЕХНОЛОГИИ TEXT MINING 159

  1. Основные элементы Text Mining 161

  2. Контент-анализ 162

  3. Модели поиска 166




  1. Булева модель поиска 166

  2. Векторно-пространственная модель 168

  3. Гибридные модели поиска 169

5.4. Группировка текстовых данных 169

  1. Кластеризация 171

  2. Тематическая близость 172

  3. Вероятностная модель . 174

  4. Латентно-семантический анализ 178




  1. Автоматические ответы на вопросы 188

  2. Реализация систем Text Mining 190




  1. Intelligent Miner for Text 191

  2. PolyAnalyst 192

  3. Text Miner 194

  4. SemioMap 195

  5. InterMedia Text, Oracle Text 196

  6. Autonomy IDOL Server 196

  7. Galaktika-ZOOM 197

  8. InfoStream 198




  1. Text Mining не только для спецслужб 198

  2. Автоматическое реферирование 199




  1. Квазиреферирование 201

  2. Алгоритмы автореферирования 202

  3. Дайджесты 203

  4. Поисковые образы документов 205

  5. Информационные портреты 205

  6. Программы автореферирования 205

  7. Автореферирование на основе семантических методов 212

  8. Перспективы автореферирования 214

ГЛАВА б. ИНСТРУМЕНТАРИЙ КОНКУРЕНТНОЙ РАЗВЕДКИ 217

  1. Задачи конкурентной разведки 218

  2. Источники информации и базы данных 219

  3. Подходы к анализу контента 220

  4. Некоторые примеры 221

  5. Конкурентная разведка и "скрытый" Web 227

  6. Перспективы систем конкурентной разведки 227

ГЛАВА 7. ЗАКОНОМЕРНОСТИ, ПРИСУЩИЕ

ИНФОРМАЦИОННЫМ СИСТЕМАМ 231

  1. Правило Парето 231

  2. О переходе количества в качество 233

  3. Закон Зипфа 234

  4. Закономерность Брэдфорда 238

  5. Прогноз Мура и информационная сфера 239

  6. Фракталы и информационное Пространство 240




  1. Примеры абстрактных фракталов 241

  2. Фракталы из жизни 244

  3. Информационные фракталы 245

7.7. Проблемы и феномены Internet 249

ГЛОССАРИЙ 253

ЛИТЕРАТУРА 263

ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 267

Предисловие

Эта книга для тех, кто интересуется методами получения новых знаний на основе анализа современного информационного пространства, а также способами обработки информационных потоков с целью выявления тенденций, новых по­нятий, феноменов, взаимосвязей.

Одно из определений знаний, которое дает энциклопедический словарь Webster, следующее: состояние осведомленности о чем-то или обладание информа­цией. Именно эта трактовка знаний наиболее близка к проблематике данной рабо­ты. Объем данных, из которого приходится выискивать крупицы необходимой, актуальной, готовой к немедленному использованию информации для решения про­блем, обусловливает актуальность и значимость самого процесса поиска знаний.

Если знания — это сила, то сегодня первоочередная задача — найти эту силу. При этом поиск знаний, в отличие от простого поиска информации, при котором зачастую не учитывается семантика запросов, должен предоставлять пользовате­лю только действительно актуальную информацию, наиболее точно соответст­вующую его потребностям, и вместе с тем адекватную исходному запросу. Если при обычном информационном поиске пользователь в конечном итоге знает, что он может получить, то при поиске знаний он должен получить нечто до сих пор ему неизвестное и познать его.

О сложности такого процесса говорит, например, недавнее исследование, про­веденное фирмой Reuters среди 1300 менеджеров, которое показало, что "менеджеры чувствуют, что не могут эффективно работать без получения боль­шого объема информации, но эта тяжелая загрузка данными, часто не имеющи­ми никакого отношения к делу, снижает эффективность их работы и препятст­вует нормальному функционированию корпоративной машины". Это состояние было названо "синдромом информационной усталости", что свидетельствует об избытке информации и недостатке знаний. Из опрошенных фирмой Reuters ме­неджеров, 38% утверждают, что "тратят много времени, пытаясь найти нужную информацию". По оценкам экспертов, около 79% журналистов обращаются к Internet в поисках новостей и лишь 20 % находят ту информацию, которая им необходима. Все они на самом деле ищут именно знания.

В последнее время о поиске знаний пишут достаточно много. Появилось новое направление в обработке текстовой информации — "глубинный анализ текстов" (Text Mining). Это направление, скорее технологическое, чем научное, включило в себя все реальные, реализуемые на практике результаты исследований в облас­ти контент-анализа и компьютерной лингвистики, которая, как и теория баз знаний, интенсивно развивалась в 70-80-е годы прошлого века.

Сегодня прагматичные подходы, свойственные технологии Text Mining, мо­гут применяться как студентами при написании обзорных курсовых работ, так и маркетологами при анализе рынков, политиками, бизнесменами, учеными — всеми, кто активно участвует в современных информационных, политических и бизнес-процессах.

Методы Text Mining уже используются в таких основных областях, как:

» политические исследования — геополитика, анализ предвыборной и вы­борной ситуации, деятельность партий, общественных организаций, от­дельных политических деятелей и т.д.;


  1. конкурентная разведка — обобщенный анализ деятельности конкурентов, их PR-активности, клиентской базы;

  2. анализ рынков — выявление основных тенденций в производстве и по­треблении товаров и услуг определенных видов, в политике фирм, участ­вующих в рынках, ареалах;

  3. анализ новых технологий — в различных сферах науки, бизнеса, безо­пасности;

  4. образование, культура.

Несмотря на то что книга ориентирована на широкий круг читателей, инте­ресующихся современными информационными технологиями, хочется верить, что она будет также полезна и аналитикам, которые с помощью методологии Text Mining или отдельных ее компонентов смогут повысить эффективность и качество своей работы.

Введение

К

оличество информации, обрушивающейся на человека в современном ми­ре, обусловливает актуальность задачи отделения действительно важных сведений от информационного шума. Человек, группа людей, информационная служба, профессиональные эксперты-аналитики уже не могут пропускать через себя потоки информации, которые изливаются на них сегодня электронными медиа. Зачастую даже опытные эксперты не могут выделить главного, не на­ходят сведений, необходимых для принятия решений, в результате чего дейст­вия как отдельных людей, так и коллективов или даже государств становятся неадекватными реальной обстановке.

Таким образом, самая главная проблема современных коммуникаций — это извлечение действительно ценных сведений из информационных потоков; дру­гими словами, получение знаний из информации.

Обилие информации уже давно воспринимается как нечто само собой разу­меющееся. Количественные оценки ее суммарного объема как таковые вряд ли могут стать поводом для особых размышлений. Но если подобные показатели подвергнуть структурному анализу, то полученные результаты могут оказаться весьма неожиданными.

Возьмем, к примеру, исследование изменения объема информации в мире за год [54]. С 2000 года оно проводится в Калифорнийском университете в Беркли под руководством профессоров Питера Лаймана и Хода Вэриена. Ученые пришли к выводу, что на протяжении трех лет, предшествующих 2002 году, количество информации, произведенной человечеством, удвоилось. А в самом 2002 году в мире было произведено пять экзабайт (миллионов терабайт) информации. Для сравне­ния приведем данные об объеме фонда библиотеки Конгресса США, где хранится 19 млн книг и 56 млн рукописей: он составляет около десяти терабайт информа­ции. В упомянутом исследовании информация структурировалась по типам но­сителей. Оказалось, что лидерство прочно удерживают магнитные носители, до­ля которых превышает 90%. Из них большую часть составляют жесткие диски. На кино, фото, печатные издания и другие бумажные документы вместе с опти­ческими цифровыми носителями приходится лишь 7% информации.

Очевидно, что лишь человеческого опыта в данной информационной ситуации становится уже недостаточно. Сама среда поступления информации определяет и возможные реальные подходы к ее обработке. Только мощные возможности информационной техники — компьютеров, сетей — в совокупности со специаль­ным программным обеспечением могут оказаться той панацеей, которая спасет нас от информационного хаоса. В свое время казались очень перспективными системы искусственного интеллекта, экспертные системы со своими парадигма­ми фреймов и правил — баз знаний. То ли в 80-х годах двадцатого столетия не до конца сформировалась общественная потребность в широком использовании таких систем, то ли недостаточными были мощности компьютеров, то ли не до­работаны были теоретические и алгоритмические основы таких систем, но бум их популярности в конце 80-х годов закончился. За прошедшее с тех пор время наряду с бурным технологическим процессом (до сих пор не опровергнут закон Мура) сложилось понимание того, что для решения проблемы информационного хаоса больше всего подходят технологии, порожденные некогда таким направле­нием, как контент-анализ, и сегодня получившие названия Data Mining и Text Mining. В настоящее время существуют достаточно развитые системы, реали­зующие эти направления. Практически все самые известные производители про­граммного обеспечения предлагают на рынке системы глубинного анализа дан­ных и текстов (у компании Oracle — это Oracle Text, у IBM — Intelligent Miner for Text, у SAS — Text Miner).

Следует отметить, что большая часть информационного потока — это не­структурированная текстовая информация, в то время как значительная часть электронной информации, порожденной путем использования современных СУБД, — это численные фактографические данные. Если обработка таких данных позволяет использовать уже отработанные методы и погружать потоки данных в СУБД, то задача анализа текстовой информации открывает широкое поле для применения новейших методик и технологий, таких как XML, лингвистические, эмпирические, статистические подходы. В настоящее время уже определено не­сколько задач, стоящих перед технологией Text Mining, — это автоматическая классификация, кластеризация, выявление смысловых взаимосвязей отдельных фрагментов и понятий, выраженных в тексте, а также составление осмысленных рефератов, резюмирующих знания, содержащиеся в текстовых массивах больших объемов. Возможно, эти технологические подходы в случае массового применения смогут облегчить ориентацию человека в постоянно расширяемом информацион­ном поле, позволят ему адекватнее реагировать на происходящие события, уве­ренно принимать важные решения на основе концентрации знаний.

Развитие вычислительной техники и компьютерных сетей способствовало по­явлению систем, назначение которых — поиск в массивах полнотекстовых до­кументов. К таким документам можно отнести, например, статьи, нормативные акты, реферативные описания, тексты брошюр, диссертаций, монографий. До определенного времени полнотекстовые информационно-поисковые системы ис­пользовались преимущественно специалистами, круг которых был не очень ши­рок, — архивные работники, сотрудники библиотек, ученые, аналитики.

Появление и развитие сети Internet в корне изменило ситуацию. Сегодня ин­формационные ресурсы Сети составляют около десяти миллиардов документов (Web-страниц), к которым возможен свободный доступ любого пользователя. Ес­тественно, чтобы найти необходимую информацию в этой крупнейшей полнотек­стовой базе данных, необходимо использовать очень мощные поисковые средства, которые в зачаточном состоянии уже существуют, развиваются и конкурируют друг с другом на рынке информационных технологий.

Сегодня миллионам пользователей Internet известны такие системы, как Google, Yahoo, AllTheWeb, AltaVista, каждая из которых охватывает несколько миллиардов Web-документов. Мы стали свидетелями "информационного взры­ва", в результате которого менее чем за 10 лет мало кому известная технология полнотекстового поиска стала повседневным инструментом миллионов людей.

В связи с этим первая глава книги — "New Media" — посвящена Internet и ее информационному подпространству World Wide Web. В этой главе описывается топология этого подпространства, а также средства навигации в нем и эволюция этих средств — от простейших наборов ссылок и каталогов до многофункцио­нальных порталов.

Вторая глава посвящена поисковым системам, процессу поиска информации и его отдельным звеньям, а также включает трактовки таких фундаментальных понятий информационного поиска, как полнота и релевантность. Кроме того, эта глава содержит информацию о практической стороне использования процедур поиска, особенностях формирования запросов к различным информационно-поисковым системам с использованием слов, словоформ, фрагментов текстов, а также о поиске с учетом структуры документов, морфологии, подобия.

Третья глава охватывает вопросы ориентации в новостной информации, пред­ставленной в Сети. Для такого поиска используется специальный класс инфор­мационно-поисковых систем — системы мониторинга контента Internet, на осно­ве которых строятся современные службы синдикации новостей.

Вопросам современного унифицированного представления информации в пер­спективном формате гипертекстовой разметки XML, а также технологическим решениям, построенным на основе идеологии XML, посвящена четвертая глава "XML — язык разметки и модель данных".

Технологиям выявления знаний в текстовых массивах с использованием как классических, так и новых, интеллектуальных подходов к анализу информации посвящена пятая глава "Технология Text Mining".

Шестая глава посвящена очень популярному сегодня направлению использо­вания технологии Text Mining — конкурентной разведке, которая заключается в сборе и аналитической обработке информации, необходимой для принятия оп­тимальных управленческих решений. Очень важно, что при этом конкурентная разведка выполняется строго в рамках правовых норм.

Седьмая, заключительная, глава книги содержит обзор общих закономерностей, присущих информационным системам, в частности таких, как правило Парето, законы Зипфа и Брэдфорда и так далее, что должно дать читателю некоторое обобщенное представление о тенденциях и подходах, обсуждаемых в книге.

Дмитрий Ландэ, сентябрь 2004 года


Глава I

New Media

I

nternet, появившись вначале как феномен новых технологий, породила мощ­ный инструмент специфического воздействия на сознание человека, получив­ший название "New Media" [10].

1.1. Общая информация об Internet

Internet более чем за 30 лет своего существования вышла за пределы военных лабораторий США (где она родилась в рамках проекта ARPANET) и научных кругов [11] и к настоящему времени стала одним из самых известных явлений современности.

Благодаря чему же произошло это, почему из сотен компьютерных сетей именно Internet получила такое развитие? Ответов несколько.


  1. Высокая технологичность, надежность и расчет на работу сети в любых, даже экстремальных условиях.

  1. Открытость протоколов (правил), их доступность каждому.

  1. Вследствие этого — поддержка как широким кругом пользователей, так и крупнейшими производителями программного и аппаратного обеспечения.

  2. И последнее, на чем можно остановиться, — способность системы к само­развитию, саморасширению. Это объясняется тем, что чем больше ресур­сов вовлекается в Сеть, тем она становится интереснее и полезнее пользо­вателям, круг которых в результате растет. Есть и другая причина — постоянное снижение расходов на работу в Internet.

Internet-ресурсы сегодня — это, прежде всего, объемы — свыше 10 млрд до­кументов на более 50 млн Web-сайтов. По заявлению аналитической компании Cyveillance (http://www.cyveillance.com), темпы роста Сети составляют 7 млн новых страниц в день. По прогнозам, "центр роста" Internet сейчас уходит из США. Динамика роста объемов информационных ресурсов в Сети настолько ве­лика (для сравнения, можно отметить — количество Web-сайтов в 1998 году со­ставляло около 1 млн), что методы решения задачи обеспечения навигации в ре­сурсах Internet кажутся далеко не очевидными.

Сегодня каждый пользователь New Media на собственном опыте "ощущает" один из самых больших парадоксов этой среды: "полезной информации стано­вится все больше, но найти что-то определенное все сложнее".

Как гласит опубликованный аналитической службой Netcraft Web Server Survey (www.netcraft.com) отчет (рис. 1.1), количество Web-сайтов в Internet в 2004 году достигло 50 млн, а темпы увеличения их числа составляют 1,7 млн в месяц. Количество же отдельных документов (страниц), размещенных на этих сайтах, составляет около 10 млн. Заметим, речь идет о ресурсах открытой части Internet, доступной информационно-поисковым системам. О гораздо большем объеме ресурсов "скрытого" Web речь пойдет ниже.

При этом даже самые крупные информационно-поисковые системы в мире охватывают в своих индексах не более 30-40% доступных ресурсов. Было бы логичным, чтобы владельцы некоторых систем подобного типа, договорившись, попытались охватить лишь определенные "вертикальные" фрагменты Сети, со­вместно решая задачу полного охвата ресурсов и обеспечивая качественную на­вигацию в своих областях. Однако такая модель утопична, а тенденции на рын­ке глобальных информационно-поисковых систем никак нельзя назвать радужными. Реалии таковы: новизна охватываемой информации падает, навига­ционные сервисы в основной своей массе не улучшаются, а количество самих глобальных информационно-поисковых систем (за редким исключением не ставших порталами, решающими другие задачи) стремительно растет.



Свалка или Клондайк?

Эффективное использование традиционных поисковых систем достигается только в случае обращения их к относительно стабильной части информационно­го пространства. Но парадокс заключается как раз в том, что Internet в основ­ном таковым не является.

С точки зрения обновляемое™ информации, все Internet-пространство можно условно разделить на две составляющие — стабильную и динамическую. Стабильная составляющая содержит информацию "долговременного" плана, например монографии, галереи, коллекции или архивы. Динамическая состав­ляющая включает постоянно обновляемые или новые ресурсы. Небольшая часть этой составляющей вливается затем в стабильную, в то время как боль­шая часть "исчезает" из Сети.

В свою очередь, информационные потребности пользователей можно условно разделить на две части — "знания и понятия" и "новости". Очевидно, что первая часть потребностей в большей мере удовлетворяется стабильной составляющей Internet, в то время как потребности в новостях могут найти свое удовлетворе­ние только в динамической составляющей New Media.



1.2. New Media и СМИ

На сегодняшний день New Media де-факто заняла место в ряду других средств массовой информации (СМИ). Любое СМИ, будь то печатное издание, радиостан­ция или телеканал, обладает своими техническими возможностями. Для различ­ных видов СМИ эти параметры разные. Характеристиками потенциала печатного издания служат его тираж, формат, число страниц и т.д. Для радиостанции или телеканала — это частота вещания, мощность передатчика, область охвата. Internet обладает своим техническим потенциалом: пропускной способностью каналов, количеством подключенных компьютеров, их характеристиками и т.д. Реализация потенциала New Media, так же как и в случае традиционных СМИ, выражается в посещаемости, популярности, аудитории и ее направленности.

В качестве подтверждения важности роли Internet как средства массовой ин­формации приведем пример — пожар на Останкинской телевизионной башне в августе 2000 года, обусловивший бурный всплеск интереса к Internet в России. То, что стало катастрофой для российского ТВ, заметно подтолкнуло развитие Рунета. Число посещений ленты новостей сайта РИА "РосБизнес-Консалтинг" (www. rbc. ru) 28 августа составило 6 млн, что в 6 раз превышает средний еже­дневный трафик (рис. 1.2).

Internet-газета "Lenta.ru" (www. lenta.ru) сообщила, что за тот же день бы­ло зафиксировано 63,5 тыс. посещений, что в 2 раза превышает обычный по­казатель. Однако аналитики заявляют, что сдвиг в сторону СМИ в Internet предшествовал пожару в Останкино. Они говорят о том, что спрос на сетевую информацию вырос чуть ранее — 11 августа того же года, подогретый трагеди­ей на подлодке "Курск".

Действительно, катастрофы, скандалы и крупные спортивные события спо­собствуют популярности Internet. После терактов 11 сентября 2001 года сум­марная аудитория сетевых СМИ увеличилась в два раза. К примеру, трафик только крупнейших российских новостных сайтов резко вырос почти в три раза и составил около 15%.

Естественно, Internet-издания превосходят по оперативности всевозможные печатные издания. Ленты новостей Web-сайтов содержат самую оперативную информацию, публикуемую в режиме "реального времени". Этим в основном и объясняется стремление традиционных СМИ к интеграции с New Media.



New Media как рекламная среда
Согласно исследованию, проведенному аналитической компанией JupiterResearch, объем рынка он-лайновой рекламы, включая контекстную и баннерную, к 2009 году вырастет по сравнению с 2004 годом почти вдвое и составит 16,1 млрд долларов. По данным этой компании в 2003 году продажи превысили 6,6 млрд долларов, в 2004 году составят порядка 8 млрд долларов. В частности, рекламодатели бо­лее чем в два раза увеличат расходы на размещение платных ссылок в результа­тах поиска информационно-поисковых систем по определенным ключевым сло­вам — с 2,6 млрд долларов в 2004 году до 5,5 млрд долларов в 2009 году.

По прогнозам, в 2008 году рынок Internet-рекламы впервые превысит рынок рекламы в печатных изданиях. Рост продаж будет вызван рядом факторов: уве­личением числа Internet-пользователей, ростом популярности Internet-сервисов, а также созданием новых, более совершенных и точных инструментов рекламы во Всемирной Сети. "Данный рынок феноменально вырос за последние несколь­ко лет, — комментирует аналитик JupiterResearch Нэйт Эллиот (Nate Elliott). — Теперь он становится более сформировавшимся".

По другим данным, предоставленным аналитической фирмой E-Marketer, в 2004 году объем затрат на Internet-рекламу в США впервые превысит рекордный уровень 2000 года и составит 9,1 млрд долларов. В 2000 году на пике неоправдав­шегося бума Internet-экономики затраты на рекламу в Internet в США составили 8,1 млрд долларов. В 2003 году этот показатель достиг 7,3 млрд долларов. Это оз­начает, что в настоящее время рост американского рынка Internet-рекламы со­ставляет 25%, что больше, чем в любом другом секторе рекламной индустрии.

В России, по данным Ассоциации Коммуникационных Агентств России (АКАР), в 2003 году сегмент Internet-рекламы составил 18 млн долларов и также является самым быстрорастущим. Он растет в два раза быстрее, чем весь рекламный ры­нок. Сегодня годовой прирост в этом сегменте в России составляет свыше 60%.

Вместе с тем, темпы годового роста данного рынка все же постепенно замедлят­ся: с 65% в 2003 году до 11% в 2009 году. Поэтому крупнейшие информационно-поисковые службы уже сегодня четко видят необходимость развиваться в разных направлениях, предоставляя разнообразные услуги как пользователям, так и рекламодателям.

СМИ в Internet и сетевые СМИ

Сегодня принято различать два понятия: СМИ в Internet и сетевые СМИ. В свое время вместе с переносом СМИ в Internet зародился процесс создания в Сети изданий, электронные версии которых дополняли (а порой и заменяли) традиционные. СМИ в Internet зачастую представляют собой прямую реплика­цию традиционных средств массовой информации на Web-серверах. Лишь не­многие средства массовой информации, даже имея свое "представительство" в Internet, смогли "перешагнуть" рамки традиционного представления своей ин­формации и стать полноценными сетевыми СМИ.

При этом миф о негативном влиянии сетевых СМИ на популярность традици­онных прототипов на практике не нашел своего подтверждения, скорее справед­ливо обратное.

Сетевые СМИ — это новый тип носителей информации, изначально ориенти­рованный на Internet, учитывающий многие нюансы представления информации в New Media. Как правило, выпуск традиционным СМИ полноценного сетевого варианта требует не только изменения форматов и формы подачи информации, но и определенной семантической корректировки материалов. Сетевым СМИ присущи два огромных преимущества: оперативность и интерактивность. Вторая особенность подразумевает возможность самостоятельного "выстраивания маршру­та" при чтении материалов издания, используя механизм гиперссылок или встро­енные поисковые системы. Вместе с тем, бытовавший ранее миф о "миграции" чи­тательской аудитории "бумажных" СМИ в New Media и негативном влиянии сетевых СМИ на популярность традиционных прототипов в действительности не нашел своего подтверждения, скорее справедливо как раз обратное.



1.3. Гипертекст и WWW

Гипертекст, появившийся как форма гиперсвязи между отдельными фрагмен­тами текста, настолько же древнее понятие, как и письменность. Библия, с ее сложным употреблением аннотаций и комментариев, — один из древнейших примеров гипертекста. Словари и энциклопедии также могут рассматриваться как сети из текстовых блоков, соединенных ссылками.

В XX веке (1945) Ванневер Буш (Vannevar Bush) создал первую фотоэлектри­ческую память и вычислительное устройство Memex (memory extension), пред­ставляющее собой справочник, реализованный путем гиперссылок в пределах документа. Тед Нельсон (Ted Nelson) в 1965 году ввел термин "гипертекст" и создал гипертекстовую систему Xanadu с двухсторонними гиперсвязями.

В 1980 году Тим Бернерс-Ли (Berners-Lee), консультант CERN (Европейская организация ядерных исследований), написал программу, позволяющую созда­вать и просматривать гипертекст и реализующую двунаправленные связи между документами в коллекции [69]. В 1990 году для поддержки документации, цир­кулирующей в CERN, Бернерс-Ли начал работу над графическим интерфейсом пользователя (GUI) для гипертекста. Эта программа была названа "WorldwideWeb" (рис. 1.3). К 1992 году уже были созданы такие программные реализации GUI, как Erwise и Viola.

В феврале 1993 года Марк Андрессен (Mark Andressen) из NCSA (Национальный Центр Суперкомпьютерных приложений США, www.ncsa.uiuc.edu) закончил начальную версию программы визуализации гипертекста Mosaic для популярно­го графического интерфейса Xwindow System под UNIX. Одновременно CERN развивал и улучшал HTML — язык гипертекстовой разметки текстов, и HTTP — протокол передачи гипертекста, а также сервер обработки гипертекстовых доку­ментов — CERN HTTPD.

С тех пор гипертекстовое пространство стало активно развиваться. В 1993 году гипертекстовый трафик составлял от 0,1% до 1% всего Internet-трафика. К концу 1993 года существовало несколько сотен HTTP-серверов. Год 1994 стал переломным: была основана Mosaic Communications Corporation (позже Netscape), состоялась первая конференция WorldWideWeb и MIT совме­стно с CERN основали Консорциум WorldWideWeb (W3C).



1.4. Интеграция информационных ресурсов

Конечно, большинство СМИ, представленных в Internet, находят своего по­требителя. Однако если рассматривать всю совокупность сетевых СМИ как не­кую общность по отношению к конкретному пользователю (или группе тако­вых), то обнаруживается ряд проблем, связанных с полнотой, релевантностью и оперативностью получения новостей.

Пользователи зачастую часами "зависают" в Internet, обходя сотни сайтов

с целью получения новостей по определенной тематике (или предметной области). В этом поиске традиционные каталоги и поисковые системы оказывают лишь косвенную помощь: они указывают адреса сайтов соответствующей тематики. Однако ни одна из традиционных универсальных поисковых систем не поможет в поиске актуальных новостей — период индексации таких систем составляет от недели до нескольких месяцев. Тем не менее количество уникальных сообщений на новостных Web-сайтах в российском и украинском сегментах Internet превы­шает 100 тыс. записей в сутки. Неудивительно, что во всем мире, в том числе и в странах восточной Европы, начали создаваться службы интеграции новостей. Для предоставления тематического (соответствующего специальным запро­сам) контента из Internet в корпоративные сети или порталы американская служба Moreover (www.moreover.com) обеспечивает сбор данных с 7 тыс. источ­ников в режиме реального времени, классифицируя информацию, которая об­новляется каждые 15 минут.

В 2002 году популярная система Internet-поиска Google запустила свой ново­стной сервис — Google News, который интегрирует информацию с 4500 различ­ных сайтов. Данные рассортированы по нескольким категориям, таким как ме­ждународные новости, деловой мир, шоу-бизнес, технологии и спорт. "Новости — естественное продолжение нашей миссии", — заявил представитель компании Марисса Майер. Новости в системе отбираются в зависимости от вре­мени их публикации, популярности источника информации и количества поя­вившихся в Internet статей на данную тему.

Одна из самых перспективных в Сети служб интеграции новостей NewsIsFree (www.newsisfree.com) охватывает свыше 12 тыс. источников (в том числе и не­сколько десятков российских и украинских). Основная особенность службы NewsIsFree — это полная интеграция с XML, в частности с RSS (рис. 1.4.).

Российское агентство Интегрум (www.integrum.ru) обеспечивает сбор элек­тронных версий коммерческих и новостных информационных продуктов. Доступ к данным в Интегрум обеспечивается с помощью информационно-поисковой сис­темы Артефакт, основанной на уникальных морфологических алгоритмах. В 5200 базах данных службы содержится свыше 300 млн документов. -

Известный российский поисковый портал Япс1ех открыл проект Япс1ех.Новости (http://news.yandex.ru), с которым в настоящее время сотрудничают свыше 130 партнеров — Internet-изданий. Для сбора новостей в службе используется формат RSS 2.0 (Realy Simple Syndication).

Система интеграции новостей InfoStream (http://infostream.ua) обеспечи­вает интеграцию информации более чем с 800 сайтов. Ядром системы является полнотекстовая информационно-поисковая система InfoReS, обеспечивающая рассылку релевантной информации по электронной почте, непосредственный доступ пользователей к оперативным и ретроспективным базам данных, а также возможность аналитической обработки и обобщения информации. Персонализа-ция интерфейса пользователей, работающих в режиме он-лайн, реализуется на основе современных технологий, ориентированных на формат RSS.

Интеграция сетевых новостей на неплохом уровне выполняется в России также службами ЗАГОЛОВКИ.РУ (www.zagolovki.ru) и Webscan (www.webscan.ru), а в Украине в рамках проектов Медиа-Хвыля (www.media-wave.com.ua) и Паук новостей (www. t opnews. com. ua).



От поисковых систем — к электронным агентам

Николас Негропонте (Nicholas Negroponte) из MIT еще несколько лет назад на страницах "Wired" (www.wired.com) заметил, что будущее принадлежит элек­тронным агентам по сбору информации. Некоторые инструменты фильтрации информационного потока сегодня можно видеть в Internet на серверах назван­ных выше проектов [14].

Вместе с тем, фундаментальные разработки в этом направлении начались лишь с развитием XML-технологий. Обычно поиск, фильтрация и сбор инфор­мации в Internet, во-первых, сопряжены с необходимостью отвлечения соответ­ствующих человеческих ресурсов и оплаты дополнительных временных затрат, а во-вторых, требуют достаточной квалификации персонала и, к сожалению, не могут учитывать всех особенностей структуры Сети и представления информа­ции в ней. Это, в свою очередь, не делает полученную выборку информации из Internet репрезентативной.

При этом информационный поток, "потребляемый", например, организацией из Internet, носит, как правило, выраженную предметную окраску, характери­зуемую областью интересов данной организации. Один из вариантов сокращения общих расходов на сбор и фильтрацию информации — выделение специального персонала для выполнения функций ее сбора, селекции и "доводки". Однако по­иск и предварительная обработка информации в ручном режиме — достаточно трудоемкий процесс, который не всегда позволяет достичь желаемого эффекта.

Решение перечисленных задач возможно путем создания автоматических и автоматизированных систем сканирования, фильтрации и анализа информа­ции, так называемых своеобразных "интеллектуальных посредников" между пользо­вателем или корпоративной информационной системой организации и Internet. По­добная система выполняет всю "черновую" работу по сбору и селекции информации из Сети и создает документальную базу данных, специфицирован­ную предметной областью заказчика. Загрузка информации в базу данных со­провождается ее категоризацией и частичным "обогащением". Для последующей информационно-аналитической работы конечному пользователю корпоративной информационной системы предоставляются эффективные средства навигации и поиска информации в созданной документальной базе данных.

1.5. Топология Web-пространства

Сегодня каждый пользователь на своем опыте может почувствовать в дейст­вии один из самых больших парадоксов Internet — "полезной информации в WWW становится все больше, но найти что-то необходимое — все сложнее".

Традиционные средства "учета" информационных ресурсов Сети — каталоги и информационно-поисковые системы — уже сегодня не справляются с задачей поиска информации, поставленной в общем виде. Эффективными оказываются лишь узко тематические (или региональные) каталоги и поисковики.

Вместе с тем, в отличие от обычного хранилища информации, Web-пространство характеризуется большим количеством скрытых в нем неявных экспертных оценок, реализованных в виде гиперссылок. Именно гиперссылки оказались базой для построения модели Web-пространства.

Для большего охвата информационных ресурсов средствами информационно-поисковых систем необходимо учитывать архитектуру всего Web-пространства, но именно этой информацией никто ранее не владел. Близкой к реальности ма­тематической модели не существовало до 1999 года.

В ноябре 1999 года один из руководителей Института поиска и анализа тек­стов, входящего в исследовательское подразделение IBM, Андрей Бредер (Andrei Broder) и его соавторы из компаний AltaVista, IBM и Compaq совер­шили прорыв, математически описав "карту" ресурсов и гиперсвязей сущест­вующего пространства World Wide Web [42-44]. Исследования опровергли расхожее мнение, будто Internet — это единое густое пространство. Проследив с помощью поискового механизма AltaVista свыше 200 млн Web-страниц и не­сколько миллиардов ссылок, размещенных на этих страницах, ученые пришли к следующим выводам о структуре Web-пространства. По их мнению, эта структура в действительности соответствует ориентированному графу с тополо­гией "галстука-бабочки" (Bow Tie), в котором вершины соответствуют страни­цам, а ребра — соединяющим страницы гиперссылкам. Анализ структуры свя­зей между отдельными Web-страницами, выполненный в рамках этой модели, позволил обнаружить следующее.

1. Центральное ядро (28% Web-страниц) — компоненты сильной связности (SCC) или узел галстука. Сюда относятся Web-страницы, связанные так тесно, что, просто следуя по гиперссылкам, из любой из них в конечном счете можно попасть на любую другую.


  1. "Отправные" Web-страницы (IN) (22% Web-страниц) — они содержат ги­перссылки, которые в конечном счете ведут к ядру, но из ядра к ним попасть нельзя.

  2. "Оконечные" Web-страницы (OUT) (столько же — 22%) — к ним можно прийти по ссылкам из ядра, но нельзя вернуться назад в ядро.

  3. "Отростки" (еще 22% Web-страниц) — полностью изолированы от цен­трального ядра: это либо "мысы", связанные гиперссылками со страница­ми любой другой категории, либо "перешейки", соединяющие две Web-страницы, не входящие в ядро.

Указанные четыре основных множества, в сумме составляющие более 90% всех исследованных Web-страниц, каждая из которых топологически относится к одной компоненте связности, и обусловили название полученной модели (рис. 1.5) — Bow Tie ("галстук-бабочка"). Помимо этого, в Web существуют и "острова", которые вообще не пересекаются с остальными ресурсами Internet. Единственный способ обнаружить ресурсы этой группы — знать их адрес. Ника­кие поисковые машины не смогут найти эти острова, если они в прошлом ка­ким-то образом не соединялись с другими частями Internet.



Рис. 1.5. Модель Bow Tie

Исследователи обнаружили, что пропорции этих четырех категорий в течение нескольких месяцев оставались неизменными, несмотря на значительное увели­чение общего объема Web-ресурсов.

Были исследованы такие параметры данной модели, как среднее количество сайтов, через которые связываются любые два сайта гиперссылками, а также рас­пределение входящих и исходящих ссылок. Было показано, что распределение по­лустепеней захода и исхода вершин графа Web-пространства подчиняется степенному закону, т.е. вероятность того, что соответствующая степень вершины равна i, про­порциональна U* (для входящих ссылок к = 2,1, а для исходящих к = 2,45).

По словам исследователей, эксперимент выявил гораздо более детальную и сложную картину: значительная область WWW вообще отделена от других крупных частей, — говорится в отчете компаний. С большой степенью вероятно­сти случайно выбранные Web-страницы окажутся никак не связаны. Если же путь все-таки существует, среднее количество щелчков, необходимых для пере­ходов между ними, составляет 16. А если этот путь двусторонний, то среднее число промежуточных щелчков сокращается до семи.

Топология и характеристики модели оказались примерно одинаковыми для различных подмножеств Web-пространства, подтверждая тем самым наблюдение о том, что "Web — это фрактал", т.е. свойства структуры Bow Tie всего Web-пространства также верны и для его отдельных подмножеств. Таким образом, алгоритмы, использующие информацию о структуре Web-пространства, предпо­ложительно будут работать и на отдельных его подмножествах.

Информация о структуре Web-пространства уже достаточно широко исполь­зуется при решении многих задач, например, для оптимизации эффективности механизмов сканирования, при анализе и прогнозе его развития, при построении новых Web-сервисов.

Полученные в результате исследований сведения заставили заново взглянуть и на стратегии Web-серфинга. Теория Bow Tie поясняет динамический характер Сети и позволяет получить представление о некоторых особенностях сложной организации WWW. Благодаря полученным результатам, уже сегодня может быть создан инструментарий, способный превратить Web-пространство в систему двустороннего движения. "Сейчас трафик по существу односторонний. Если бы браузер был наделен средствами серфинга в обратном направлении, это открыло бы доступ к гораздо большему числу ресурсов", — заявил по этому поводу пред­ставитель IBM Нам Ламор (Nam LaMore).

1.6. Навигация в Internet

Традиционные средства навигации в Web-пространстве — это каталоги и по­исковые системы [21]. Причем первыми появились Web-каталоги, как психоло­гически наиболее приближенные к образу мышления человека. Действительно, каталоги в принципе не требуют от пользователя ввода какой-либо информации с клавиатуры — достаточно воспользоваться гиперссылками, чтобы найти необхо­димую информацию. Трудно представить традиционный "бумажный" каталог, со­держащий несколько миллионов ссылок. Точно так же трудно ориентироваться в электронном Web-каталоге, не используя дополнительных возможностей, глав­ной среди которых является возможность ввода "своего" запроса с клавиатуры.

Рост объема Web-ресурсов привел к появлению и бурному росту информаци­онно-поисковых серверов в Сети. Сегодня наиболее развитые системы навигации в Internet обладают свойствами как Web-каталогов, так и информационно-поисковых серверов. Среди таких систем — мировые лидеры Google, Yahoo, AltaVista, All the web. В России лидирующее положение занимают системы Hndex, Rambler и Aport. В Украине первые каталоги появились в 1995 году, а поисковики — в 1997. В настоящее время известно до десятка украинских ин­формационно-поисковых серверов и около пятидесяти каталогов. Среди лиди­рующих систем можно назвать UAport и МЕТА.

Web-каталоги и информационно-поисковые серверы (и их симбиоз) стали прародителями нового типа Web-сервиса — порталов, т.е. "ворот в Internet".

В то же время сегодня прослеживается эволюция порталов от поисковых машин и каталогов до самостоятельных, насыщенных информацией и самодос­таточных Web-ресурсов. Порталы, как новые объекты WWW, возникли в 1998 году. Основная идея их создания заключалась в стремлении, наряду с возможностями навигации в Сети, предоставить пользователю максимальный уровень сервиса, сделать так, чтобы каждый свой сеанс работы в Internet он начинал именно с данного ресурса.

По мнению специалистов компании McKinsey, в Internet-бизнесе можно вы­делить три основных момента: привлечение нового пользователя на сайт (attraction); превращение посетителя в клиента (conversion), которое достигает­ся, если сайт настолько интересен пользователю, что он проводит там значитель­ное количество времени; и, наконец, необходимость сделать так, чтобы у посети­теля после ухода с Web-сайта оставались причины вернуться туда (retention). В этом плане типичный портал пытается не только привлечь пользователей удоб­ными средствами навигации в Internet, но и "удержать" их, предоставляя на своем ресурсе максимум необходимой и полезной информации. Таким образом, порталы представляют собой объединение средств навигации и информационных служб, однако это далеко не полная их характеристика. Портал представляет собой сайт, организованный как системное многоуровневое объединение разных ресурсов и сервисов. Как правило, такой сайт совмещает в себе разнообразные функции, предлагает разноплановые информационные ресурсы и различные сервисы (поиск, рубрикаторы, финансовые индексы, информация о погоде и т.д.). С момента появ­ления первых порталов основные функции "ворот в Internet" существенных из­менений не претерпели: это средства реализации поиска данных, общения, ново­стная часть, торговля и службы приложений. Таким образом, можно дать следующее определение понятию "портал": сайт (или совокупность сайтов), обеспечивающий удовлетворение основных потребностей пользователей путем реализации услуг (сервисов) в следующих областях: информация, бизнес, обще­ние, а также предоставления инструментария, необходимого пользователю для продвижения собственного контента в рамках портала. В соответствии с дан­ным определением портал должен включать четыре основных типа сервисов.



  1. Информационный сервис — все, что помогает найти (при необходимости) и получить информацию.

  2. Сервис реализации бизнес-функций — все то, что ориентировано непосред­ственно на продажу товаров/услуг.

  3. Инструментарий пользователя — все, что помогает ему создавать и про­двигать свой контент в сети, прежде всего бесплатный хостинг и бесплат­ный e-mail, рейтинги, баннеры, "анонсировщики" и др.

  4. Сервис обеспечения общения (community) — все, что направлено на удов­летворение потребности в общении.

Различают "вертикальные" и "горизонтальные" порталы. Вертикальный портал — это обладающий всеми качествами портала видовой или тематический сайт, ориентированный на один тип информационного наполнения. Горизон­тальный портал — это поливидовой и политематический сайт, обладающий всеми качествами Web-портала. Горизонтальный портал может включать в себя несколько видовых или тематических вертикальных порталов.

При отсутствии четкого определения понятия "портал" и в связи с инвестици­онной привлекательностью данного направления деятельности в области Internet, порталами зачастую называют сайты, не удовлетворяющие некоторым, а зачастую и многим признакам порталов. В этой связи в качестве примеров приведем наибо­лее характерные проекты, которые признаны во всем мире. Это, прежде всего, на­званные выше зарубежные каталоги и поисковики — Yahoo!, AltaVista, Google.

Среди поисковых систем, эволюционирующих в порталы, заслуживают внима­ния также Lycos (http://www.lycos.com) и Excite (http://www.excite.com) — рис. 1.6. Другими общеизвестными путями пришли к "портальности" такие сайты, как Microsoft (http://www.microsoft.com) и AOL (http://www.aol.com).

Конечно же, создание порталов требует долгосрочных инвестиций. При отсут­ствии в СНГ фондового рынка, на котором котировались бы акции Internet-компаний, инвесторам приходится ориентироваться на текущие финансовые по­казатели проекта и на прогнозы его развития в будущем. Несмотря на убыточ­ность едва ли не любого Internet-проекта в первые несколько лет его существо­вания, некоторые из них котируются довольно высоко.

Сегодня стремление рекламодателей к повышению отдачи от своих вложений в он-лайновый маркетинг подтверждается и результатами опроса, проведенного в начале 2004 года компанией Forrester Research: заказчики практически еди­нодушно высказали свое предпочтение вертикальным Internet-порталам перед web-структурами общего характера. Вертикальные порталы, такие как CBS Sportsline, CNNfn, Garden.com, CNET, нацелены на конкретную категорию кон­тента, сферу торговли или сегмент аудитории и готовы предоставлять широкий набор услуг для определенной целевой группы. Горизонтальные же порталы, та­кие как AOL, Yahoo!, MSN, AltaVista, предоставляют лишь набор базового кон­тента, коммуникационных и торговых услуг.

Несмотря на то что в настоящее время три портала — America On Line, Yahoo! и MSN — забирают около 15% всего сетевого трафика и являются полу­чателями 45% всех денег за он-лайновую рекламу, рекламодатели замечают, что реклама на вертикальных порталах более эффективна. Поэтому ожидается, что в ближайшее время вертикальные порталы будут являться получателями свыше половины общих расходов на рекламу в Internet.

Сколько же должно быть порталов, в частности, в -русскоязычной части Internet или в Украине? Многие аналитики считают, что для России, например, достаточно 2-3 десятков порталов, больше не потребуется ни пользователям, ни инвесторам. Если не принимать во внимание качества российских "порталов", то уже сегодня эта цифра превышена в сто раз — разработчики просто используют модную терминологию. С другой стороны, мировой опыт показывает, что на 1000 сайтов должен приходиться один навигатор (каталог, поисковик или пор­тал). На основании последних расчетов, на украинскую часть Сети должно при­ходиться 10-20 порталов. Что интересно, именно около 20 Web-сайтов позицио­нируют себя здесь как "порталы", зачастую "вертикальные".
1.7. Информационно-поисковые системы

Первые полнотекстовые информационно-поисковые системы (Fulltext Retrieval System) появились в начале компьютерной эры. Назначением этих систем был поиск в библиотечных каталогах, архивах, массивах документов, таких как ста­тьи, нормативные акты, рефераты, тексты брошюр, диссертаций, монографий. Вначале информационно-поисковые системы (ИПС) использовались преимущест­венно в библиотечном деле и в системах научно-технической информации.

В 1966 году 16-ю американскими библиотеками с целью установления стан­дартного формата для электронных каталогов была начата реализация проекта МАРК, обеспечившего переход к унифицированному обмену электронными дан­ными, что способствовало эффективной организации баз данных библиографиче­ских каталогов. Внедрение стандартного библиографического формата позволило библиотекам объединить усилия в работе над электронными каталогами. В 1972 году получил международное признание стандарт МАРК-2 [39], на основе которого были созданы многие национальные стандарты [6] (рис. 1.7).

В начале 1970-х годов коммерческие компьютерные службы уже предостав­ляли возможность интерактивного поиска в тематических базах данных Нацио­нальной медицинской библиотеки и Министерства образования США. При этом некоторые из этих служб существуют и сегодня— основанная еще в 1965 году система ДИАЛОГ, входящая в настоящее время в корпорацию Thomson, сегодня обеспечивает своим клиентам доступ к сотням базам данных.

В настоящее время информационные ресурсы только сети Internet состав­ляют свыше десятка миллиардов документов (Web-страниц), к которым возможен свободный доступ любого пользователя. Естественно, чтобы найти необходимую информацию в этой крупнейшей распределенной полнотекстовой базе данных, не­обходимо использовать самые мощные ИПС. Такие системы существуют и конку­рируют друг с другом на современном рынке информационных технологий.

В начале 1990-х годов для унификации информационных систем был разра­ботан важный международный стандарт Z39.50 — информационно-поисковый протокол для библиографических систем [72]. В 1994 году университет Джорд­жии запустил пилотный проект "ГАЛИЛЕЙ" с использованием Site-Search — пакета программ Огайского центра в стандарте Z39.50 (рис. 1.8). Стандарт Z39.50 положен в основу службы поиска распределенной информации в Inter­net — системы WAIS (Wide Area Information Service) [63].

Сегодня миллионам пользователей Internet известны такие информационно-поисковые системы, как Google, Yahoo, AltaVista, AllTheWeb, каждая из кото­рых охватывает свыше миллиарда Web-документов. За прошедшее десятилетие технология полнотекстового поиска стала повседневным инструментом миллио­нов пользователей. При этом далеко не все лидеры информационного рынка осознали эту тенденцию десятилетие назад.

"Недостаточные инвестиции Microsoft в технологию Internet-поиска были не­простительной ошибкой компании, но она работает над тем, чтобы наверстать упущенное. Говорят, что Microsoft успевает везде, но вот вам пример того, где мы не успели", — заявил СЕО корпорации Стив Баллмер, выступая в начале 2004 года перед аудиторией менеджеров по маркетингу и представителей СМИ на пятой ежегодной конференции Microsoft по рекламе в Редмонде. Microsoft с трудом протискивается на одну из самых оживленных территорий в WWW и пока отстает от своих главных конкурентов. При этом Баллмер заявил, что в ближайшие 12 месяцев команда разработчиков Microsoft должна предложить поисковую технологию нового поколения




.
Для охвата поиска в новостной части Internet Microsoft уже сегодня приступи­ла к тестированию агрегатора новостей MSN Newsbot. Сейчас поисковая база MSN Newsbot формируется по результатам сканирования четырех тысяч источников. Представители Microsoft заявляют, что преимущество MSN Newsbot состоит не столько в ширине охвата Internet, сколько в персонализации результатов поиска.

Для нахождения информации в Internet, чаще всего представленной в форма­те HTML, используются специальные средства — сетевые информационно-поисковые системы. Очень часто возникает вопрос: как соотносятся эти системы, работающие с потоками документов в форматах гипертекстовой разметки, и по­пулярные сегодня реляционные системы управления базами данных (СУБД)? Решают ли СУБД такого класса задачи поиска информации в текстовом форма­те, и будут ли они эффективны в случае гипертекстовых документов?

Современные реляционные СУБД поддерживают обработку запросов в стан­дарте SQL, позволяющем проводить поиск в рамках реляционной модели. Иными словами, стандартные средства этих систем обеспечивают эффективный поиск по совокупностям формализованных полей в рамках двухмерной таблицы. Полно­текстовый же поиск сводится к нахождению отдельных слов, их комбинаций, словосочетаний в рамках одного или нескольких текстовых полей (ячеек или тэ­гов), порой значительного размера.

В то время как промышленные СУБД предлагаются в качестве основ для конкретных, иногда очень масштабных приложений, информационно-поисковым системам, построенным на основе СУБД, присуща эффективность текстового по­иска в достаточно узко очерченном фрагменте. Причина кроется в том, что подоб­ные ИПС просто не предназначены для решения этой специфической задачи. По­этому несмотря на постоянное совершенствование информационно-поисковых систем, встроенных в СУБД, с сожалением, приходится констатировать их непри­годность для решения задач глобального поиска информации в Internet-ресурсах.

Если в контексте этого утверждения рассматривать программное обеспечение таких СУБД, как Oracle, Adabas, Informix, DB2, с одной стороны, и программно-технологические решения сетевых ИПС, таких как Alltheweb, AltaVista, Google, Yahoo!, Exite, с другой стороны, то проследить корреляцию между этими поня­тиями действительно трудно. Стоит отметить, что необходимость решения зада­чи полнотекстового поиска для навигации в сетевых ресурсах является всего лишь одной из предпосылок становления нового подхода к представлению ин­формации в Internet, и об этом пойдет речь ниже.

В отличие от реляционных СУБД, у систем полнотекстового поиска не суще­ствует стандартизированного языка запросов. У каждой системы этого типа су­ществует свой способ задания критериев поиска. Очень часто языки запросов поисковых систем приближены к SQL, однако каждой из них присущ ряд инди­видуальных особенностей, связанных с такими моментами, как



  1. интерпретация операций, зависящих от порядка расположения слов в тек­сте (операций контекстной близости слов и др.);

  2. реализация вычисления близости, т.е. определения соответствия найденных документов запросам (релевантности) для представления результатов поиска;

  3. применение нестандартных функций, требующих, например, использова­ния методов искусственного интеллекта (нахождение документов по прин­ципу подобия, построение дайджестов из фрагментов документов и др.).

В различных полнотекстовых ИПС различаются архитектуры, структуры данных, алгоритмы их обработки, методологии организации поиска.

1.8. "Скрытый" Web

1.8.1. Очередной феномен Internet

В Internet информации куда больше, чем можно найти с помощью традици­онных информационно-поисковых систем. Чаще всего пользователь выходит на необходимые ему новые источники в Сети через поисковые системы-брэнды, ставшие для многих "де-факто" стандартными. Однако, кроме видимой для поисковых систем части Web-пространства, существует огромное количество страниц, которые ими не охватываются. При этом доступ пользователя к таким ресурсам в принципе возможен (хотя иногда "слегка прикрыт" паролями). Как правило, эти Web-страницы доступны в Internet, однако выйти на них трудно, а порой невозможно, если не знать точного адреса. Эти ресурсы уже десять лет как имеют собственное название — "скрытый" (deep) Web [71], которое ввел Джилл Иллсворт (Jill Ellsworth) в 1994 году, обозначив им источники, недос­тупные для обычных поисковых систем. Сегодня такие ресурсы называют также "невидимым" (invisible) Web. Они чаще всего охватывают динамически форми­руемые Web-страницы, содержание которых хранится в базах данных и доступ­но лишь по запросам пользователей.

В 2000 году американская компания BrightPlanet (www.brightplanet.com) опубликовала сенсационный доклад, в котором утверждается, что в Web-пространстве в сотни раз больше страниц, чем их удалось проиндексировать са­мыми популярными поисковыми системами. Эта же компания разработала про­грамму LexiBot, которая позволяет сканировать некоторые динамические Web-страницы, формируемые из баз данных, и, запустив ее, получила неожиданные данные. Выяснилось, что для традиционных поисковых систем огромная часть Сети просто невидима (рис. 1.9).

Напомним, что в ноябре 1999 года Андрей Бредер и его соавторы из компа­ний AltaVista, IBM и Compaq разработали структурную модель ресурсов и гипер­связей Web, опровергнув мнение, что Internet — это единое связное пространство. Мы уже обсуждали выше топологию этой модели, получившей название Bow Tie. Здесь же мы еще раз остановимся на "островах", которые не пересекаются с остальными ресурсами Сети. Единственный способ обнаружить ресурсы этой группы — точно знать их адрес. Поисковые машины в принципе не находят этих островов, если они в прошлом каким-то образом не соединялись с другими частями Internet. Именно этот факт объясняет недостатки модели БреДера — он исследовал в основном страницы открытого (поверхностного) Web, к тому же от­бирая их, видимо, не совсем случайно. Поэтому, если процентное соотношение первых четырех составляющих "поверхностного" Web можно признать верным, "острова" в реальности будут более объемными, чем в модели. Согласно исследова­ниям компании BrightPlanet, число скрытых (но не секретных) Web-страниц во много раз превышает количество видимых. Доступные сегодня посредством тради­ционных информационно-поисковых систем 10 млрд Web-страниц — это лишь ви­димая крупица. Непознанных, скрытых ресурсов Сети в сотни (!) раз больше. Это, прежде всего, динамически генерируемые страницы, файлы нераспознаваемых по­исковыми системами форматов, информация из многочисленных баз данных. В результате исследований также было выявлено немало интересных особенностей "скрытого" Web. Так, например, известно, что средняя его страница на 27% ком­пактнее средней страницы из поверхностной части Web-пространства.



1.8.2. Типы скрытых ресурсов

Для того чтобы определить, какие из ресурсов невидимы для поисковых сис­тем, следует рассмотреть принцип работы типового индексатора-робота таких систем. Эти программы-роботы, как правило, посещают Web-страницы по из­вестным заранее адресам, анализируют их содержание и выделяют гиперссылки, идущие от них. Обычно, обработав текущую страницу, выделив ключевые слова и некоторые поля, робот переходит по адресам, найденным на ней, сканирует последующие страницы, выделяет новые адреса и т.д. Обычно, если робот опре­деляет, что в данный момент обращается к динамической странице, он останав­ливает свою работу. Эта тактика выбрана в предположении, что чаще всего для получения осмысленного ответа из баз данных требуется осмысленный запрос, а большинству из роботов чужды элементы интеллекта, даже искусственного. В результате "скрытый" Web охватывает в первую очередь содержимое он­лайновых баз данных, доступных в сети. Динамической является и быстро об­новляемая информация — новости, конференции, он-лайновые журналы.

Конечно, есть и явные "острова" по Бредеру, на которые не указывают никакие гиперссылки и от которых никаких гиперссылок не исходит. Защищенные пароля­ми коммерческие Web-сайты также попадают в категорию "скрытого" Web — о ма­териалах этих сайтов большинство пользователей никогда не узнают лишь с помо­щью поисковых систем. Однако относительное количество таких сайтов невелико. Например, среди крупнейших сайтов "скрытого" Web платными являются только 10% ресурсов, хотя именно они включают важнейшие издательства и базы данных.

Основатель BrightPlanet Майкл Бергман (Michael К. Bergman) выделил 12 раз­новидностей "скрытых" Web-ресурсов (www.leidenuniv.nl/ub/biv/specials.htm), относящихся к классу он-лайновых баз данных. В списке оказались как тради­ционные базы данных (патенты, медицина и финансы), так и публичные ресур­сы — объявления о поиске работы, чаты, библиотеки, справочники. Бергман причислил к "скрытым" ресурсам и специализированные поисковые системы, которые обслуживают определенные отрасли или рынки, базы данных которых не включаются в глобальные каталоги традиционных поисковых служб.

К "скрытому" Web также относятся многочисленные системы интерактивного взаимодействия с пользователями — системы помощи, консультирования, обу­чения, требующие участия людей для формирования динамических ответов от серверов. К ним также можно отнести и закрытую (полностью или частично) информацию, доступную пользователям Сети только с определенных адресов, групп адресов, иногда городов или стран. К "скрытой" части Сети многие при­числяют и Web-страницы, зарегистрированные на бесплатных серверах, которые индексируются, в лучшем случае, лишь частично — поисковые системы во из­бежание рекламного спама не стремятся обходить их в полном объеме.

Недавно появилась категория так называемых "серых" сайтов, функциони­рующих на основе динамических систем управления контентом (Dynamic Content Management Systems). В поисковых системах обычно ограничивается глубина индексирования таких сайтов во избежание возможного циклического просмотра одних и тех же страниц.

И конечно же, "скрытыми" оказываются и Web-сайты, создатели которых не оповещают кого-либо о создании этих ресурсов.

Безусловно, основной формат данных, с которым работают традиционные по­исковые системы в Internet, — это HTML, причем статическая его часть. С дру­гими форматами у многих поисковых систем имеются различные проблемы. К примеру, наличие различных версий формата PDF (Adobe Portable Document Format), а также особенности хранения инкапсулированных графических изо­бражений заставляют считать сетевые ресурсы, представленные в этом формате, "скрытыми". Тем не менее некоторые современные поисковые системы уже вполне сносно индексируют документы в PDF-формате. К "скрытым" форматам принято относить также и Flash, широко использующийся для обеспечения ви­зуальных эффектов на Web-сайтах.

Кроме того, для нашего пользователя наверняка "скрытой" можно при­знать большую часть гигантского китайского сегмента Internet. Например, малопопулярный в Европе и Америке китайский поисковый портал Baidu (www.baidu.com) в 2004 году опередил Google по объему трафика и стал четвер­тым в мире Web-ресурсом по этому показателю. Еще одна китайская поисковая система, 372l.com, заняла седьмое место. Эти данные по ранжированию привела исследовательская компания Alexa, речь о которой пойдет ниже. Портал Baidu.com стал крупнейшей в мире поисковой системой на китайском языке и охватывает более 95% китайских пользователей Сети.

1.8.3. Базы данных "скрытой" Сети

Пожалуй, самыми большими из известных ресурсов "скрытого" Web являют­ся базы данных служб Dialog и LexisNexis.



Одной из крупнейших мировых служб информационного поиска является американская компания Dialog (http://www.dialog.com), созданная при под­держке NASA и до 1988 года принадлежавшая аэрокосмической фирме Lockheed. Сегодня Dialog принадлежит корпорации Thomson (США) — одному из всемирных лидеров в области предоставления интегрированных информаци­онных решений (рис. 1.10). Корпорация Thomson имеет свыше 20 миллионов пользователей в 130 странах мира.



Рис.1.10. Сайт службы Dialog

Сервисом компании Dialog также пользуются в более чем 100 странах мира. Образованная в 1965 году как первая в мире он-лайновая информационно-поисковая служба, Dialog фактически определила современные стандарты управления информацией. На сегодняшний день она включает такие продукты и сервисы, как Dialog®, Dialog Profound®, Dialog DataStar®, Dialog NewsEdge® и Dialog Intelliscope, которые обеспечивают доступ к более 1,4 млрд документов через Internet или сети intranet. При этом в компании Dialog определяют свои ресурсы как часть "скрытого" Web (Deep Web), заявляя, что содержат полезной, не дублирующейся информации в 500 (!) раз больше, чем доступно с помощью традиционных информационно-поисковых систем. Коллекция баз данных служ­бы Dialog содержит 900 баз данных, доступных 700 000 пользователям, которые только за один час прочитывают свыше 17 млн документов из этих баз данных.

Основанная, в 1973 году, крупнейшая в мире он-лайновая служба LexisNexis (ht'tp: //www. lexisnexis. com) предоставляет своим пользователям юридиче­скую, политическую, коммерческую, новостную, регистрационную и другую ин­формацию (рис. 1.11). С 1979 года система баз данных LexisNexis — первая в мире служба полнотекстового поиска. В настоящее время эта служба охваты­вает свыше 35 000 источников информации, содержащих в совокупности более 4,6 млрд документов с глубиной ретроспективы до 200 лет. Каждый час в базы данных LexisNexis добавляется 57 500 документов. LexisNexis представлена се­годня в 20 странах, пользователи сервиса находятся в более чем 100 странах. К коммерческим базам данных "скрытого" Web можно отнести и информаци­онные ресурсы крупнейших мировых информационных агентств, уже много лет работающих на рынке финансовой информации, таких как Reuters, Tenfore, Dow Jones Telerate, Bloomberg.

С другой стороны, в "скрытом" Web существует множество альтернатив ком­мерческим базам данных. Среди них, например, сайт www.lOkwizard.com, пред­лагающий доступ к полным текстам корпоративных документов, хранящихся в Комиссии США по ценным бумагам и биржам. Существуют тысячи баз данных "скрытого" Web, свободно доступные для пользователей, но чаще всего не охва­тываемые традиционными поисковыми системами.

Приведем еще несколько примеров.


  1. Educator's Reference Desk (http://www.askeric.org)— этот ресурс со­держит свыше двух тысяч учебных планов, несколько тысяч ссылок на образовательные документы, а также ссылки, представляющие собой за­просы к архиву. С этого сайта обеспечивается доступ к базе данных ERIC — крупнейшему источнику информации по проблемам образования, а также к полнотекстовым дайджестам, составляемым экспертами.

  2. Nuclear Explosions Database (http://www.ga.gov.au/oracle/ nukexp_query.html) — австралийская база данных по географии. Для работы с системой достаточно перейти в режим "Online Tools", после чего будет представлен список баз данных и карт.

  1. PubMed (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi) — с ресур­са обеспечивается доступ к свыше 14 млн ссылок системы MEDLINE, включая ссылки на полные тексты статей и информационные ресурсы. Имеется возможность перехода к службе PubMed Central (PMC), к свобод­но доступному архиву статей (свыше 90 тысяч) из научных журналов. Обеспечивается также доступ к глобальной поисковой системе NCBI, охва­тывающей базы данных по естествознанию.

  2. LookSmart's FindArticles (http://www.findarticles.com) — база данных FindArticles — доступный через Web-интерфейс архив, содержащий 2,8 млн статей из более чем 500 источников, накапливаемый с 1998 года.

1.8.4. Сталкеры в скрытом пространстве

"Скрытый" Web представляет собой гигантский репозитарий документов, зву­ков, изображений, фильмов и т.п. Безусловно, если большая часть этой информа­ции не доступна традиционным поисковым системам, то существует потребность в специальных инструментах поиска "скрытого" контента. Эти инструменты вклю­чают каталоги, метапоисковые сайты, доступные через Web базы данных, а также большое количество глобальных, региональных и специальных поисковых систем.

Для поиска в "скрытой" Сети, а именно в том ее сегменте, который состав­ляют базы данных, сегодня уже существуют некоторые специализированные ре­сурсы. Среди них, например, системы BigHub (www.bighub.com) и Invisible Web (www.invisible-web.net) компании IntelliSeek (рис. 1.12).

Сайт Invisible Web включает в себя каталог баз данных, большинство из ко­торых не проиндексированы известными поисковыми машинами. При введении запроса этот сайт выдает ссылки на ресурсы, с помощью которых поиск необхо­димой информации станет наиболее оптимальным. На этом сайте Криса Шерма-на (Chris Sherman) и Гари Прайса (Gary Price) собраны коллекции ссылок на раз­личные базы данных, среди которых содержится немало уникальных ресурсов — например, сборник спичей политиков и бизнесменов. Программный пакет BullsEye компании IntelliSeek осуществляет поиск более чем в 800 сетевых ресурсах.

Лидером среди навигаторов в "скрытом" Web является сайт CompletePlanet (www.completeplanet.com) компании BrightPlanet. Этот сайт является крупней­шим каталогом, насчитывающим свыше 100 тыс. ссылок. Компания BrightPlanet также создала персональную утилиту для поиска в он-лайновых базах данных — LexiBot, которая может обеспечивать поиск в нескольких тысячах поисковых систем "скрытого" Web. Метапоисковый пакет DeepQueryManager (DQM) этой же компании обеспечивает поиск по 55 тыс. "скрытых" Web-ресурсов.

Сайт Direct Search (http: //www. freepint. com/gary/direct.htm), созданный Гари Прайсом, также обеспечивает поиск в базах данных "скрытого" Web. На сайте содержится ссылка на лучшие ресурсы ценовой информации (MySimon.com), финан­совой информации (FinancialFind.com), а также ссылки на информацию из научно-популярных журналов и научных баз данных по биотехнологиям (Biolinks.com).

В Internet есть и другие сайты-навигаторы, а также специализированные про­граммы поиска. Например, поисковая система по университетским архивам, библио­текам и книгам — Infomine Multiple Database Search (http://infomine.ucr.edu/ search.phtml); каталог информационных сайтов, которые уникальны в своих областях, — BUBL LINK (bubl.ac.uk/link); полнотекстовый поиск по содер­жанию всех книг — Amazon.com.

Особенность большинства "скрытых" ресурсов — в их узкой специализации. Для поиска в них используются те же механизмы, что и для "поверхностного" Web, однако чаще всего роботы поисковых систем для "скрытого" Web включа­ют уникальные для каждого такого ресурса модули доступа к данным.



1.8.5. "Скрытый" Web в каталогах

Каталоги, как глобальные, так и специальные, могут содержать ссылки на "скрытые" ресурсы, прежде всего базы данных. Приведем несколько самых из­вестных примеров.



  1. Портал WebData.com на первый взгляд ничем не отличается от других по­добных ресурсов, однако содержит гиперсылку "Add Your Database" (добавить Вашу базу данных), говорящую о том, что на данном портале можно зарегистрировать базу данных — часть "скрытого" Web.

  2. Librarians' Index to the Internet (http://lii.org) — каталог, содержащий свы­ше 14 000 Internet-ресурсов. LII также включает ссылки на "скрытые" в Web-пространстве базы данных. У владельцев таких баз данных есть возможность поместить соответствующую гиперссылку в этом каталоге на свой ресурс (в LII есть ссылка "and databases" (добавить базу данных).

  3. FindLaw (http://www.findlaw.com) — один из наиболее популярных в мире юридических Web-сайтов, представляющий собой огромный каталог правовых ресурсов, содержащий аннотированный список свободно доступ­ных баз данных нормативно-правовых документов, для которых данный ресурс является "точкой входа".

  1. InfoMine (http://infomine.ucr.edu)— ресурс, содержащий ссылки на 120 000 документов, представленных в 9 аннотированных базах данных. Этот каталог позиционирует себя как "виртуальную библиотеку Internet-ресурсов", ориентированную на студентов и исследователей-профессионалов.

  2. About.com (http://www.about.com)— портал, охватывающий тысячи снабженных комментариями ссылок на Web-ресурсы, в том числе и на ре­сурсы "скрытого" Web (имеется ссылка "Invisible Web"). На портале предос­тавляется возможность поиска в каталоге. Ресурс также включает несколько статей по проблематике "невидимого" Web: "What is the Invisible Web?", "Finding the Invisible Web", "Top Places to Search the Invisible Web" и др.

К разряду каталогов можно также отнести следующие коллекции ссылок, поисковые системы и "скрытые" базы данных.

  1. Direct Search (http://www.freepint.com/gary/direct.htm)— ресурс, содержащий ссылки на ресурсы "скрытого" Web. Например, присутствует ссылка на сайт ResourceShelf (http://www.resourceshelf.com), обеспе­чивающий поиск в блогах (сетевых журналах) и новостных сообщениях.

  2. The Invisible Web Directory (http://www.invisible-web.net)— Web-сайт Шермана и Прайса (Chris Sherman & Gary Price), соавторов термина "Invisible Web".

  3. Profusion (http://www.profusion.com) — сайт компании Intelliseek, пер­вой создавшей каталог "невидимого" Web InvisibleWeb.com. ProFusion; это модифицированная метапоисковая система, позволяющая выбирать области поиска в "вертикальных" (тематических) разрезах.

  4. CompletePlanet (http://www.completeplanet.com)— сайт корпорации BrightPlanet Corporation, который охватывает свыше 70 000 поисковых баз данных и специальных поисковых систем.

1.8.6. Системы поиска в "скрытом" Web

Традиционная поисковая система чаще всего может выдать адрес базы данных, но не укажет, какие конкретно документы содержатся в ней. Типичный пример — информационно-поисковые системы по украинскому (http: //www /rada.gov.ua) или российскому (http://www.kodeks.ru) законодательству. Тысячи докумен­тов из баз данных становятся доступны только после входа в систему, а роботы стандартных поисковых систем не в состоянии заиндексировать контент баз дан­ных. Многие поисковые системы, как глобальные, так и локальные, описаны на сайтах Search Engine Watch (http://www.searchenginewatch.com) и Search Engine Showdown (http://www.searchengineshowdown.com). На этих сайтах приведены, среди прочих, и поисковые системы "скрытого" Web.

• Sirigingfish (http://www.singingfish.com)— эта поисковая система
обеспечивает поиск аудио- и видеофайлов, представленных на Web-сайтах.


  1. Scirus (http://www.scirus.com) — поисковая система по представленным в Internet научным материалам, включая статьи из журналов и отчеты. Со страницы расширенного поиска (Advanced Search) доступны многочислен­ные тексты из баз данных EBSCO и ProQuest.

  2. UFOSeek (http://www.ufoseek.com) — поисковая система по материалам о паранормальных явлениях и НЛО.

Качественный и полноценный поиск информации в "скрытом" Web возможен и с использованием таких специализированных коммерческих баз данных, как Dialog, ProQuest, Web of Science. Но эти базы данных, ввиду своей платности, сами являются объектами "скрытого" Web.

1.8.7. Информация в различных форматах

Информация, представленная в форматах, отличных от HTML, для многих поисковых систем оказывается недоступной, хотя сегодня ситуация меняется в корне. Например, популярная система Google (http://www.google.com) уже обеспечивает поиск в документах, представленных в форматах MS PowerPoint, DOC, RTF, Postscript, PDF, а также обеспечивает преобразование этих файлов в текстовый формат. Поиск документов разнообразных форматов доступен в этой системе как из режима расширенного поиска в Google (Advanced Search), так и из "простого" поиска — достаточно использовать в запросе команду "filetype:", уточнив поиск выражением "filetype:pdf".

Знаменитая служба Yahoo! сегодня уже не только каталог, но и полно­функциональная поисковая система. Поисковая система Yahoo! Search (http://www.yahoo.com), как и Google, обеспечивает выдачу текстовых копий документов, размещенных в Internet в форматах Word, Excel, PowerPoint и PDF, а также RSS/XML-фидов (новостных лент и блогов — "живых журналов").

Специализированная система Gigablast (http://www.gigablast.com) предна­значена исключительно для поиска по документам в форматах Word, Excel и PDF. Эта система выдает по запросу кэшированные (архивные) копии документов в ис­ходных форматах, при этом обеспечивает булевый поиск и выдачу версионных ко­пий документов, которые были размещены в Сети, но затем, возможно, удалены.



1.8.8. Скрытые новостные ресурсы

Текст новостей тоже традиционно относился к "скрытой" Сети, однако в последние годы все крупнейшие поисковые сайты разработали эффектив­ные инструменты поиска оперативно обновляемых новостных сообщений — это, например, " flndex.Новости" (http://news.yandex.ru), Google News (http://news.google.com) или Uaport (http://uaport.net/UAnews). Служба Google News автоматически собирает новости из нескольких тысяч источников, обновляя свои базы данных каждые 15 минут. Существуют и другие зарубежные службы интеграции новостей, например NewsIsFree, Topix.net и Daypop (www.daypop.com). В России крупнейшими интеграторами но­востей являются системы Integrum (http://www.integrum.ru) и Webscan (http://www.webscan.ru), в Украине— InfoStream (http://infostream.ua) и WebObserver (http://webobserver.info).

Многие сайты на своих страницах публикуют новости, как собственные, кор­поративные, так и общеотраслевые. Если на сайте не реализован статический механизм архивации старых сообщений, то, даже будучи помещенными в архив, доступный из Internet, эти сообщения рискуют оказаться в зоне "скрытого" Web. Материалы публикаций попадают в разряд "невидимого" Web и в том случае, если они защищены паролями как средствами обеспечения оплаты или просто сбора статистики о читателях. Многие аналитики (в частности, аналитик IDC Джеймс Левин) признают, что для изданий значительно выгоднее публиковать усеченную бесплатную версию своих материалов — это обеспечит их популяр­ность в Internet, попадание изданий в индексы популярных поисковых систем.

1.8.9. "Скрытый" архив "поверхностного Web

Парадоксально, но как один из ресурсов "скрытого" Web можно рассматри­вать и архив ресурсов открытого Web-пространства. Такой архив — Internet Archive — с 1996 года создает компания Alexa (www.alexa.com). Сегодня объем базы данных Alexa превышает 500 Тбайт. Новые страницы в настоящее время попадают в хранилище со скоростью 1 Тбайт в день. Технология хранилища Alexa включает ряд современных средств управления гигантским документаль­ным хранилищем. Например, с помощью технологии Alexa выполняется класте­ризация Web-ресурсов, т.е. формирование коллекций документов, близких по тематикам. Особый интерес у пользователей сервиса Alexa вызывает "Машина времени" (Wayback Machine), открывающая доступ к временным срезам Web-пространства. Одно из наиболее интересных практических применений этой технологии — восстановление документов, некогда опубликованных в Web-пространстве, но впоследствии удаленных. При этом рост "скрытого" Web грозит серьезными пробелами в хранилище системы, связанными с увеличивающимся количеством сайтов, эксплуатирующих различные технологии управления кон­тентом, динамической публикацией документов из баз данных и т.п.

Аналогичный проект— Informedia (www.informedia.com), но относящийся только к одному типу информации (аудиовизуальной), разрабатывается в ин­ституте Карнеги Меллона. Informedia появился в 1996 году в рамках инициати­вы Digital Library Initiative. С тех пор к проекту в роли спонсоров присоедини­лись многие компании, в том числе Microsoft, Intel, CNN, Boeing и даже Visa. В рамках проекта разрабатываются технологии распознавания образов и речи.

1.8.10. Подходы к решению проблемы "скрытого" Web

Чем быстрее растет Web-пространство, тем хуже оно охватывается традици­онными каталогами и поисковыми машинами. Ввиду роста количества Web-сайтов и порталов, использующих в своей работе хранящуюся в базах данных информацию, динамических систем управления контентом, появлением новых версий форматов представления информации, "скрытый" сегмент Web растет очень интенсивно. С одной стороны, Internet как огромное хранилище увеличи­вает объем информации, доступной "в принципе", но с другой стороны — растет информационный хаос, увеличивается энтропия сетевого информационного про­странства. Все меньшая часть информационных ресурсов становится доступной пользователям реально. Объем "скрытого" Web, содержащего полезную для пользователей, но слабодоступную информацию, в сотни раз превышает "поверхностную" часть. Иными словами, традиционные средства охвата инфор­мационных ресурсов не справляются с задачей поиска большей части информации. Эффективными оказываются лишь тематические каталоги и поисковики — сталкеры в мире "скрытого" Web.

Спасти ситуацию могут и новые возможности унификации обмена информа­цией в Internet. Одним из первых проектов консорциума W3C в этой области стал "Семантический Web", речь о котором пойдет ниже. Основная идея проекта заключается в следующем: Web-серверы должны не только визуализировать, но и использовать данные, чтобы программы разных производителей могли эффек­тивно работать с контентом.

Для решения задачи интеграции новостной информации было создано несколь­ко форматов описания данных на основе XML. Самый распространенный формат получил название RSS, что означает Really Simple Syndication, Rich Site Summary. Сегодня экспорт данных в формате RSS осуществляют крупнейшие порталы, включая CNN, ВВС News, Amazon, CNet News, MSNBC, The Register, Wired и т.д.

Аналитики отмечают, что только в начале 2004 года пользователи Internet по-настоящему открыли для себя технологию RSS. Сегодня для работы с данны­ми в формате RSS разрабатываются все новые программы, сайты и поисковые системы, которые все более востребованы пользователями. Эти программы при­открывают завесу над динамично обновляемой частью "скрытого" Web.


следующая страница >>