Похожие работы
|
New media общая информация об Internet - страница №1/9
![]() ![]() Содержание ВВЕДЕНИЕ ГЛАВА 1. NEW MEDIA
1.8.10. Подходы к решению проблемы "скрытого" Web ГЛАВА 2. ПОИСК В INTERNET
12 15 15 17 19 20 23 25 28 31 31 33 34 37 38 39 40 40 41 41 43 43 45 49 52 54 55 57 57 57 58 59 2.12. Поиск по параметрам 59
2.13. Популярные сетевые информационно-поисковые службы 61
2.14. Поиск информации в корпоративных сетях 73
2.15. Поисковые программно-аппаратные комплексы 83 ГЛАВА 3. СИСТЕМЫ ИНТЕГРАЦИИ INTERNET-КОНТЕНТА 87
3.13. Службы доставки новостей по электронной почте 127
ГЛАВА 4. XML — ЯЗЫК РАЗМЕТКИ И МОДЕЛЬ ДАННЫХ 141
ГЛАВА 5. ОСНОВЫ ТЕХНОЛОГИИ TEXT MINING 159
5.4. Группировка текстовых данных 169
ГЛАВА б. ИНСТРУМЕНТАРИЙ КОНКУРЕНТНОЙ РАЗВЕДКИ 217
ГЛАВА 7. ЗАКОНОМЕРНОСТИ, ПРИСУЩИЕ ИНФОРМАЦИОННЫМ СИСТЕМАМ 231
7.7. Проблемы и феномены Internet 249 ГЛОССАРИЙ 253 ЛИТЕРАТУРА 263 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 267 Предисловие Эта книга для тех, кто интересуется методами получения новых знаний на основе анализа современного информационного пространства, а также способами обработки информационных потоков с целью выявления тенденций, новых понятий, феноменов, взаимосвязей. Одно из определений знаний, которое дает энциклопедический словарь Webster, следующее: состояние осведомленности о чем-то или обладание информацией. Именно эта трактовка знаний наиболее близка к проблематике данной работы. Объем данных, из которого приходится выискивать крупицы необходимой, актуальной, готовой к немедленному использованию информации для решения проблем, обусловливает актуальность и значимость самого процесса поиска знаний. Если знания — это сила, то сегодня первоочередная задача — найти эту силу. При этом поиск знаний, в отличие от простого поиска информации, при котором зачастую не учитывается семантика запросов, должен предоставлять пользователю только действительно актуальную информацию, наиболее точно соответствующую его потребностям, и вместе с тем адекватную исходному запросу. Если при обычном информационном поиске пользователь в конечном итоге знает, что он может получить, то при поиске знаний он должен получить нечто до сих пор ему неизвестное и познать его. О сложности такого процесса говорит, например, недавнее исследование, проведенное фирмой Reuters среди 1300 менеджеров, которое показало, что "менеджеры чувствуют, что не могут эффективно работать без получения большого объема информации, но эта тяжелая загрузка данными, часто не имеющими никакого отношения к делу, снижает эффективность их работы и препятствует нормальному функционированию корпоративной машины". Это состояние было названо "синдромом информационной усталости", что свидетельствует об избытке информации и недостатке знаний. Из опрошенных фирмой Reuters менеджеров, 38% утверждают, что "тратят много времени, пытаясь найти нужную информацию". По оценкам экспертов, около 79% журналистов обращаются к Internet в поисках новостей и лишь 20 % находят ту информацию, которая им необходима. Все они на самом деле ищут именно знания. В последнее время о поиске знаний пишут достаточно много. Появилось новое направление в обработке текстовой информации — "глубинный анализ текстов" (Text Mining). Это направление, скорее технологическое, чем научное, включило в себя все реальные, реализуемые на практике результаты исследований в области контент-анализа и компьютерной лингвистики, которая, как и теория баз знаний, интенсивно развивалась в 70-80-е годы прошлого века. Сегодня прагматичные подходы, свойственные технологии Text Mining, могут применяться как студентами при написании обзорных курсовых работ, так и маркетологами при анализе рынков, политиками, бизнесменами, учеными — всеми, кто активно участвует в современных информационных, политических и бизнес-процессах. Методы Text Mining уже используются в таких основных областях, как: » политические исследования — геополитика, анализ предвыборной и выборной ситуации, деятельность партий, общественных организаций, отдельных политических деятелей и т.д.;
Несмотря на то что книга ориентирована на широкий круг читателей, интересующихся современными информационными технологиями, хочется верить, что она будет также полезна и аналитикам, которые с помощью методологии Text Mining или отдельных ее компонентов смогут повысить эффективность и качество своей работы. Введение К оличество информации, обрушивающейся на человека в современном мире, обусловливает актуальность задачи отделения действительно важных сведений от информационного шума. Человек, группа людей, информационная служба, профессиональные эксперты-аналитики уже не могут пропускать через себя потоки информации, которые изливаются на них сегодня электронными медиа. Зачастую даже опытные эксперты не могут выделить главного, не находят сведений, необходимых для принятия решений, в результате чего действия как отдельных людей, так и коллективов или даже государств становятся неадекватными реальной обстановке. Таким образом, самая главная проблема современных коммуникаций — это извлечение действительно ценных сведений из информационных потоков; другими словами, получение знаний из информации. Обилие информации уже давно воспринимается как нечто само собой разумеющееся. Количественные оценки ее суммарного объема как таковые вряд ли могут стать поводом для особых размышлений. Но если подобные показатели подвергнуть структурному анализу, то полученные результаты могут оказаться весьма неожиданными. Возьмем, к примеру, исследование изменения объема информации в мире за год [54]. С 2000 года оно проводится в Калифорнийском университете в Беркли под руководством профессоров Питера Лаймана и Хода Вэриена. Ученые пришли к выводу, что на протяжении трех лет, предшествующих 2002 году, количество информации, произведенной человечеством, удвоилось. А в самом 2002 году в мире было произведено пять экзабайт (миллионов терабайт) информации. Для сравнения приведем данные об объеме фонда библиотеки Конгресса США, где хранится 19 млн книг и 56 млн рукописей: он составляет около десяти терабайт информации. В упомянутом исследовании информация структурировалась по типам носителей. Оказалось, что лидерство прочно удерживают магнитные носители, доля которых превышает 90%. Из них большую часть составляют жесткие диски. На кино, фото, печатные издания и другие бумажные документы вместе с оптическими цифровыми носителями приходится лишь 7% информации. Очевидно, что лишь человеческого опыта в данной информационной ситуации становится уже недостаточно. Сама среда поступления информации определяет и возможные реальные подходы к ее обработке. Только мощные возможности информационной техники — компьютеров, сетей — в совокупности со специальным программным обеспечением могут оказаться той панацеей, которая спасет нас от информационного хаоса. В свое время казались очень перспективными системы искусственного интеллекта, экспертные системы со своими парадигмами фреймов и правил — баз знаний. То ли в 80-х годах двадцатого столетия не до конца сформировалась общественная потребность в широком использовании таких систем, то ли недостаточными были мощности компьютеров, то ли не доработаны были теоретические и алгоритмические основы таких систем, но бум их популярности в конце 80-х годов закончился. За прошедшее с тех пор время наряду с бурным технологическим процессом (до сих пор не опровергнут закон Мура) сложилось понимание того, что для решения проблемы информационного хаоса больше всего подходят технологии, порожденные некогда таким направлением, как контент-анализ, и сегодня получившие названия Data Mining и Text Mining. В настоящее время существуют достаточно развитые системы, реализующие эти направления. Практически все самые известные производители программного обеспечения предлагают на рынке системы глубинного анализа данных и текстов (у компании Oracle — это Oracle Text, у IBM — Intelligent Miner for Text, у SAS — Text Miner). Следует отметить, что большая часть информационного потока — это неструктурированная текстовая информация, в то время как значительная часть электронной информации, порожденной путем использования современных СУБД, — это численные фактографические данные. Если обработка таких данных позволяет использовать уже отработанные методы и погружать потоки данных в СУБД, то задача анализа текстовой информации открывает широкое поле для применения новейших методик и технологий, таких как XML, лингвистические, эмпирические, статистические подходы. В настоящее время уже определено несколько задач, стоящих перед технологией Text Mining, — это автоматическая классификация, кластеризация, выявление смысловых взаимосвязей отдельных фрагментов и понятий, выраженных в тексте, а также составление осмысленных рефератов, резюмирующих знания, содержащиеся в текстовых массивах больших объемов. Возможно, эти технологические подходы в случае массового применения смогут облегчить ориентацию человека в постоянно расширяемом информационном поле, позволят ему адекватнее реагировать на происходящие события, уверенно принимать важные решения на основе концентрации знаний. Развитие вычислительной техники и компьютерных сетей способствовало появлению систем, назначение которых — поиск в массивах полнотекстовых документов. К таким документам можно отнести, например, статьи, нормативные акты, реферативные описания, тексты брошюр, диссертаций, монографий. До определенного времени полнотекстовые информационно-поисковые системы использовались преимущественно специалистами, круг которых был не очень широк, — архивные работники, сотрудники библиотек, ученые, аналитики. Появление и развитие сети Internet в корне изменило ситуацию. Сегодня информационные ресурсы Сети составляют около десяти миллиардов документов (Web-страниц), к которым возможен свободный доступ любого пользователя. Естественно, чтобы найти необходимую информацию в этой крупнейшей полнотекстовой базе данных, необходимо использовать очень мощные поисковые средства, которые в зачаточном состоянии уже существуют, развиваются и конкурируют друг с другом на рынке информационных технологий. Сегодня миллионам пользователей Internet известны такие системы, как Google, Yahoo, AllTheWeb, AltaVista, каждая из которых охватывает несколько миллиардов Web-документов. Мы стали свидетелями "информационного взрыва", в результате которого менее чем за 10 лет мало кому известная технология полнотекстового поиска стала повседневным инструментом миллионов людей. В связи с этим первая глава книги — "New Media" — посвящена Internet и ее информационному подпространству World Wide Web. В этой главе описывается топология этого подпространства, а также средства навигации в нем и эволюция этих средств — от простейших наборов ссылок и каталогов до многофункциональных порталов. Вторая глава посвящена поисковым системам, процессу поиска информации и его отдельным звеньям, а также включает трактовки таких фундаментальных понятий информационного поиска, как полнота и релевантность. Кроме того, эта глава содержит информацию о практической стороне использования процедур поиска, особенностях формирования запросов к различным информационно-поисковым системам с использованием слов, словоформ, фрагментов текстов, а также о поиске с учетом структуры документов, морфологии, подобия. Третья глава охватывает вопросы ориентации в новостной информации, представленной в Сети. Для такого поиска используется специальный класс информационно-поисковых систем — системы мониторинга контента Internet, на основе которых строятся современные службы синдикации новостей. Вопросам современного унифицированного представления информации в перспективном формате гипертекстовой разметки XML, а также технологическим решениям, построенным на основе идеологии XML, посвящена четвертая глава "XML — язык разметки и модель данных". Технологиям выявления знаний в текстовых массивах с использованием как классических, так и новых, интеллектуальных подходов к анализу информации посвящена пятая глава "Технология Text Mining". Шестая глава посвящена очень популярному сегодня направлению использования технологии Text Mining — конкурентной разведке, которая заключается в сборе и аналитической обработке информации, необходимой для принятия оптимальных управленческих решений. Очень важно, что при этом конкурентная разведка выполняется строго в рамках правовых норм. Седьмая, заключительная, глава книги содержит обзор общих закономерностей, присущих информационным системам, в частности таких, как правило Парето, законы Зипфа и Брэдфорда и так далее, что должно дать читателю некоторое обобщенное представление о тенденциях и подходах, обсуждаемых в книге. Дмитрий Ландэ, сентябрь 2004 года
Глава I New Media I nternet, появившись вначале как феномен новых технологий, породила мощный инструмент специфического воздействия на сознание человека, получивший название "New Media" [10]. 1.1. Общая информация об Internet Internet более чем за 30 лет своего существования вышла за пределы военных лабораторий США (где она родилась в рамках проекта ARPANET) и научных кругов [11] и к настоящему времени стала одним из самых известных явлений современности. Благодаря чему же произошло это, почему из сотен компьютерных сетей именно Internet получила такое развитие? Ответов несколько.
Internet-ресурсы сегодня — это, прежде всего, объемы — свыше 10 млрд документов на более 50 млн Web-сайтов. По заявлению аналитической компании Cyveillance (http://www.cyveillance.com), темпы роста Сети составляют 7 млн новых страниц в день. По прогнозам, "центр роста" Internet сейчас уходит из США. Динамика роста объемов информационных ресурсов в Сети настолько велика (для сравнения, можно отметить — количество Web-сайтов в 1998 году составляло около 1 млн), что методы решения задачи обеспечения навигации в ресурсах Internet кажутся далеко не очевидными. Сегодня каждый пользователь New Media на собственном опыте "ощущает" один из самых больших парадоксов этой среды: "полезной информации становится все больше, но найти что-то определенное все сложнее". Как гласит опубликованный аналитической службой Netcraft Web Server Survey (www.netcraft.com) отчет (рис. 1.1), количество Web-сайтов в Internet в 2004 году достигло 50 млн, а темпы увеличения их числа составляют 1,7 млн в месяц. Количество же отдельных документов (страниц), размещенных на этих сайтах, составляет около 10 млн. Заметим, речь идет о ресурсах открытой части Internet, доступной информационно-поисковым системам. О гораздо большем объеме ресурсов "скрытого" Web речь пойдет ниже. При этом даже самые крупные информационно-поисковые системы в мире охватывают в своих индексах не более 30-40% доступных ресурсов. Было бы логичным, чтобы владельцы некоторых систем подобного типа, договорившись, попытались охватить лишь определенные "вертикальные" фрагменты Сети, совместно решая задачу полного охвата ресурсов и обеспечивая качественную навигацию в своих областях. Однако такая модель утопична, а тенденции на рынке глобальных информационно-поисковых систем никак нельзя назвать радужными. Реалии таковы: новизна охватываемой информации падает, навигационные сервисы в основной своей массе не улучшаются, а количество самих глобальных информационно-поисковых систем (за редким исключением не ставших порталами, решающими другие задачи) стремительно растет. Свалка или Клондайк? Эффективное использование традиционных поисковых систем достигается только в случае обращения их к относительно стабильной части информационного пространства. Но парадокс заключается как раз в том, что Internet в основном таковым не является. С точки зрения обновляемое™ информации, все Internet-пространство можно условно разделить на две составляющие — стабильную и динамическую. Стабильная составляющая содержит информацию "долговременного" плана, например монографии, галереи, коллекции или архивы. Динамическая составляющая включает постоянно обновляемые или новые ресурсы. Небольшая часть этой составляющей вливается затем в стабильную, в то время как большая часть "исчезает" из Сети. В свою очередь, информационные потребности пользователей можно условно разделить на две части — "знания и понятия" и "новости". Очевидно, что первая часть потребностей в большей мере удовлетворяется стабильной составляющей Internet, в то время как потребности в новостях могут найти свое удовлетворение только в динамической составляющей New Media. 1.2. New Media и СМИ На сегодняшний день New Media де-факто заняла место в ряду других средств массовой информации (СМИ). Любое СМИ, будь то печатное издание, радиостанция или телеканал, обладает своими техническими возможностями. Для различных видов СМИ эти параметры разные. Характеристиками потенциала печатного издания служат его тираж, формат, число страниц и т.д. Для радиостанции или телеканала — это частота вещания, мощность передатчика, область охвата. Internet обладает своим техническим потенциалом: пропускной способностью каналов, количеством подключенных компьютеров, их характеристиками и т.д. Реализация потенциала New Media, так же как и в случае традиционных СМИ, выражается в посещаемости, популярности, аудитории и ее направленности. В качестве подтверждения важности роли Internet как средства массовой информации приведем пример — пожар на Останкинской телевизионной башне в августе 2000 года, обусловивший бурный всплеск интереса к Internet в России. То, что стало катастрофой для российского ТВ, заметно подтолкнуло развитие Рунета. Число посещений ленты новостей сайта РИА "РосБизнес-Консалтинг" (www. rbc. ru) 28 августа составило 6 млн, что в 6 раз превышает средний ежедневный трафик (рис. 1.2). Internet-газета "Lenta.ru" (www. lenta.ru) сообщила, что за тот же день было зафиксировано 63,5 тыс. посещений, что в 2 раза превышает обычный показатель. Однако аналитики заявляют, что сдвиг в сторону СМИ в Internet предшествовал пожару в Останкино. Они говорят о том, что спрос на сетевую информацию вырос чуть ранее — 11 августа того же года, подогретый трагедией на подлодке "Курск". Действительно, катастрофы, скандалы и крупные спортивные события способствуют популярности Internet. После терактов 11 сентября 2001 года суммарная аудитория сетевых СМИ увеличилась в два раза. К примеру, трафик только крупнейших российских новостных сайтов резко вырос почти в три раза и составил около 15%. Естественно, Internet-издания превосходят по оперативности всевозможные печатные издания. Ленты новостей Web-сайтов содержат самую оперативную информацию, публикуемую в режиме "реального времени". Этим в основном и объясняется стремление традиционных СМИ к интеграции с New Media. New Media как рекламная среда Согласно исследованию, проведенному аналитической компанией JupiterResearch, объем рынка он-лайновой рекламы, включая контекстную и баннерную, к 2009 году вырастет по сравнению с 2004 годом почти вдвое и составит 16,1 млрд долларов. По данным этой компании в 2003 году продажи превысили 6,6 млрд долларов, в 2004 году составят порядка 8 млрд долларов. В частности, рекламодатели более чем в два раза увеличат расходы на размещение платных ссылок в результатах поиска информационно-поисковых систем по определенным ключевым словам — с 2,6 млрд долларов в 2004 году до 5,5 млрд долларов в 2009 году. По прогнозам, в 2008 году рынок Internet-рекламы впервые превысит рынок рекламы в печатных изданиях. Рост продаж будет вызван рядом факторов: увеличением числа Internet-пользователей, ростом популярности Internet-сервисов, а также созданием новых, более совершенных и точных инструментов рекламы во Всемирной Сети. "Данный рынок феноменально вырос за последние несколько лет, — комментирует аналитик JupiterResearch Нэйт Эллиот (Nate Elliott). — Теперь он становится более сформировавшимся". По другим данным, предоставленным аналитической фирмой E-Marketer, в 2004 году объем затрат на Internet-рекламу в США впервые превысит рекордный уровень 2000 года и составит 9,1 млрд долларов. В 2000 году на пике неоправдавшегося бума Internet-экономики затраты на рекламу в Internet в США составили 8,1 млрд долларов. В 2003 году этот показатель достиг 7,3 млрд долларов. Это означает, что в настоящее время рост американского рынка Internet-рекламы составляет 25%, что больше, чем в любом другом секторе рекламной индустрии. В России, по данным Ассоциации Коммуникационных Агентств России (АКАР), в 2003 году сегмент Internet-рекламы составил 18 млн долларов и также является самым быстрорастущим. Он растет в два раза быстрее, чем весь рекламный рынок. Сегодня годовой прирост в этом сегменте в России составляет свыше 60%. Вместе с тем, темпы годового роста данного рынка все же постепенно замедлятся: с 65% в 2003 году до 11% в 2009 году. Поэтому крупнейшие информационно-поисковые службы уже сегодня четко видят необходимость развиваться в разных направлениях, предоставляя разнообразные услуги как пользователям, так и рекламодателям.
Сегодня принято различать два понятия: СМИ в Internet и сетевые СМИ. В свое время вместе с переносом СМИ в Internet зародился процесс создания в Сети изданий, электронные версии которых дополняли (а порой и заменяли) традиционные. СМИ в Internet зачастую представляют собой прямую репликацию традиционных средств массовой информации на Web-серверах. Лишь немногие средства массовой информации, даже имея свое "представительство" в Internet, смогли "перешагнуть" рамки традиционного представления своей информации и стать полноценными сетевыми СМИ. При этом миф о негативном влиянии сетевых СМИ на популярность традиционных прототипов на практике не нашел своего подтверждения, скорее справедливо обратное. Сетевые СМИ — это новый тип носителей информации, изначально ориентированный на Internet, учитывающий многие нюансы представления информации в New Media. Как правило, выпуск традиционным СМИ полноценного сетевого варианта требует не только изменения форматов и формы подачи информации, но и определенной семантической корректировки материалов. Сетевым СМИ присущи два огромных преимущества: оперативность и интерактивность. Вторая особенность подразумевает возможность самостоятельного "выстраивания маршрута" при чтении материалов издания, используя механизм гиперссылок или встроенные поисковые системы. Вместе с тем, бытовавший ранее миф о "миграции" читательской аудитории "бумажных" СМИ в New Media и негативном влиянии сетевых СМИ на популярность традиционных прототипов в действительности не нашел своего подтверждения, скорее справедливо как раз обратное. 1.3. Гипертекст и WWW Гипертекст, появившийся как форма гиперсвязи между отдельными фрагментами текста, настолько же древнее понятие, как и письменность. Библия, с ее сложным употреблением аннотаций и комментариев, — один из древнейших примеров гипертекста. Словари и энциклопедии также могут рассматриваться как сети из текстовых блоков, соединенных ссылками. В XX веке (1945) Ванневер Буш (Vannevar Bush) создал первую фотоэлектрическую память и вычислительное устройство Memex (memory extension), представляющее собой справочник, реализованный путем гиперссылок в пределах документа. Тед Нельсон (Ted Nelson) в 1965 году ввел термин "гипертекст" и создал гипертекстовую систему Xanadu с двухсторонними гиперсвязями. В 1980 году Тим Бернерс-Ли (Berners-Lee), консультант CERN (Европейская организация ядерных исследований), написал программу, позволяющую создавать и просматривать гипертекст и реализующую двунаправленные связи между документами в коллекции [69]. В 1990 году для поддержки документации, циркулирующей в CERN, Бернерс-Ли начал работу над графическим интерфейсом пользователя (GUI) для гипертекста. Эта программа была названа "WorldwideWeb" (рис. 1.3). К 1992 году уже были созданы такие программные реализации GUI, как Erwise и Viola. В феврале 1993 года Марк Андрессен (Mark Andressen) из NCSA (Национальный Центр Суперкомпьютерных приложений США, www.ncsa.uiuc.edu) закончил начальную версию программы визуализации гипертекста Mosaic для популярного графического интерфейса Xwindow System под UNIX. Одновременно CERN развивал и улучшал HTML — язык гипертекстовой разметки текстов, и HTTP — протокол передачи гипертекста, а также сервер обработки гипертекстовых документов — CERN HTTPD. С тех пор гипертекстовое пространство стало активно развиваться. В 1993 году гипертекстовый трафик составлял от 0,1% до 1% всего Internet-трафика. К концу 1993 года существовало несколько сотен HTTP-серверов. Год 1994 стал переломным: была основана Mosaic Communications Corporation (позже Netscape), состоялась первая конференция WorldWideWeb и MIT совместно с CERN основали Консорциум WorldWideWeb (W3C). 1.4. Интеграция информационных ресурсов Конечно, большинство СМИ, представленных в Internet, находят своего потребителя. Однако если рассматривать всю совокупность сетевых СМИ как некую общность по отношению к конкретному пользователю (или группе таковых), то обнаруживается ряд проблем, связанных с полнотой, релевантностью и оперативностью получения новостей. Пользователи зачастую часами "зависают" в Internet, обходя сотни сайтов с целью получения новостей по определенной тематике (или предметной области). В этом поиске традиционные каталоги и поисковые системы оказывают лишь косвенную помощь: они указывают адреса сайтов соответствующей тематики. Однако ни одна из традиционных универсальных поисковых систем не поможет в поиске актуальных новостей — период индексации таких систем составляет от недели до нескольких месяцев. Тем не менее количество уникальных сообщений на новостных Web-сайтах в российском и украинском сегментах Internet превышает 100 тыс. записей в сутки. Неудивительно, что во всем мире, в том числе и в странах восточной Европы, начали создаваться службы интеграции новостей. Для предоставления тематического (соответствующего специальным запросам) контента из Internet в корпоративные сети или порталы американская служба Moreover (www.moreover.com) обеспечивает сбор данных с 7 тыс. источников в режиме реального времени, классифицируя информацию, которая обновляется каждые 15 минут. В 2002 году популярная система Internet-поиска Google запустила свой новостной сервис — Google News, который интегрирует информацию с 4500 различных сайтов. Данные рассортированы по нескольким категориям, таким как международные новости, деловой мир, шоу-бизнес, технологии и спорт. "Новости — естественное продолжение нашей миссии", — заявил представитель компании Марисса Майер. Новости в системе отбираются в зависимости от времени их публикации, популярности источника информации и количества появившихся в Internet статей на данную тему. Одна из самых перспективных в Сети служб интеграции новостей NewsIsFree (www.newsisfree.com) охватывает свыше 12 тыс. источников (в том числе и несколько десятков российских и украинских). Основная особенность службы NewsIsFree — это полная интеграция с XML, в частности с RSS (рис. 1.4.). Российское агентство Интегрум (www.integrum.ru) обеспечивает сбор электронных версий коммерческих и новостных информационных продуктов. Доступ к данным в Интегрум обеспечивается с помощью информационно-поисковой системы Артефакт, основанной на уникальных морфологических алгоритмах. В 5200 базах данных службы содержится свыше 300 млн документов. - Известный российский поисковый портал Япс1ех открыл проект Япс1ех.Новости (http://news.yandex.ru), с которым в настоящее время сотрудничают свыше 130 партнеров — Internet-изданий. Для сбора новостей в службе используется формат RSS 2.0 (Realy Simple Syndication). Система интеграции новостей InfoStream (http://infostream.ua) обеспечивает интеграцию информации более чем с 800 сайтов. Ядром системы является полнотекстовая информационно-поисковая система InfoReS, обеспечивающая рассылку релевантной информации по электронной почте, непосредственный доступ пользователей к оперативным и ретроспективным базам данных, а также возможность аналитической обработки и обобщения информации. Персонализа-ция интерфейса пользователей, работающих в режиме он-лайн, реализуется на основе современных технологий, ориентированных на формат RSS. Интеграция сетевых новостей на неплохом уровне выполняется в России также службами ЗАГОЛОВКИ.РУ (www.zagolovki.ru) и Webscan (www.webscan.ru), а в Украине в рамках проектов Медиа-Хвыля (www.media-wave.com.ua) и Паук новостей (www. t opnews. com. ua). От поисковых систем — к электронным агентам Николас Негропонте (Nicholas Negroponte) из MIT еще несколько лет назад на страницах "Wired" (www.wired.com) заметил, что будущее принадлежит электронным агентам по сбору информации. Некоторые инструменты фильтрации информационного потока сегодня можно видеть в Internet на серверах названных выше проектов [14]. Вместе с тем, фундаментальные разработки в этом направлении начались лишь с развитием XML-технологий. Обычно поиск, фильтрация и сбор информации в Internet, во-первых, сопряжены с необходимостью отвлечения соответствующих человеческих ресурсов и оплаты дополнительных временных затрат, а во-вторых, требуют достаточной квалификации персонала и, к сожалению, не могут учитывать всех особенностей структуры Сети и представления информации в ней. Это, в свою очередь, не делает полученную выборку информации из Internet репрезентативной. При этом информационный поток, "потребляемый", например, организацией из Internet, носит, как правило, выраженную предметную окраску, характеризуемую областью интересов данной организации. Один из вариантов сокращения общих расходов на сбор и фильтрацию информации — выделение специального персонала для выполнения функций ее сбора, селекции и "доводки". Однако поиск и предварительная обработка информации в ручном режиме — достаточно трудоемкий процесс, который не всегда позволяет достичь желаемого эффекта. Решение перечисленных задач возможно путем создания автоматических и автоматизированных систем сканирования, фильтрации и анализа информации, так называемых своеобразных "интеллектуальных посредников" между пользователем или корпоративной информационной системой организации и Internet. Подобная система выполняет всю "черновую" работу по сбору и селекции информации из Сети и создает документальную базу данных, специфицированную предметной областью заказчика. Загрузка информации в базу данных сопровождается ее категоризацией и частичным "обогащением". Для последующей информационно-аналитической работы конечному пользователю корпоративной информационной системы предоставляются эффективные средства навигации и поиска информации в созданной документальной базе данных.
Сегодня каждый пользователь на своем опыте может почувствовать в действии один из самых больших парадоксов Internet — "полезной информации в WWW становится все больше, но найти что-то необходимое — все сложнее". Традиционные средства "учета" информационных ресурсов Сети — каталоги и информационно-поисковые системы — уже сегодня не справляются с задачей поиска информации, поставленной в общем виде. Эффективными оказываются лишь узко тематические (или региональные) каталоги и поисковики. Вместе с тем, в отличие от обычного хранилища информации, Web-пространство характеризуется большим количеством скрытых в нем неявных экспертных оценок, реализованных в виде гиперссылок. Именно гиперссылки оказались базой для построения модели Web-пространства. Для большего охвата информационных ресурсов средствами информационно-поисковых систем необходимо учитывать архитектуру всего Web-пространства, но именно этой информацией никто ранее не владел. Близкой к реальности математической модели не существовало до 1999 года. В ноябре 1999 года один из руководителей Института поиска и анализа текстов, входящего в исследовательское подразделение IBM, Андрей Бредер (Andrei Broder) и его соавторы из компаний AltaVista, IBM и Compaq совершили прорыв, математически описав "карту" ресурсов и гиперсвязей существующего пространства World Wide Web [42-44]. Исследования опровергли расхожее мнение, будто Internet — это единое густое пространство. Проследив с помощью поискового механизма AltaVista свыше 200 млн Web-страниц и несколько миллиардов ссылок, размещенных на этих страницах, ученые пришли к следующим выводам о структуре Web-пространства. По их мнению, эта структура в действительности соответствует ориентированному графу с топологией "галстука-бабочки" (Bow Tie), в котором вершины соответствуют страницам, а ребра — соединяющим страницы гиперссылкам. Анализ структуры связей между отдельными Web-страницами, выполненный в рамках этой модели, позволил обнаружить следующее. 1. Центральное ядро (28% Web-страниц) — компоненты сильной связности (SCC) или узел галстука. Сюда относятся Web-страницы, связанные так тесно, что, просто следуя по гиперссылкам, из любой из них в конечном счете можно попасть на любую другую.
Указанные четыре основных множества, в сумме составляющие более 90% всех исследованных Web-страниц, каждая из которых топологически относится к одной компоненте связности, и обусловили название полученной модели (рис. 1.5) — Bow Tie ("галстук-бабочка"). Помимо этого, в Web существуют и "острова", которые вообще не пересекаются с остальными ресурсами Internet. Единственный способ обнаружить ресурсы этой группы — знать их адрес. Никакие поисковые машины не смогут найти эти острова, если они в прошлом каким-то образом не соединялись с другими частями Internet. ![]() Рис. 1.5. Модель Bow Tie Исследователи обнаружили, что пропорции этих четырех категорий в течение нескольких месяцев оставались неизменными, несмотря на значительное увеличение общего объема Web-ресурсов. Были исследованы такие параметры данной модели, как среднее количество сайтов, через которые связываются любые два сайта гиперссылками, а также распределение входящих и исходящих ссылок. Было показано, что распределение полустепеней захода и исхода вершин графа Web-пространства подчиняется степенному закону, т.е. вероятность того, что соответствующая степень вершины равна i, пропорциональна U* (для входящих ссылок к = 2,1, а для исходящих к = 2,45). По словам исследователей, эксперимент выявил гораздо более детальную и сложную картину: значительная область WWW вообще отделена от других крупных частей, — говорится в отчете компаний. С большой степенью вероятности случайно выбранные Web-страницы окажутся никак не связаны. Если же путь все-таки существует, среднее количество щелчков, необходимых для переходов между ними, составляет 16. А если этот путь двусторонний, то среднее число промежуточных щелчков сокращается до семи. Топология и характеристики модели оказались примерно одинаковыми для различных подмножеств Web-пространства, подтверждая тем самым наблюдение о том, что "Web — это фрактал", т.е. свойства структуры Bow Tie всего Web-пространства также верны и для его отдельных подмножеств. Таким образом, алгоритмы, использующие информацию о структуре Web-пространства, предположительно будут работать и на отдельных его подмножествах. Информация о структуре Web-пространства уже достаточно широко используется при решении многих задач, например, для оптимизации эффективности механизмов сканирования, при анализе и прогнозе его развития, при построении новых Web-сервисов. Полученные в результате исследований сведения заставили заново взглянуть и на стратегии Web-серфинга. Теория Bow Tie поясняет динамический характер Сети и позволяет получить представление о некоторых особенностях сложной организации WWW. Благодаря полученным результатам, уже сегодня может быть создан инструментарий, способный превратить Web-пространство в систему двустороннего движения. "Сейчас трафик по существу односторонний. Если бы браузер был наделен средствами серфинга в обратном направлении, это открыло бы доступ к гораздо большему числу ресурсов", — заявил по этому поводу представитель IBM Нам Ламор (Nam LaMore).
Традиционные средства навигации в Web-пространстве — это каталоги и поисковые системы [21]. Причем первыми появились Web-каталоги, как психологически наиболее приближенные к образу мышления человека. Действительно, каталоги в принципе не требуют от пользователя ввода какой-либо информации с клавиатуры — достаточно воспользоваться гиперссылками, чтобы найти необходимую информацию. Трудно представить традиционный "бумажный" каталог, содержащий несколько миллионов ссылок. Точно так же трудно ориентироваться в электронном Web-каталоге, не используя дополнительных возможностей, главной среди которых является возможность ввода "своего" запроса с клавиатуры. Рост объема Web-ресурсов привел к появлению и бурному росту информационно-поисковых серверов в Сети. Сегодня наиболее развитые системы навигации в Internet обладают свойствами как Web-каталогов, так и информационно-поисковых серверов. Среди таких систем — мировые лидеры Google, Yahoo, AltaVista, All the web. В России лидирующее положение занимают системы Hndex, Rambler и Aport. В Украине первые каталоги появились в 1995 году, а поисковики — в 1997. В настоящее время известно до десятка украинских информационно-поисковых серверов и около пятидесяти каталогов. Среди лидирующих систем можно назвать UAport и МЕТА. Web-каталоги и информационно-поисковые серверы (и их симбиоз) стали прародителями нового типа Web-сервиса — порталов, т.е. "ворот в Internet". В то же время сегодня прослеживается эволюция порталов от поисковых машин и каталогов до самостоятельных, насыщенных информацией и самодостаточных Web-ресурсов. Порталы, как новые объекты WWW, возникли в 1998 году. Основная идея их создания заключалась в стремлении, наряду с возможностями навигации в Сети, предоставить пользователю максимальный уровень сервиса, сделать так, чтобы каждый свой сеанс работы в Internet он начинал именно с данного ресурса. По мнению специалистов компании McKinsey, в Internet-бизнесе можно выделить три основных момента: привлечение нового пользователя на сайт (attraction); превращение посетителя в клиента (conversion), которое достигается, если сайт настолько интересен пользователю, что он проводит там значительное количество времени; и, наконец, необходимость сделать так, чтобы у посетителя после ухода с Web-сайта оставались причины вернуться туда (retention). В этом плане типичный портал пытается не только привлечь пользователей удобными средствами навигации в Internet, но и "удержать" их, предоставляя на своем ресурсе максимум необходимой и полезной информации. Таким образом, порталы представляют собой объединение средств навигации и информационных служб, однако это далеко не полная их характеристика. Портал представляет собой сайт, организованный как системное многоуровневое объединение разных ресурсов и сервисов. Как правило, такой сайт совмещает в себе разнообразные функции, предлагает разноплановые информационные ресурсы и различные сервисы (поиск, рубрикаторы, финансовые индексы, информация о погоде и т.д.). С момента появления первых порталов основные функции "ворот в Internet" существенных изменений не претерпели: это средства реализации поиска данных, общения, новостная часть, торговля и службы приложений. Таким образом, можно дать следующее определение понятию "портал": сайт (или совокупность сайтов), обеспечивающий удовлетворение основных потребностей пользователей путем реализации услуг (сервисов) в следующих областях: информация, бизнес, общение, а также предоставления инструментария, необходимого пользователю для продвижения собственного контента в рамках портала. В соответствии с данным определением портал должен включать четыре основных типа сервисов.
Различают "вертикальные" и "горизонтальные" порталы. Вертикальный портал — это обладающий всеми качествами портала видовой или тематический сайт, ориентированный на один тип информационного наполнения. Горизонтальный портал — это поливидовой и политематический сайт, обладающий всеми качествами Web-портала. Горизонтальный портал может включать в себя несколько видовых или тематических вертикальных порталов. При отсутствии четкого определения понятия "портал" и в связи с инвестиционной привлекательностью данного направления деятельности в области Internet, порталами зачастую называют сайты, не удовлетворяющие некоторым, а зачастую и многим признакам порталов. В этой связи в качестве примеров приведем наиболее характерные проекты, которые признаны во всем мире. Это, прежде всего, названные выше зарубежные каталоги и поисковики — Yahoo!, AltaVista, Google. Среди поисковых систем, эволюционирующих в порталы, заслуживают внимания также Lycos (http://www.lycos.com) и Excite (http://www.excite.com) — рис. 1.6. Другими общеизвестными путями пришли к "портальности" такие сайты, как Microsoft (http://www.microsoft.com) и AOL (http://www.aol.com). Конечно же, создание порталов требует долгосрочных инвестиций. При отсутствии в СНГ фондового рынка, на котором котировались бы акции Internet-компаний, инвесторам приходится ориентироваться на текущие финансовые показатели проекта и на прогнозы его развития в будущем. Несмотря на убыточность едва ли не любого Internet-проекта в первые несколько лет его существования, некоторые из них котируются довольно высоко. Сегодня стремление рекламодателей к повышению отдачи от своих вложений в он-лайновый маркетинг подтверждается и результатами опроса, проведенного в начале 2004 года компанией Forrester Research: заказчики практически единодушно высказали свое предпочтение вертикальным Internet-порталам перед web-структурами общего характера. Вертикальные порталы, такие как CBS Sportsline, CNNfn, Garden.com, CNET, нацелены на конкретную категорию контента, сферу торговли или сегмент аудитории и готовы предоставлять широкий набор услуг для определенной целевой группы. Горизонтальные же порталы, такие как AOL, Yahoo!, MSN, AltaVista, предоставляют лишь набор базового контента, коммуникационных и торговых услуг. Несмотря на то что в настоящее время три портала — America On Line, Yahoo! и MSN — забирают около 15% всего сетевого трафика и являются получателями 45% всех денег за он-лайновую рекламу, рекламодатели замечают, что реклама на вертикальных порталах более эффективна. Поэтому ожидается, что в ближайшее время вертикальные порталы будут являться получателями свыше половины общих расходов на рекламу в Internet. Сколько же должно быть порталов, в частности, в -русскоязычной части Internet или в Украине? Многие аналитики считают, что для России, например, достаточно 2-3 десятков порталов, больше не потребуется ни пользователям, ни инвесторам. Если не принимать во внимание качества российских "порталов", то уже сегодня эта цифра превышена в сто раз — разработчики просто используют модную терминологию. С другой стороны, мировой опыт показывает, что на 1000 сайтов должен приходиться один навигатор (каталог, поисковик или портал). На основании последних расчетов, на украинскую часть Сети должно приходиться 10-20 порталов. Что интересно, именно около 20 Web-сайтов позиционируют себя здесь как "порталы", зачастую "вертикальные".
Первые полнотекстовые информационно-поисковые системы (Fulltext Retrieval System) появились в начале компьютерной эры. Назначением этих систем был поиск в библиотечных каталогах, архивах, массивах документов, таких как статьи, нормативные акты, рефераты, тексты брошюр, диссертаций, монографий. Вначале информационно-поисковые системы (ИПС) использовались преимущественно в библиотечном деле и в системах научно-технической информации. В 1966 году 16-ю американскими библиотеками с целью установления стандартного формата для электронных каталогов была начата реализация проекта МАРК, обеспечившего переход к унифицированному обмену электронными данными, что способствовало эффективной организации баз данных библиографических каталогов. Внедрение стандартного библиографического формата позволило библиотекам объединить усилия в работе над электронными каталогами. В 1972 году получил международное признание стандарт МАРК-2 [39], на основе которого были созданы многие национальные стандарты [6] (рис. 1.7). В начале 1970-х годов коммерческие компьютерные службы уже предоставляли возможность интерактивного поиска в тематических базах данных Национальной медицинской библиотеки и Министерства образования США. При этом некоторые из этих служб существуют и сегодня— основанная еще в 1965 году система ДИАЛОГ, входящая в настоящее время в корпорацию Thomson, сегодня обеспечивает своим клиентам доступ к сотням базам данных. В настоящее время информационные ресурсы только сети Internet составляют свыше десятка миллиардов документов (Web-страниц), к которым возможен свободный доступ любого пользователя. Естественно, чтобы найти необходимую информацию в этой крупнейшей распределенной полнотекстовой базе данных, необходимо использовать самые мощные ИПС. Такие системы существуют и конкурируют друг с другом на современном рынке информационных технологий. В начале 1990-х годов для унификации информационных систем был разработан важный международный стандарт Z39.50 — информационно-поисковый протокол для библиографических систем [72]. В 1994 году университет Джорджии запустил пилотный проект "ГАЛИЛЕЙ" с использованием Site-Search — пакета программ Огайского центра в стандарте Z39.50 (рис. 1.8). Стандарт Z39.50 положен в основу службы поиска распределенной информации в Internet — системы WAIS (Wide Area Information Service) [63]. Сегодня миллионам пользователей Internet известны такие информационно-поисковые системы, как Google, Yahoo, AltaVista, AllTheWeb, каждая из которых охватывает свыше миллиарда Web-документов. За прошедшее десятилетие технология полнотекстового поиска стала повседневным инструментом миллионов пользователей. При этом далеко не все лидеры информационного рынка осознали эту тенденцию десятилетие назад. "Недостаточные инвестиции Microsoft в технологию Internet-поиска были непростительной ошибкой компании, но она работает над тем, чтобы наверстать упущенное. Говорят, что Microsoft успевает везде, но вот вам пример того, где мы не успели", — заявил СЕО корпорации Стив Баллмер, выступая в начале 2004 года перед аудиторией менеджеров по маркетингу и представителей СМИ на пятой ежегодной конференции Microsoft по рекламе в Редмонде. Microsoft с трудом протискивается на одну из самых оживленных территорий в WWW и пока отстает от своих главных конкурентов. При этом Баллмер заявил, что в ближайшие 12 месяцев команда разработчиков Microsoft должна предложить поисковую технологию нового поколения . Для охвата поиска в новостной части Internet Microsoft уже сегодня приступила к тестированию агрегатора новостей MSN Newsbot. Сейчас поисковая база MSN Newsbot формируется по результатам сканирования четырех тысяч источников. Представители Microsoft заявляют, что преимущество MSN Newsbot состоит не столько в ширине охвата Internet, сколько в персонализации результатов поиска. Для нахождения информации в Internet, чаще всего представленной в формате HTML, используются специальные средства — сетевые информационно-поисковые системы. Очень часто возникает вопрос: как соотносятся эти системы, работающие с потоками документов в форматах гипертекстовой разметки, и популярные сегодня реляционные системы управления базами данных (СУБД)? Решают ли СУБД такого класса задачи поиска информации в текстовом формате, и будут ли они эффективны в случае гипертекстовых документов? Современные реляционные СУБД поддерживают обработку запросов в стандарте SQL, позволяющем проводить поиск в рамках реляционной модели. Иными словами, стандартные средства этих систем обеспечивают эффективный поиск по совокупностям формализованных полей в рамках двухмерной таблицы. Полнотекстовый же поиск сводится к нахождению отдельных слов, их комбинаций, словосочетаний в рамках одного или нескольких текстовых полей (ячеек или тэгов), порой значительного размера. В то время как промышленные СУБД предлагаются в качестве основ для конкретных, иногда очень масштабных приложений, информационно-поисковым системам, построенным на основе СУБД, присуща эффективность текстового поиска в достаточно узко очерченном фрагменте. Причина кроется в том, что подобные ИПС просто не предназначены для решения этой специфической задачи. Поэтому несмотря на постоянное совершенствование информационно-поисковых систем, встроенных в СУБД, с сожалением, приходится констатировать их непригодность для решения задач глобального поиска информации в Internet-ресурсах. Если в контексте этого утверждения рассматривать программное обеспечение таких СУБД, как Oracle, Adabas, Informix, DB2, с одной стороны, и программно-технологические решения сетевых ИПС, таких как Alltheweb, AltaVista, Google, Yahoo!, Exite, с другой стороны, то проследить корреляцию между этими понятиями действительно трудно. Стоит отметить, что необходимость решения задачи полнотекстового поиска для навигации в сетевых ресурсах является всего лишь одной из предпосылок становления нового подхода к представлению информации в Internet, и об этом пойдет речь ниже. В отличие от реляционных СУБД, у систем полнотекстового поиска не существует стандартизированного языка запросов. У каждой системы этого типа существует свой способ задания критериев поиска. Очень часто языки запросов поисковых систем приближены к SQL, однако каждой из них присущ ряд индивидуальных особенностей, связанных с такими моментами, как
В различных полнотекстовых ИПС различаются архитектуры, структуры данных, алгоритмы их обработки, методологии организации поиска. 1.8. "Скрытый" Web 1.8.1. Очередной феномен Internet В Internet информации куда больше, чем можно найти с помощью традиционных информационно-поисковых систем. Чаще всего пользователь выходит на необходимые ему новые источники в Сети через поисковые системы-брэнды, ставшие для многих "де-факто" стандартными. Однако, кроме видимой для поисковых систем части Web-пространства, существует огромное количество страниц, которые ими не охватываются. При этом доступ пользователя к таким ресурсам в принципе возможен (хотя иногда "слегка прикрыт" паролями). Как правило, эти Web-страницы доступны в Internet, однако выйти на них трудно, а порой невозможно, если не знать точного адреса. Эти ресурсы уже десять лет как имеют собственное название — "скрытый" (deep) Web [71], которое ввел Джилл Иллсворт (Jill Ellsworth) в 1994 году, обозначив им источники, недоступные для обычных поисковых систем. Сегодня такие ресурсы называют также "невидимым" (invisible) Web. Они чаще всего охватывают динамически формируемые Web-страницы, содержание которых хранится в базах данных и доступно лишь по запросам пользователей. В 2000 году американская компания BrightPlanet (www.brightplanet.com) опубликовала сенсационный доклад, в котором утверждается, что в Web-пространстве в сотни раз больше страниц, чем их удалось проиндексировать самыми популярными поисковыми системами. Эта же компания разработала программу LexiBot, которая позволяет сканировать некоторые динамические Web-страницы, формируемые из баз данных, и, запустив ее, получила неожиданные данные. Выяснилось, что для традиционных поисковых систем огромная часть Сети просто невидима (рис. 1.9). Напомним, что в ноябре 1999 года Андрей Бредер и его соавторы из компаний AltaVista, IBM и Compaq разработали структурную модель ресурсов и гиперсвязей Web, опровергнув мнение, что Internet — это единое связное пространство. Мы уже обсуждали выше топологию этой модели, получившей название Bow Tie. Здесь же мы еще раз остановимся на "островах", которые не пересекаются с остальными ресурсами Сети. Единственный способ обнаружить ресурсы этой группы — точно знать их адрес. Поисковые машины в принципе не находят этих островов, если они в прошлом каким-то образом не соединялись с другими частями Internet. Именно этот факт объясняет недостатки модели БреДера — он исследовал в основном страницы открытого (поверхностного) Web, к тому же отбирая их, видимо, не совсем случайно. Поэтому, если процентное соотношение первых четырех составляющих "поверхностного" Web можно признать верным, "острова" в реальности будут более объемными, чем в модели. Согласно исследованиям компании BrightPlanet, число скрытых (но не секретных) Web-страниц во много раз превышает количество видимых. Доступные сегодня посредством традиционных информационно-поисковых систем 10 млрд Web-страниц — это лишь видимая крупица. Непознанных, скрытых ресурсов Сети в сотни (!) раз больше. Это, прежде всего, динамически генерируемые страницы, файлы нераспознаваемых поисковыми системами форматов, информация из многочисленных баз данных. В результате исследований также было выявлено немало интересных особенностей "скрытого" Web. Так, например, известно, что средняя его страница на 27% компактнее средней страницы из поверхностной части Web-пространства. 1.8.2. Типы скрытых ресурсов Для того чтобы определить, какие из ресурсов невидимы для поисковых систем, следует рассмотреть принцип работы типового индексатора-робота таких систем. Эти программы-роботы, как правило, посещают Web-страницы по известным заранее адресам, анализируют их содержание и выделяют гиперссылки, идущие от них. Обычно, обработав текущую страницу, выделив ключевые слова и некоторые поля, робот переходит по адресам, найденным на ней, сканирует последующие страницы, выделяет новые адреса и т.д. Обычно, если робот определяет, что в данный момент обращается к динамической странице, он останавливает свою работу. Эта тактика выбрана в предположении, что чаще всего для получения осмысленного ответа из баз данных требуется осмысленный запрос, а большинству из роботов чужды элементы интеллекта, даже искусственного. В результате "скрытый" Web охватывает в первую очередь содержимое онлайновых баз данных, доступных в сети. Динамической является и быстро обновляемая информация — новости, конференции, он-лайновые журналы. Конечно, есть и явные "острова" по Бредеру, на которые не указывают никакие гиперссылки и от которых никаких гиперссылок не исходит. Защищенные паролями коммерческие Web-сайты также попадают в категорию "скрытого" Web — о материалах этих сайтов большинство пользователей никогда не узнают лишь с помощью поисковых систем. Однако относительное количество таких сайтов невелико. Например, среди крупнейших сайтов "скрытого" Web платными являются только 10% ресурсов, хотя именно они включают важнейшие издательства и базы данных. Основатель BrightPlanet Майкл Бергман (Michael К. Bergman) выделил 12 разновидностей "скрытых" Web-ресурсов (www.leidenuniv.nl/ub/biv/specials.htm), относящихся к классу он-лайновых баз данных. В списке оказались как традиционные базы данных (патенты, медицина и финансы), так и публичные ресурсы — объявления о поиске работы, чаты, библиотеки, справочники. Бергман причислил к "скрытым" ресурсам и специализированные поисковые системы, которые обслуживают определенные отрасли или рынки, базы данных которых не включаются в глобальные каталоги традиционных поисковых служб. К "скрытому" Web также относятся многочисленные системы интерактивного взаимодействия с пользователями — системы помощи, консультирования, обучения, требующие участия людей для формирования динамических ответов от серверов. К ним также можно отнести и закрытую (полностью или частично) информацию, доступную пользователям Сети только с определенных адресов, групп адресов, иногда городов или стран. К "скрытой" части Сети многие причисляют и Web-страницы, зарегистрированные на бесплатных серверах, которые индексируются, в лучшем случае, лишь частично — поисковые системы во избежание рекламного спама не стремятся обходить их в полном объеме. Недавно появилась категория так называемых "серых" сайтов, функционирующих на основе динамических систем управления контентом (Dynamic Content Management Systems). В поисковых системах обычно ограничивается глубина индексирования таких сайтов во избежание возможного циклического просмотра одних и тех же страниц. И конечно же, "скрытыми" оказываются и Web-сайты, создатели которых не оповещают кого-либо о создании этих ресурсов. Безусловно, основной формат данных, с которым работают традиционные поисковые системы в Internet, — это HTML, причем статическая его часть. С другими форматами у многих поисковых систем имеются различные проблемы. К примеру, наличие различных версий формата PDF (Adobe Portable Document Format), а также особенности хранения инкапсулированных графических изображений заставляют считать сетевые ресурсы, представленные в этом формате, "скрытыми". Тем не менее некоторые современные поисковые системы уже вполне сносно индексируют документы в PDF-формате. К "скрытым" форматам принято относить также и Flash, широко использующийся для обеспечения визуальных эффектов на Web-сайтах. Кроме того, для нашего пользователя наверняка "скрытой" можно признать большую часть гигантского китайского сегмента Internet. Например, малопопулярный в Европе и Америке китайский поисковый портал Baidu (www.baidu.com) в 2004 году опередил Google по объему трафика и стал четвертым в мире Web-ресурсом по этому показателю. Еще одна китайская поисковая система, 372l.com, заняла седьмое место. Эти данные по ранжированию привела исследовательская компания Alexa, речь о которой пойдет ниже. Портал Baidu.com стал крупнейшей в мире поисковой системой на китайском языке и охватывает более 95% китайских пользователей Сети.
Пожалуй, самыми большими из известных ресурсов "скрытого" Web являются базы данных служб Dialog и LexisNexis. Одной из крупнейших мировых служб информационного поиска является американская компания Dialog (http://www.dialog.com), созданная при поддержке NASA и до 1988 года принадлежавшая аэрокосмической фирме Lockheed. Сегодня Dialog принадлежит корпорации Thomson (США) — одному из всемирных лидеров в области предоставления интегрированных информационных решений (рис. 1.10). Корпорация Thomson имеет свыше 20 миллионов пользователей в 130 странах мира. ![]() Рис.1.10. Сайт службы Dialog Сервисом компании Dialog также пользуются в более чем 100 странах мира. Образованная в 1965 году как первая в мире он-лайновая информационно-поисковая служба, Dialog фактически определила современные стандарты управления информацией. На сегодняшний день она включает такие продукты и сервисы, как Dialog®, Dialog Profound®, Dialog DataStar®, Dialog NewsEdge® и Dialog Intelliscope, которые обеспечивают доступ к более 1,4 млрд документов через Internet или сети intranet. При этом в компании Dialog определяют свои ресурсы как часть "скрытого" Web (Deep Web), заявляя, что содержат полезной, не дублирующейся информации в 500 (!) раз больше, чем доступно с помощью традиционных информационно-поисковых систем. Коллекция баз данных службы Dialog содержит 900 баз данных, доступных 700 000 пользователям, которые только за один час прочитывают свыше 17 млн документов из этих баз данных. Основанная, в 1973 году, крупнейшая в мире он-лайновая служба LexisNexis (ht'tp: //www. lexisnexis. com) предоставляет своим пользователям юридическую, политическую, коммерческую, новостную, регистрационную и другую информацию (рис. 1.11). С 1979 года система баз данных LexisNexis — первая в мире служба полнотекстового поиска. В настоящее время эта служба охватывает свыше 35 000 источников информации, содержащих в совокупности более 4,6 млрд документов с глубиной ретроспективы до 200 лет. Каждый час в базы данных LexisNexis добавляется 57 500 документов. LexisNexis представлена сегодня в 20 странах, пользователи сервиса находятся в более чем 100 странах. К коммерческим базам данных "скрытого" Web можно отнести и информационные ресурсы крупнейших мировых информационных агентств, уже много лет работающих на рынке финансовой информации, таких как Reuters, Tenfore, Dow Jones Telerate, Bloomberg. С другой стороны, в "скрытом" Web существует множество альтернатив коммерческим базам данных. Среди них, например, сайт www.lOkwizard.com, предлагающий доступ к полным текстам корпоративных документов, хранящихся в Комиссии США по ценным бумагам и биржам. Существуют тысячи баз данных "скрытого" Web, свободно доступные для пользователей, но чаще всего не охватываемые традиционными поисковыми системами. Приведем еще несколько примеров.
1.8.4. Сталкеры в скрытом пространстве "Скрытый" Web представляет собой гигантский репозитарий документов, звуков, изображений, фильмов и т.п. Безусловно, если большая часть этой информации не доступна традиционным поисковым системам, то существует потребность в специальных инструментах поиска "скрытого" контента. Эти инструменты включают каталоги, метапоисковые сайты, доступные через Web базы данных, а также большое количество глобальных, региональных и специальных поисковых систем. Для поиска в "скрытой" Сети, а именно в том ее сегменте, который составляют базы данных, сегодня уже существуют некоторые специализированные ресурсы. Среди них, например, системы BigHub (www.bighub.com) и Invisible Web (www.invisible-web.net) компании IntelliSeek (рис. 1.12). Сайт Invisible Web включает в себя каталог баз данных, большинство из которых не проиндексированы известными поисковыми машинами. При введении запроса этот сайт выдает ссылки на ресурсы, с помощью которых поиск необходимой информации станет наиболее оптимальным. На этом сайте Криса Шерма-на (Chris Sherman) и Гари Прайса (Gary Price) собраны коллекции ссылок на различные базы данных, среди которых содержится немало уникальных ресурсов — например, сборник спичей политиков и бизнесменов. Программный пакет BullsEye компании IntelliSeek осуществляет поиск более чем в 800 сетевых ресурсах. Лидером среди навигаторов в "скрытом" Web является сайт CompletePlanet (www.completeplanet.com) компании BrightPlanet. Этот сайт является крупнейшим каталогом, насчитывающим свыше 100 тыс. ссылок. Компания BrightPlanet также создала персональную утилиту для поиска в он-лайновых базах данных — LexiBot, которая может обеспечивать поиск в нескольких тысячах поисковых систем "скрытого" Web. Метапоисковый пакет DeepQueryManager (DQM) этой же компании обеспечивает поиск по 55 тыс. "скрытых" Web-ресурсов. Сайт Direct Search (http: //www. freepint. com/gary/direct.htm), созданный Гари Прайсом, также обеспечивает поиск в базах данных "скрытого" Web. На сайте содержится ссылка на лучшие ресурсы ценовой информации (MySimon.com), финансовой информации (FinancialFind.com), а также ссылки на информацию из научно-популярных журналов и научных баз данных по биотехнологиям (Biolinks.com). В Internet есть и другие сайты-навигаторы, а также специализированные программы поиска. Например, поисковая система по университетским архивам, библиотекам и книгам — Infomine Multiple Database Search (http://infomine.ucr.edu/ search.phtml); каталог информационных сайтов, которые уникальны в своих областях, — BUBL LINK (bubl.ac.uk/link); полнотекстовый поиск по содержанию всех книг — Amazon.com. Особенность большинства "скрытых" ресурсов — в их узкой специализации. Для поиска в них используются те же механизмы, что и для "поверхностного" Web, однако чаще всего роботы поисковых систем для "скрытого" Web включают уникальные для каждого такого ресурса модули доступа к данным. 1.8.5. "Скрытый" Web в каталогах Каталоги, как глобальные, так и специальные, могут содержать ссылки на "скрытые" ресурсы, прежде всего базы данных. Приведем несколько самых известных примеров.
К разряду каталогов можно также отнести следующие коллекции ссылок, поисковые системы и "скрытые" базы данных.
1.8.6. Системы поиска в "скрытом" Web Традиционная поисковая система чаще всего может выдать адрес базы данных, но не укажет, какие конкретно документы содержатся в ней. Типичный пример — информационно-поисковые системы по украинскому (http: //www /rada.gov.ua) или российскому (http://www.kodeks.ru) законодательству. Тысячи документов из баз данных становятся доступны только после входа в систему, а роботы стандартных поисковых систем не в состоянии заиндексировать контент баз данных. Многие поисковые системы, как глобальные, так и локальные, описаны на сайтах Search Engine Watch (http://www.searchenginewatch.com) и Search Engine Showdown (http://www.searchengineshowdown.com). На этих сайтах приведены, среди прочих, и поисковые системы "скрытого" Web. • Sirigingfish (http://www.singingfish.com)— эта поисковая система
Качественный и полноценный поиск информации в "скрытом" Web возможен и с использованием таких специализированных коммерческих баз данных, как Dialog, ProQuest, Web of Science. Но эти базы данных, ввиду своей платности, сами являются объектами "скрытого" Web. 1.8.7. Информация в различных форматах Информация, представленная в форматах, отличных от HTML, для многих поисковых систем оказывается недоступной, хотя сегодня ситуация меняется в корне. Например, популярная система Google (http://www.google.com) уже обеспечивает поиск в документах, представленных в форматах MS PowerPoint, DOC, RTF, Postscript, PDF, а также обеспечивает преобразование этих файлов в текстовый формат. Поиск документов разнообразных форматов доступен в этой системе как из режима расширенного поиска в Google (Advanced Search), так и из "простого" поиска — достаточно использовать в запросе команду "filetype:", уточнив поиск выражением "filetype:pdf". Знаменитая служба Yahoo! сегодня уже не только каталог, но и полнофункциональная поисковая система. Поисковая система Yahoo! Search (http://www.yahoo.com), как и Google, обеспечивает выдачу текстовых копий документов, размещенных в Internet в форматах Word, Excel, PowerPoint и PDF, а также RSS/XML-фидов (новостных лент и блогов — "живых журналов"). Специализированная система Gigablast (http://www.gigablast.com) предназначена исключительно для поиска по документам в форматах Word, Excel и PDF. Эта система выдает по запросу кэшированные (архивные) копии документов в исходных форматах, при этом обеспечивает булевый поиск и выдачу версионных копий документов, которые были размещены в Сети, но затем, возможно, удалены. 1.8.8. Скрытые новостные ресурсы Текст новостей тоже традиционно относился к "скрытой" Сети, однако в последние годы все крупнейшие поисковые сайты разработали эффективные инструменты поиска оперативно обновляемых новостных сообщений — это, например, " flndex.Новости" (http://news.yandex.ru), Google News (http://news.google.com) или Uaport (http://uaport.net/UAnews). Служба Google News автоматически собирает новости из нескольких тысяч источников, обновляя свои базы данных каждые 15 минут. Существуют и другие зарубежные службы интеграции новостей, например NewsIsFree, Topix.net и Daypop (www.daypop.com). В России крупнейшими интеграторами новостей являются системы Integrum (http://www.integrum.ru) и Webscan (http://www.webscan.ru), в Украине— InfoStream (http://infostream.ua) и WebObserver (http://webobserver.info). Многие сайты на своих страницах публикуют новости, как собственные, корпоративные, так и общеотраслевые. Если на сайте не реализован статический механизм архивации старых сообщений, то, даже будучи помещенными в архив, доступный из Internet, эти сообщения рискуют оказаться в зоне "скрытого" Web. Материалы публикаций попадают в разряд "невидимого" Web и в том случае, если они защищены паролями как средствами обеспечения оплаты или просто сбора статистики о читателях. Многие аналитики (в частности, аналитик IDC Джеймс Левин) признают, что для изданий значительно выгоднее публиковать усеченную бесплатную версию своих материалов — это обеспечит их популярность в Internet, попадание изданий в индексы популярных поисковых систем.
Парадоксально, но как один из ресурсов "скрытого" Web можно рассматривать и архив ресурсов открытого Web-пространства. Такой архив — Internet Archive — с 1996 года создает компания Alexa (www.alexa.com). Сегодня объем базы данных Alexa превышает 500 Тбайт. Новые страницы в настоящее время попадают в хранилище со скоростью 1 Тбайт в день. Технология хранилища Alexa включает ряд современных средств управления гигантским документальным хранилищем. Например, с помощью технологии Alexa выполняется кластеризация Web-ресурсов, т.е. формирование коллекций документов, близких по тематикам. Особый интерес у пользователей сервиса Alexa вызывает "Машина времени" (Wayback Machine), открывающая доступ к временным срезам Web-пространства. Одно из наиболее интересных практических применений этой технологии — восстановление документов, некогда опубликованных в Web-пространстве, но впоследствии удаленных. При этом рост "скрытого" Web грозит серьезными пробелами в хранилище системы, связанными с увеличивающимся количеством сайтов, эксплуатирующих различные технологии управления контентом, динамической публикацией документов из баз данных и т.п. Аналогичный проект— Informedia (www.informedia.com), но относящийся только к одному типу информации (аудиовизуальной), разрабатывается в институте Карнеги Меллона. Informedia появился в 1996 году в рамках инициативы Digital Library Initiative. С тех пор к проекту в роли спонсоров присоединились многие компании, в том числе Microsoft, Intel, CNN, Boeing и даже Visa. В рамках проекта разрабатываются технологии распознавания образов и речи.
Чем быстрее растет Web-пространство, тем хуже оно охватывается традиционными каталогами и поисковыми машинами. Ввиду роста количества Web-сайтов и порталов, использующих в своей работе хранящуюся в базах данных информацию, динамических систем управления контентом, появлением новых версий форматов представления информации, "скрытый" сегмент Web растет очень интенсивно. С одной стороны, Internet как огромное хранилище увеличивает объем информации, доступной "в принципе", но с другой стороны — растет информационный хаос, увеличивается энтропия сетевого информационного пространства. Все меньшая часть информационных ресурсов становится доступной пользователям реально. Объем "скрытого" Web, содержащего полезную для пользователей, но слабодоступную информацию, в сотни раз превышает "поверхностную" часть. Иными словами, традиционные средства охвата информационных ресурсов не справляются с задачей поиска большей части информации. Эффективными оказываются лишь тематические каталоги и поисковики — сталкеры в мире "скрытого" Web. Спасти ситуацию могут и новые возможности унификации обмена информацией в Internet. Одним из первых проектов консорциума W3C в этой области стал "Семантический Web", речь о котором пойдет ниже. Основная идея проекта заключается в следующем: Web-серверы должны не только визуализировать, но и использовать данные, чтобы программы разных производителей могли эффективно работать с контентом. Для решения задачи интеграции новостной информации было создано несколько форматов описания данных на основе XML. Самый распространенный формат получил название RSS, что означает Really Simple Syndication, Rich Site Summary. Сегодня экспорт данных в формате RSS осуществляют крупнейшие порталы, включая CNN, ВВС News, Amazon, CNet News, MSNBC, The Register, Wired и т.д. Аналитики отмечают, что только в начале 2004 года пользователи Internet по-настоящему открыли для себя технологию RSS. Сегодня для работы с данными в формате RSS разрабатываются все новые программы, сайты и поисковые системы, которые все более востребованы пользователями. Эти программы приоткрывают завесу над динамично обновляемой частью "скрытого" Web.
следующая страница >> |