Управленческая деятельность выступает в современных условиях как один из важнейших факторов функционирования и развития промышленных - shikardos.ru o_O
Главная
Поиск по ключевым словам:
Похожие работы
Название работы Кол-во страниц Размер
Конкуренция и монополия 2 538.26kb.
Обеспечение работы белорусских промышленных и сельскохозяйственных... 1 390.34kb.
Генезис понятий «гостиничная цепь» И«гостиничная сеть» 1 190.8kb.
«Внедрение современных инновационных технологий в подготовку кадров... 1 367.3kb.
Гродненской области 1 193.68kb.
Кэш-память современных микропроцессоров фирм Intel и amd 1 149.82kb.
Образовательная программа образовательного комплекса гбоу сош №1125... 14 5232.29kb.
Развитие трудовой занятости инвалидов в современных условиях России 1 340.4kb.
Парижский май 1968 год как протестное движение 1 290.73kb.
«Цели и задачи на планируемой должности на период 6-12 месяцев. 1 31.17kb.
Конкурс работников образования Всероссийский интернет-конкурс педагогического... 3 498kb.
Английский язык Список слов на март Группы: Бабочки, Пчелки, Дельфинчики... 1 21.89kb.
- 4 1234.94kb.
Управленческая деятельность выступает в современных условиях как один из важнейших - страница №2/3

Глава 7. Руководство по системе Protos
7.1. Описание системы.

Назначение системы

Protos - средство полнотекстового поиска информации на Вашем WEB-сервере с учетом морфологии русского языкf.

Учет морфологии русского языка означает что, если задан запрос "идти", то в результате поиска будут найдены ссылки на документы, содержащие слова "идти", "идет", "шел", "шла" и т.д. Развитый поисковый интерфейс позволяет помимо стандартных логических операторов задавать поиск по близости, то есть указывать расстояние между словами в запросе. (Подробнее см. главу "Язык запросов Protos"). По умолчанию индексируются все слова текстов (см. главу "Стоп-слова").

Система легко настраивается на конкретные условия сервера - можно указать, какие директории и типы файлов индексировать, а какие исключить, выбрать кодировку русского языка, указать способ получения документов (прямо из директории или через Web-сервер), способ перестраивания индекса (строить заново или организовать обновление и слияние).

Предполагается, что индексатор запускается регулярно, например каждой ночью, чтобы индекс всегда отражал текущее состояние Web-сервера.

Для ведения диалога с пользователем и управления самой системой Protos используется WEB-сервер. Protos имеет возможность управлять работой нескольких поисковых машин, обслуживающих WEB-серверы, расположенные на одном компьютере.
Технические характеристики

Protos - средство полнотекстового поиска информации на Вашем WEB-сервере с учетом морфологии русского и английского языков.

Несмотря на подробную адресацию информации (до положения слова в документе) создается компактный индекс - 30-40% от объема текстов. Индексация происходит со скоростью около 2 Мб/мин. Время обработки поискового запроса практически не зависит от размера индекса и составляет несколько секунд.

Собственно для установки система требует около 3Мб места на диске. Кроме этого, свободное место понадобится, естественно, для файлов индекса, а также для временных файлов. При индексации нужно иметь свободным от одного до двух объемов имеющихся файлов индекса, при поиске - в зависимости от интенсивности поиска.

Система работает на следующих платформах: Windows 95 и Windows NT

Protos представляет собой один из серии продуктов, объединенных общим названием Protos.file и предназначенных для работы с текстами как в локальной так и в глобальной сети а также для подключения в качестве модуля к другим системам.


7.2. Установка системы

Состав архива.

Система поставляется в виде одного самораспаковывающегося архива

Для установки системы создайте каталог, в котором Вы хотите установить систему, скопируйте в этот каталог архив и распакуйте его, выполнив команду YNT < номер версии > .

Содержимое архива:

Корневой каталог

Protos.exe - поисковый сервер системы

Zal3.byk - морфологический модуль системы

Protos.ini - пример главного конфигурационного файла системы

Default.ini - пример конфигурационного файла поисковой машины

Search.htm - пример поисковой страницы системы

Stopword.lst - список стоп-слов

Каталог Docs: документация по системе Protos

Каталог Images: Картинки, используемые системой в выходных формах.

Каталог Scripts: Приложения для управления системой (описаны ниже)
Организация работы.

После распаковки архива Вам нужно создать на локальном диске следующие каталоги:

Каталоги базы данных системы Protos для каждой поисковой машины. Эти каталоги будут содержать индекс документов Вашего сервера. Каждой поисковой машине должен быть выделен отдельный каталог.

Каталоги временных файлов системы Protos. Эти каталоги будут содержать результаты поиска и сформированные выходные формы.

Каталог картинок системы Protos. В этот каталог нужно скопировать картинки из каталога Images дистрибутива. Созданный каталог должен быть доступен для чтения пользователям Вашего сервера. Если это удобно, то для всех поисковых машин может быть использован один и тот же каталог.

Каталоги интерфейсных программ системы Protos. В эти каталоги нужно скопировать файлы из каталога Scripts дистрибутива. Если это удобно, то для всех поисковых машин может быть использован один и тот же каталог.

Естественно, что, если Вы не хотите, чтобы произвольный пользователь имел возможность управлять Protos, то каталоги, содержащие административные приложения, должны быть защищены от несанкционированного доступа средствами WEB-сервера. Каталог(и), содержащий поисковое приложение, должен быть доступен для выполнения программ пользователям Вашего сервера.
7.3. Настройка системы
Для настройки системы надо дать ответ на следующие вопросы:

Индексируемый хост (URL)

Индексируемые документы:

От какого корня индексируются деревья?

Какие типы файлов (суффиксы) индексируются?

Какие каталоги надо исключить?

Какие типы файлов (суффиксы) надо исключить?

В какой кодировке выдаются документы (при индексации и при поиске)?

Как проиводится переиндексация (все заново, только новые и измененные

документы, отдельные деревья)?



Конфигурация

Данная версия Protos может работать под управлением операционных систем MS Windows 95 и MS Windows NT и любого WEB-сервера, корректно реализующего CGI протокол. Для управления системой Protos используется DCE RPC ncalrpc протокол (MS Windows 95) и DCE RPC ncacn_np протокол (MS Windows NT).


Запуск индексатора и поискового сервера

Конфигурационный файл Protos.ini описывает все существующие в Protos поисковые машины. Каждая отдельная поисковая машина описана в своем конфигурационном файле, что позволяет настраивать каждую поисковую машину независимо.

Protos является сервисным приложением, то есть запускается при загрузке операционной системы и до входа в систему первого пользователя. При смене пользователя, работающего в системе, Protos не выгружается. Для проверки корректности конфигурационных файлов предусмотрена возможность запуска системы Protos как обычного консольного приложения.

После запуска Protos проверяет корректность конфигурационных файлов и выводит сообщения о возможных ошибках в протокол событий (для MS Windows NT), файл Protos.err (для MS Windows 95) или консоль (отладочный режим). При обнаружении фатальных ошибок в конфигурационном файле Protos выгружается. После анализа главного конфигурационного файла Protos запускает поисковые машины, для которых установлен флаг автоматического запуска. Сообщения о возможных ошибках при запуске поисковых машин выводится в протокол этих поисковых машин или, если протокол поисковой машины не может быть открыт (например, если в конфигурационном файле машины не указан файл протокола, или если конфигурационный файл вообще не найден), в протокол Protos.

В дальнейшем работа Protos (в том числе и поиск документов) управляется входящими в состав поставки приложениями с применением RPC-протокола (удаленный запуск процедур). Эти приложения можно использовать и как обычные консольные приложения и как CGI-приложения.
--- Программа Protos.exe

В состав системы входит программа Protos.exe, являющаяся сервером поисковых машин, и ряд приложений, предназначенных для управления поисковыми машинами.

Программа Protos.exe имеет три ключа:

1. Ключ -i устанавливает Protos.exe как сервисное приложение операционной системы. После установки Protos.exe завершается. Запуск Protos.exe производится после перезагрузки операционной системы и до входа в систему первого пользователя. Для MS Windows NT запуск и остановка Protos.exe может быть осуществлена посредством приложения Service панели управления.

2. Ключ -r отменяет установку Protos.exe как сервисного приложения операционной системы. После отмены Protos.exe завершается.

3. Ключ -d запускает Protos.exe как обычное консольное приложение. Полезен при отладке конфигурации.

При запуске Protos.exe без ключей

под MS Windows NT программа выводит сообщение об ошибке и завершается

под MS Windows 95 работает как сервисное приложение
--- Управляющие приложения системы Protos

Все управляющие приложения могут быть использованы как обычные консольные приложения и как CGI-приложения.

1. Status.exe

Приложение предназначено для печати состояния поисковых машин. Для каждой машины, определенной в конфигурационном файле, указывается ее имя и один или несколько из следующих флагов состояния:

Idle - поисковая машина не запущена;

Searching - поисковая машина запущена для поиска;

Indexing - поисковая машина запущена для индексирования.

2. Shutdown.exe

Приложение предназначено для остановки сервера поисковых машин. Для MS Windows 95 это единственный способ корректного завершения работы без выключения машины. Для MS Windows NT аналогичное действие может быть выполнено посредством приложения Service панели управления.

Описанные ниже приложения управляют работой конкретной поисковой машины. Для задания имени поисковой машины может быть использован один из следующих способов:

если приложение запускается как консольное, то имя машины задается параметром приложения;

если приложение запускается как CGI-приложение, то имя машины может быть задано в компоненте "дополнительный путь" (PATH_INFO) URL;

если приложение запускается как CGI-приложение, то имя машины может быть задано в компоненте "поисковая строка" (QUERY_STRING) URL в формате server= < имя машины > .

3. Indexon.exe

Приложение запускает индексатор поисковой машины. Успешное завершение приложения свидетельствует только об успешном начале индексирования. Если в процессе индексирования или при запуске индексатора появляются ошибки, то запись о них помещается в протокол индексирования поисковой машины.

4. Indexoff.exe

Приложение предназначено для аварийного завершения индексирования. Аналогичное действие оказывает и перезагрузка компьютера.

5. Srchon.exe

Приложение предназначено для запуска поиска на поисковой машине. При возникновении ошибок запись о них помещается в протокол поиска поисковой машины. Если в конфигурационном файле поискового сервера для машины указан флажок auto, то поиск запускается автоматически.

6. Srchoff.exe

Приложение предназначено для остановки поиска на поисковой машине.

7. QueryCGI.exe и QueryISA.dll

Приложения являются соответствено CGI и ISAPI приложениями, непосредственно осуществляющими поиск посредством поисковой машины. Порядок использования приложений приведен в поисковой странице Search.htm, входящей в состав поставки.

---. Настройки поисковой странички

Поисковую страничку (Search.htm) надо скопировать в любой каталог сервера, доступный для пользователей. После этого любым текстовым редактором нужно заменить в ее теле ссылки на каталог картинок и каталог интерфейсных программ. В страничке, входящей в состав дистрибутива, эти ссылки равны соответственно:

для картинок - http://localhost/Images

для программ - http://localhost/Scripts/QueryCGI.exe/Default.
--- Конфигурационные файлы Protos

Для настройки параметров системы необходимо отредактировать входящие в состав дистрибутива файлы Protos.ini и Default.ini . Формат конфигурационных файлов Protos является стандартным для MS Windows форматом конфигурационных файлов.

1. Работа Protos управляется конфигурационным файлом PROTOS.INI, который должен находиться в корневом каталоге Protos (в каталоге, в котором находится программа PROTOS.EXE). Если этот файл отсутствует, то программа PROTOS.EXE после запуска выдает соответствующее сообщение и завершает свою работу.

Файл содержит одну секцию - [Servers], в которой находится один или несколько ключей вида: < имя поисковой машины > = < имя конфигурационного файла > [, auto]

где < имя поисковой машины > - произвольное имя, которое присваивается поисковой машине. Это имя в дальнейшем будет использоваться для управления этой поисковой машиной, в том числе для поиска с ее помощью. Имя может состоять из латинских букв и цифр. Если используется только одна поисковая машина, рекомендуется имя Default.

< имя конфигурационного файла > - полное имя (включая имя устроиства и полный путь) конфигурационного файла описываемой поисковой машины. Если используется только одна поисковая машина, то удобно описать ее конфигурацию в файле PROTOS.INI. В этом случае < имя конфигурационного файла > должно совпадать с полным именем PROTOS.INI.

auto - необязательный флажок, при наличии которого поисковая машина автоматически запускается при запуске Protos.


Секции, описывающие конфигурацию поисковой машины.

Файл(ы), описывающий конфигурацию поисковых машин, состоит из следующих секций: [Main], [Parsers], [Virtual Robots], [Special Folders], [Protocol] . Секция [Special Folders] является необязательной.

1. Секция [Main]

Эта секция содержит основные параметры настройки Protos и должна присутствовать обязательно. Некоторые ключи секции имеют значение по умолчанию и могут отсутствовать, все остальные - обязательны.

Обязательные ключи:

1. Имя сервера: Host

Ключ определяет имя хоста, который обслуживает поисковая машина.

Пример: Host = www.comptek.ru

2. Имя поискового приложения: Script

Ключ задает полное имя на WEB-сервере поискового приложения, ссылки на которое поисковая машина помещает в выходные формы. Дополнительный путь определяет имя поисковой машины.

Пример: Script=/Scripts/QueryCGI.exe/Default

В этом примере /Scripts/QueryCGI.exe - имя приложения, а Default - имя поисковой машины.

3. Каталог хранения результатов: CacheFolder

Ключ задает каталог, в котором поисковая машина будет хранить результаты запросов и выходные формы. Указанный каталог должен существовать. Нельзя назначать один и тот же каталог для разных поисковых машин.

Пример: CacheFolder = c:/Protos/cache

4. Каталог хранения индекса: DBaseFolder

Ключ задает каталог, в котором поисковая машина создает индекс документов. Указанный каталог должен существовать. Нельзя назначать один и тот же каталог для разных поисковых машин.

Пример: DBaseFolder = c:/Protos/dbase

5. Каталог картинок: Images

Ключ задает имя каталога на WEB-сервере, в котором находятся картинки, используемые поисковой машиной при генерации выходных форм.

Пример: Images = Images

6. Если в качестве WEB-сервера используется Baikonur Web App Server(r) компании Epsylon Technologies, то дополнительно должен быть определен ключ

Baikonur.Section

Ключ задает имя секции Baikonur, обслуживаемой поисковой машиной.

Остальные ключи:

7. Пропуск файлов: FileFilter

Ключ предназначен для борьбы с некоторыми HTML-редакторами, оставляющими после себя мусор в рабочем каталоге. Файлы, удовлетворяющие < регулярному выражению > (значению ключа), не будут индексироваться.

Пример: FileFilter = _.*|.*tmp.*[.]htm

Приведенный в примере фильтр исключает из процесса индексирования файлы, имена которых начинаются с подчеркивания, и файлы с расширением .HTM, содержащие в имени строку "TMP".

8. Пропуск каталогов: FolderFilter

Ключ исключает из процесса индексирования каталоги (со всеми их подкаталогами), имя которых удовлетворяет поисковому выражению.

Пример: FolderFilter = _.*|temp

Приведенный в примере фильтр исключает из процесса индексирования каталоги, имена которых начинаются с подчеркивания, и каталоги с именем TEMP.

9. Стоп-Слова: StopList

Ключ задает полное имя файла, содержащего список стоп-слов. Параметр может отсутствовать.

Пример: StopList = c:/Protos/stopword.lst

10. Порт: Port

Значение по умолчанию: 80

Ключ определяет номер порта, который используется WEB-сервером.

Пример: Port = 80

11. Время существования запроса: UserTimeout

Значение по умолчанию: 30

Ключ указывает, через сколько минут после последнего обращения удаляется запрос пользователя. Если запрос удален, то пользователю вместо выходной формы посылается соответствующее сообщение("Результат предыдущего запроса уже удален").

Пример: UserTimeout = 10

Секция [Parsers]

Секция определяет типы документов, которые должны быть проиндексированы, и имена интерпретаторов для каждого типа документов. Ключами секции являются имена интерпретаторов, значением ключей - список соответствующих им расширений файлов документов, разделенных запятыми. С текущей версией Protos поставляются интерпретаторы HTML и текстовых документов. Их имена - PRSHTML и PRSTEXT соответственно.

Пример: PRSHTML = .htm, .html

Секция [Virtual Roots]

Если в качестве WEB-сервера используется Baikonur Web App Server(r) компании Epsylon Technologies, то данная секция игнорируется. Для остальных WEB-серверов секция является обязательной и описывает структуру каталогов WEB-site'а. Ключами секции являются имена каталогов site'а, а значениями ключей - соответствующие им каталоги файловой системы. Таким образом, записи секции имеют вид:

< каталог site'а > = < каталог файловой системы >

Пример:

/ = c:/webshare/wwwroot

/OurCompany/products = u:/doc/current/products

В приведенном примере корневым каталогом site'а является каталог c:/webshare/wwwroot, а каталогом /OurCompany/products является каталог u:/doc/current/products.

При заполнении этой секции нужно быть предельно внимательным, поскольку неправильное определение ключей может привести к тому, что не все документы site'а будут находиться поисковой машиной и наоборот, документы, доступ к которым через WEB-сервер запрещен, могут стать доступными через поисковую машину.



Секция [Special Folders]

Секция является необязательной. В ней описываются каталоги, алгоритм индексирования которых отличается от стандартного. Стандартный алгоритм индексирования обходит все каталоги site'а (описанные в секции [Virtual Roots] ), удаляет из индекса документы, удаленные со времени последнего индексирования, и индексирует измененные и вновь появившиеся документы. При этом для чтения документов используется файловая система и предполагается, что кодировкой документов является WIN 1251.

Чтобы изменить этот алгоритм для некоторых каталогов в секцию включаются записи, ключом которых является имя каталога site'а, а значением - список описанных далее флажков. Такая запись действует как на сам каталог, так и на все его подкаталоги, для которых явно не указаны другие значения флажков. Флажки в списке разделяются запятыми. Имя флажка может быть сокращено до минимального числа букв, по которым его однозначно можно отличить от других флажков (одной буквы). При описании флажков такое сокращенное имя выделяется квадратными скобками.

Все флажки делятся на три группы, каждая состоит из взаимоисключающих флажков. Если в записи, соответствующей каталогу, встречается более одного флажка из группы, то все кроме последнего игнорируются. В описании в каждой группе флажок по умолчанию выделен значком *.

Группа 1. Флажки, определяющие доступ к документам

[h]ttp - использовать для чтения документов WEB-сервер.

Флажок применяется для каталогов, содержащих документы, которые изменяются при передаче WEB-сервером (например, активные (ASP) документы).

[f]ile* - использовать для чтения документов файловую систему.

Группа 2. Флажки, определяющие алгоритм обновления индекса

Действие флажков группы приведено в следующем списке:

[r]eindex - убирать из индекса удаленные документы и индексировать все существующие документы, даже если дата изменения осталась прежней. Обычно флажок используется совместно с флажком http (группа 1) для индексации активных документов. Если вся активность документов заключается только в использовании операторов типа include, то для каталогов, содержащих такие документы, устанавливается флажок update (см. ниже), и только для индексации после изменения включаемых документов устанавливается флажок reindex .

[e]xclude - исключить каталог из пути индексирования. Флажком помечаются каталоги, документы которых Вы не хотите индексировать.

[u]pdate* - удалять из индекса отсутствующие документы и переиндексировать документы с измененной датой.

[s]kip - пропускать каталоги при индексировании, не удаляя из индекса лежащие в них документы. Флажок применяется для каталогов, документы в которых не меняются (например, архивов), и для временно недоступных каталогов.

Группа 3. Флажки, определяющие кодировку документов

[w]in* - стандартная кодировка; [a]lt - альтернативная кодировка; [k]oi - код КОИ-8

Группа 4. Флажки задания раздела

[t]opic: - включить каталог (и все подчиненные)в раздел ( -[t]opic: - исключить каталог из раздела)

Синтаксис: t:[имя_атрибута]=[значение_атрибута]

Пример: /our_company=skip, koi, t:subtree=ourcompany, t-:subtree=news

При изменении конфигурации разделов необходимо переиндексировать базу.

Секция [Protocol]

Секция определяет имена файлов, в которые поисковая машина записывает протокол работы и сообщения об ошибках. Секция содержит следующие ключи:

1. Протокол индексирования: Index

Ключ определяет полное имя файла, в котором ведется протокол индексирования.

Пример: Index = c:/Protos/default_i.txt

2. Протокол поиска: Search

Ключ определяет полное имя файла, в котором ведется протокол поиска.

Пример: Search = c:/protos/default_s.txt

7.4. Язык запросов Protos
Как трактуются слова

Независимо от того, какая форма слова стоит в запросе, поиск учитывает все формы по правилам русского языка.

Например, если задан запрос 'идти', то в результате поиска будут найдены ссылки на документы, содержащие слова 'идти', 'идет', 'шел', 'шла' и т.д. На запрос 'окно' будет выдана информация, содержащая и слово 'окон', а на запрос 'отзывали' - документы, содержащие слово 'отозвали'.

Если в запросе слово набрано с большой буквы, будут найдены только слова с большой буквы, в противном случае будут найдены как слова с большой, так и с маленькой буквы.

Например, запрос 'лебедь' найдет и птицу, и генерала. Запрос 'Лебедь' - генерала и те случаи упоминания птицы, когда она написана с большой буквы.
Естественно-языковый запрос

Самый простой способ задать запрос - просто написать в строке запроса то, что нужно найти. Язык запросов и понятие релевантности в Protos'е настолько развиты, что позволяют успешно работать с неформальными запросами. Для этого запрос надо заключить в фигурные скобки.

Например, запрос {компьютеры типа башня или tower}, выдаст список документов, относящихся к данной теме, часть которых в свою очередь даст дальнейшие ссылки. В начале списка окажутся документы, где слова запроса встречаются наибольшее количество раз и стоят как можно ближе друг другу.

Итак, если можно продумать запрос, выделить ключевые слова, определить возможные синонимы, имеет смысл использовать язык запросов. Если же проще описать словами область интересов в общем виде, удобно задавать естественно-языковый зарос. Этот запрос всегда будет обработан, как бы они ни был задан, какие бы символы в нем не использовались.


Основные операторы

Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в один абзац искомого документа. Тот же самый эффект произведет употребление символа '&'.

Например, при запросе 'холодная вода' (или 'холодная & вода'), результатом поиска будет список документов, в которых в одном абзаце содержатся и слово 'холодный', и слово 'вода'.

Между словами можно поставить знак '|' (или запятую ', '), чтобы найти документы, содержащие любое из этих слов.

Запрос вида 'вода | огонь' или 'вода, огонь' задает поиск документов, содержащих в одном абзаце хотя бы одно из слов 'вода' или 'огонь'.

Еще один знак, тильда '~', позволит найти документы с абзацем, содержащим первое слово, но не содержащим второе.

По запросу 'холодный ~ горячий' будут найдены все документы, содержащие слово 'холодный', рядом с которым (в пределах абзаца) нет слова 'горячий'.

Чтобы подняться на ступеньку выше, от уровня абзаца до уровня документа, надо удвоить соответствующий знак. Одинарный оператор (&, ~) ищет в пределах абзаца, двойной (&&, ~~) - в пределах документа.

Например, по запросу 'холодная && вода' будут найдены документы, содержащие где бы то ни было оба эти слова. А запрос 'квас ~~ теплый' выдаст все документы со словом 'квас', но без слова 'теплый'
Поиск с расстоянием

Как Protos адресует слова? Если все слова в тексте перенумеровать по порядку их следования, то расстояние между словами a и b - это разница между номерами слов a и b. Таким образом, расстояние между соседними словами равно 1 (а не 0), а расстояние между соседними словами, стоящими "не в том порядке", равно -1. То же самое относится и к абзацам. Если между двумя словами поставлен знак '/', за которым сразу напечатано число, значит, требуется, чтобы расстояние между ними не превышало этого числа слов.

Например, по запросу 'холодная /2 вода' должны быть найдены документы, в которых содержатся и слово 'холодный' и слово 'вода', причем расстояние между ними должно быть не более двух слов и они должны находиться в одном абзаце.

Если порядок слов и расстояние точно известны, можно воспользоваться пунктуацией /+n. Так, например, задается поиск слов, стоящих подряд.

Запрос 'холодная /+1 вода' означает, что слово 'вода' должно следовать непосредственно за словом 'холодный'. (Кстати, к тому же результату приведет запрос "холодная вода")

В общем виде ограничение по расстоянию задается при помощи пунктуации вида '/(n m)', где 'n' минимальное, а 'm' максимально допустимое расстояние. Отсюда следует, что запись '/n' эквивалентна '/(-n +n)', а запись '/+n' эквивалентна '/(+n +n)'.

Запрос 'холодная /(-2 4) вода' означает, что 'вода' должна находиться от 'холодный' в интервале расстояний от 2 слов слева до 4 слов справа.

Знаки можно комбинировать с ограничением расстояния.

Например, результатом поиска по запросу 'холодный ~ /+1 вода' будут документы, содержащие слово 'холодный', причем в этих документах слово 'вода' не следует непосредственно за словом 'холодный'.

Когда знаки ограничения по расстоянию стоят после двойных операторов, то употребленные там числа - это расстояние не в словах, а в абзацах. Расстояние в абзацах определяется аналогично расстоянию в словах.

Запрос 'холодная && /1 вода' означает, что слово 'вода' должно находиться в том же самом, либо в соседнем со словом 'холодный' абзаце.
Круглые скобки

Вместо одного слова в запросе можно подставить целое выражение. Для этого его надо взять в скобки.

Например, запрос '(холодный, горячий) /+1 (вода|огонь)' задает поиск документов, которые содержат любую из фраз 'холодная вода', 'холодный огонь', 'горячая вода', 'горячий огонь'.
Поиск в определенных элементах

Можно искать информацию в двух "зонах" - заголовках (имя "зоны": Title) и ссылках (имя "зоны": A).

Синтаксис: $имя_зоны логический_множитель

Запрос '$Title КомпТек' ищет в заголовках документов слово 'КомпТек'. Запрос ' $A (КомпТек | Dialogic)' находит документы, в cсылках внутри которых есть одно из слов 'КомпТек' или 'Dialogic'.


Поиск в найденном

Поставив в поисковой строке '$$' можно ограничить область поиска - осуществлять его не по всем документам, а только по тем, которые были найдены в предыдущем поиске. Оператор позволяет последовательно суживать область поиска (при очень узком поиске есть опасность не найти ни одного релевантного документа).

Запрос '$Title КомпТек $$ ' найдет те документы из последнего результата поиска, у которых в заголовке есть слово “КомпТек”.
Поддерево

Для поиска в поддеревьях необходимо задать при индексировании нужные каталоги и названия разделов, к которым они будут относиться. При поиске по разделу можно указывать оператор 'subtree' (хотя удобнее организовать выбор в меню на поисковой странице).

Запрос вода#subtree=hot задает поиск документов в разделе hot, содержащих слово вода.
Ранжирование результата поиска

При поиске для каждого найденного документа Яндекс вычисляет величину релевантности (соответствия) содержания этого документа поисковому запросу. Список найденных документов перед выдачей пользователю сортируется по этой величине в порядке убывания. Релевантность документа зависит от ряда факторов, в том числе от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т.д.

Пользователь может повлиять на порядок сортировки, используя операторы веса и уточнения запроса.

Задание веса слова или выражения применяется для того, чтобы увеличить релевантность документов, cодержащих "взвешенное" выражение.

Синтаксис: слово:число или (поисковое_выражение):число

По запросу 'поисковые механизмы:5' будут найдены те же документы, что и по запросу 'поисковые механизмы'. Разница состоит в том, что наверху списка найденного окажутся документы, где чаще встречается именно слово 'механизмы'. Запрос 'поисковые (механизмы|машины|аппараты):5 ' равнозначен запросу 'поисковые (механизмы:5|машины:5|аппараты:5) '.

Задание уточняющего слова или выражения применяется для того, чтобы увеличить релеватность документов, cодержащих уточняющее выражение.

Синтаксис: <- слово или <- (уточняющее_выражение)

По запросу 'компьютер <- телефон ' будут найдены все документы, содержащие слово 'компьютер', при этом первыми будут выданы документы, содержащие слово 'телефон' . Если ни в одном документе со словом 'компьютер' нет слова 'телефон', результат запроса будет эквивалентен запросу 'компьютер'.

7.5. Краткое описание операторов запроса

Пробел или & логическое И (краткое в пределах одного абзаца)

&& логическое И (в пределах документа)

, или | логическое ИЛИ

() группирование слов

{} естественно-языковый запрос

~ бинарный оператор И НЕ (в пределах одного абзаца)

~~ бинарный оператор И НЕ (в пределах документа)

/(n m) расстояние в словах (-назад +вперед)

&&/(n m) расстояние в абзацах (-назад +вперед)

$Title поиск в заголовках документов

$A поиск в ссылках

$$ поиск в последнем результате поиска

#subtree= название раздела поиск в поддереве

слово<-уточняющее слово уточнение поиска

слово : число задание веса слова или выражения.


7.6. Стоп-слова

Если во время работы индексатора в текущей директории находится файл stopword.lst, индекс будет строиться с учетом стоп-слов. Это значит, что слова, указанные в этом файле (их их формы) не будут заноситься в индекс.

Если во время работы поискового сервера в текущей директории находится файл stopword.lst , сервер не будет искать указанные слова в индексе. Применение стоп-слов может значительно уменьшить размер индексного файла (inv).

В состав поставки включен файл stopword.lst, в котором приведены 55 самых частотных русских слов (соответствующих 33% словоупотреблений). Файл можно редактировать.
7.7. Разметка документа

При индексации Protos запоминает подробный адрес слова - не только документ, но и номер абзаца, в котором находится слово, и номер слова в этом абзаце. Кроме поиска с расстоянием, это дает возможность выделить искомые слова в найденном тексте.

Для каждого документа в списке найденного указан его заголовок, ссылающийся на размеченный документ, начало текста документа, дата и URL документа, ссылающийся на оригинальный документ.

Protos-Web при индексации запоминает положение слова в документе, что дает возможность выделить (подсветить) слова, найденные в тексте. При этом подсвечиваются не все слова, входящие в запрос, а только те, которые удовлетворяют поисковому выражению.

Слова выделены угловыми стрелочками. Каждая стрелочка ссылается на следующее или предыдущее "найденное" слово.

В начале размеченного документа помещается табличка с ссылками на первое и последнее найденное слово и на оригинальный документ. В конце документа - аналогичная табличка, где приводится статистика, то есть - сколько слов найдено (подсвечено) в данном документе.

Если запрошенное слово было найдено в заголовке, то оно выделяется там угловыми скобками, а внизу выдается сообщение "Найденные в заголовке слова выделены угловыми скобками".

Если файлы были изменены, а индекс по ним не обновлен, об этом выдается соответствующее предупреждение.



7.8. Программные сообщения

Сообщения системы.

Протокол сервера PROTOS.INI (для Windows 95 записывается в Protos.log, для Windows NT - в системный протокол (event log))

"Maximum Server number exceeded." - превышено разрешенное количество виртуальных серверов

"Nothing to do." - в файле PROTOS.INI не найдено корректного конфигурационного файла ни для одной поисковой машины

"Program is corrupted." - дистрибутив испорчен

"Memory exceeded." - нехватает памяти для выполнения программы

"Dictionary is not found." - дистрибутив неполон

".INI file for server [имя_поискового_сервера] is not found." - не найден файл, описывающий конфигурацию данной поисковой машины

"Protocol file(s) for server [имя_поискового_сервера] can not be opened." - невозможно открыть протокол данной поисковой машины



Сообщения об ошибках, которые каждая поисковая машина пишет в свой протокол индексирования или поиска соответственно:

" Host parameter is not defined." - не определено имя хоста для поисковой машины ( параметр Host)

" Script parameter is not defined." - не определено имя поискового приложения ( параметр Script)

" CacheFolder parameter is not defined." - не определен каталог хранения результатов ( параметр CacheFolder)

"Cache folder [путь] is not found." - не существует каталог хранения результатов ( CacheFolder)

"DBaseFolder parameter is not defined." - не определен каталог хранения индекса ( параметр DBaseFolder)

"Data base folder [путь] is not found." - не существует каталог хранения индекса ( DBaseFolder)

"Images parameter is not defined." - не указан каталог картинок машины ( параметр Images)

"StopWords file [имя_поискового_сервера] is not found." - не найден файл стоп-слов ( StopWords)

"Can't start indexator. System is busy." - нехватает системных ресурсов



Сообщения, которые каждая поисковая машина пишет в свой протокол индекса :

"Can't create data base [имя_файла]." , "Can't create index file [имя_файла] ." , "Can't create temprorary file. May be disk is full." - система не может создать соответствующие файлы, возможные причины: отсутствие места на диске, отсутствие доступа на запись, системная ошибка диска

"Close index: Memory exceded." - нехватает памяти

"Data base is catched by another program." - база данных занята другой программой



Сообщения, которые каждая поисковая машина пишет в свой протокол поиска:

"Index file [имя_файла] is not found." , "Data base file [имя_файла] is not found." - не найдены файлы индекса, возможно, документы не проиндексированы.

"Ошибка создания временного файла." - система не может создать файл, возможные причины: отсутствие места на диске, отсутствие доступа на запись, системная ошибка диска

Информационные сообщения



Сообщения, которые каждая поисковая машина пишет в свой протокол индекса:

"Maximum licensed data base capacity exceded." - превышен объем текстов, указанные в лицензии на программу, обратитесь в CompTek за следующей версией

"[количество_документов] documents have been updated." , "[количество_документов] documents have been deleted." , "[количество_документов] documents have been added." , " Total [количество_документов] documents ([объем]Kb) have been indexed." , "[количество_документов] documents have been left unchanged." - статистика индексирования

"Data base capacity: [количество_документов] documents." - размер базы данных

"Indexator aborted due to user request." - индексатор снят по запросу пользователя (это не ошибка, но индекс не обновился)

"U [имя_файла] ) , "D [имя_файла]) , "A [имя_файла]) - сообщения о каждом изменненном в индексе файле (U - обновление, D - удаление, A - добавление)



Сообщения, которые каждая поисковая машина пишет в свой протокол поиска:

"Program expired." - время действия программы окончилось, это была демо-версия, для приобретения неограниченной по времени версии обратитесь в CompTek



Сообщения, выдаваемые при запросе с поисковой страницы (в формате HTML):

"Извините, но результат Вашего запроса уже удален."

"Неправильная конфигурация страницы." , "Извините, но Ваш запрос не правильно сформирован." - ошибка в вызове и формировании поискового приложения

"Извините, но запрошенный документ изменился после индексироавния."


Сообщения ядра Protos

"Синтаксическая ошибка Syntax error" - неправильно сформулирован запрос

"Для требуемой операции не хватает памяти Not enough memory for the operation"

"Ошибка при чтении файла File reading error" - не читается файл индекса

"Неизвестная зона Unknown zone" - используется не описанный таг зоны

"Внутренняя ошибка: дисбаланс зон Internal error: zone disbalance" - в документе есть таг открытия зоны, но нет тага закрытия

"Результат предыдушего запроса уже удален Previous search result is already deleted"



Глава 8. Сравнительные характеристики российских поисковых систем

Рассматриваемые в данной таблице Rambler, Yandex и Апорт являются основными полнотекстовыми поисковыми системами, представленными в русскоязычном секторе Интернет. Системы проводят автоматическое сканирование документов только с доменов ru, su, ua и других доменов, принадлежащих странам ближнего зарубежья. При регистрации страницы, располагающейся в зоне .com, робот проверит корневую страницу ресурса. При отсутствии русского текста индексация не произойдет...



I. Основные характеристики поисковых систем





Rambler

Yandex

Апорт

Адрес

www.rambler.ru

yandex.ru

www.aport.ru

Кол-во уникальных пользователей поисковой системы в день (среднее за неделю с 25 по 31 января)

19 344

13 323

6 714

Кол-во уникальных пользователей поисковой системы в месяц (январь 99)

137 300

94 775

55 200

Кол-во запросов к поисковой системе в день (среднее за неделю с 25 по 31 января)

138 983*

50 235

24 057

Размер поисковой системы

(на 31.01.99)



3 815 679 (DOC)

5 143 907 (URLs)

24 897 (SERV)


4 512 231 (DOC)

24 772 (SERV)



1 757 208 (DOC)

2 999 585 (URL)

13 264 (SERV) **


Кол-во индексируемых в день страниц (среднее за неделю с 25 по 31 января)

130 000 URLs

40 000 NEW



900 000 URLs

???

Период обновления страницы в индексах

от недели до месяца

7 дней

от недели до месяца

Появление в индексах после регистрации

ближайший выходной

10 мин для доменов 'ru', 'su', 7 дней для остальных

7 дней

Появление в индексах незарегистрированных страниц

от недели до месяца

около 7 дней

от недели до месяца

Глубина индексирования

не ограничена

не ограничена

не ограничена

Поддержка фреймов

+

+

+

Поддержка ImageMaps

+

+

+

Индексация закрытых разделов

+

+

+

Популярность веб-сайта

-

планируется

-

Определение частоты обновления

-

+

+

Robots.txt

+

+

+

Meta Robots

+

+

+

Возможность проверки страницы на наличие в индексах

+

+

+

Возможность проверки на наличие ссылок с других страниц

-

планируется

+

* - включая поиск по TOP100

** - данные на 02.12.98



II. Факторы, влияющие на определение релевантности страницы





Rambler

Yandex

Апорт

Адрес

www.rambler.ru

yandex.ru

www.aport.ru

Популярность страниц

-

-

-

Мета-теги

-

планируется

+

Индексация в поле ALT

+

планируется

+

Индексация текста в комментариях

+

-

+

Стоп слова

встречаются в более 600 тыс. документов

список

список

Морфологический поиск

+

+

+

Учет регистра

-

+

-

Meta-refresh

ОК (робот переходит)

OK (робот не переходит)

OK (робот переходит)

Невидимый текст

SPAM

SPAM

SPAM

Излишняя повторяемость ключевых слов

SPAM

SPAM

SPAM

Мелкий текст

SPAM

SPAM

SPAM



III. Факторы, влияющие на отображение страниц в результатах поиска





Rambler

Yandex

Апорт

Адрес

www.rambler.ru

yandex.ru

www.aport.ru

Длина заголовка (title)

не более 512 символов

не более 203 символов

не более 256 символов

Если нет заголовка

URL

выдается "Без заголовка"

выдается "Документ без названия"

Вид описания (мета-тег, первый текст на странице и т.д.)

первые 513 символов из основного текста документа

первые 203 символов из основного текста документа

отрывки предложений (до 10), где встречаются ключевые слова

Длина описания

три опции: отсутствует, не более 513 символов, не ограничена

не более 203 символов

цитата до 500 слов

Дата обновления документа

+

+

+

Дата индексации документа

+

-

+

Размер документа

+

+

-

Кодировка документа

+

+

+

Кол-во результатов на странице

15 - 30 - 50

10 - 20 - 50

10

Варианты отображения

стандартный, короткий, полный

простой и академический поиск

сжатая , обычная, подробная

Пояснения к таблице

I. Основные характеристики поисковых систем

Размер поисковой системы

Параметр, характеризующий объем информации, проиндексированной системой:

(URL) - кол-во хранящихся в индексах адресов страниц;

(DOC) - кол-во проиндексированных документов. Их, как правило, меньше чем (URL), т.к. по нескольким URL может находиться один и тот же документ;

(SERV) - кол-во проиндексированных серверов. На одном сервере может располагаться от одной до нескольких тысяч страниц, поэтому данная цифра больше свидетельствует о широте охвата системы, чем об ее информационном объеме.

От размера поисковой системы зависит, будет ли Ваш веб-сайт представлен в ее индексах, сколько страниц веб-сайта будет проиндексировано и т.д.


<< предыдущая страница   следующая страница >>