<< Пред. стр.

стр. 15
(общее количество: 18)

ОГЛАВЛЕНИЕ

След. стр. >>

Самым' извеЯИРВМРН&Дставителем глобальных каталогов яв­
ляется система Тшииишт 1
Если Ш.Т1П лучше искать применяя гло­
бальные поиооянрммШДО,льзоваться поиске русскоязычных доку­
то при
ментов целесо0б8ИИИШ» поисковыми системами, ко­
торые индексирув^иИИ» русскоязычную часть Интернет. Подоб­
ные поисковые #ШШВШЗЫваются нлокальными.
Системы, сйвМЯИ8И№УК)ЩИеся а просмотре русскоязычных
серверов, подЯВ|даяМИВ|»|*зличные кодировки кириллицы и про­
водят морфолоРЙНИИИВ'йнализ текста, в частности, учитывают
при поиске IIII ШИН—f ТГОГ"t˜Г " ' слов.
ОсновныМФШШМШРКетовьгми поисковыми системами, пред­
ставленными кШНШРЗЫЧном секторе Интернет считаются
Rambler, АпарсШШММ} ТЕЬА-ПОИСК. Системы проводят авто­
матическое сканммиЭДие документов только с доменов ш, su и
других домвИОШвИШИШДлежащих странам ближнего зарубежья
России. ПрирвШШШШИШ страницы, располагающейся в зоне .com,
робот проъсрШШКШШВЮ/Ю страницу ресурса. При отсутствии рус­
ского текста ШШШШВЯЯ ие произойдет.
Поиском» • • и я » ' Rambler начала работать в конце 1996 г.
В состав 'Квйвнавашюдят следующие компоненты:
• Поисидонмшнлма по серверам России и стран СНГ. Содер­
жит миллиоКИЯиИВШГГОВ с более чем 15.000 сайтов. Имеет раз­
витый язык Я Я Н К И гибкую форму вывода результатов.
• Доброавшмяв рейтинг сайтов/страниц по посещаемости с
учетом кпяоеШШШШШ. Система рейтинга охватывает более 5000
участников»
Язык запввашюшсковой системы Rambler включает следу­
ющие инструмента,'
Ключевъашшшшт запросе можно использовать одно или не­
сколько слощмииюенных пробелами. Могут быть использованы
как русские^^имшмвасийские словосочетания. По умолчанию, если
не использущямикширенный поиск, считается, что в найденных
документахдарияиигяздержатьсявсе указанные в запросе слова.
Булев пвяшшшшткаковые термины могут быть объединены ло­
гическими «миввшзми посредством служебных слов And, Or и
Not. Символвивижш'1' и '!' могут использоваться вместо или в
сочетании стоттъши словами.
Учет реяштштобой поисковый термин может содержать в
себе как заглнмншак и прописные символы. Индекс базы дан­
ных строитсйаяиишддйдением слов к прописным символам.
Учет слоаяшшшЪрн необходимости нахождения документов,
содержащи^^^щиижмые формы поискового слова, перед таким
129
термином следует использовать служебный символ '@'. В меню
детального запроса имеется соответствующая возможность уста­
новить такой режим для всех слов запроса.
Усечение слов: возможно использование мета-символов '*' и '?'
для обозначения произвольной части слова и произвольного сим­
вола слова. По умолчанию система ищет поисковые слова в том
виде, в котором они были введены.
Использование весовых коэффициентов: для увеличения/умень­
шения весового значения любого слова можно использовать ' + '
и '-'. Возможно многократное использование данных символов.
Определение области поиска: для этого можно использовать
специальные слова: $AU, $URL, $Title, $Header, SEssence, $Address.
Специальные слова начинаются с символа '$'.
Сортировка результатов: можно определить тип сортировки,
отличный от обычной сортировки результатов поиска по степе­
ни релевантности, используя служебные слова $YOUNG и $OLD.
В первом случае документы будут отсортированы по дате так,
что на верху будут показаны самые свежие документы, во вто­
ром — наоборот.
Элементы контекстного поиска: используется служебное сло­
во $NEAR, слово SRANDOM используется для отмены этого ре­
жима. Оба служебных слова можно использовать в запросе отдель­
но, но можно и вместе, если после комбинации слов необходимо
отключить текущий режим оптимизации между словами.
Поисковая система Апорт начала работать летом 1997 г. Она
разработана компанией «Агама» при поддержке Intel. Поддерживает
все кириллические кодировки и выполняет поиск с учетом мор­
фологического анализа. Имеет гибкий язык запросов, возможность
перевода запроса с русского на английский язык и наоборот.
Результаты поиска упорядочиваются по частоте употребления
искомых терминов. Вместе со ссылкой отображается фрагмент тек­
ста, где встречается термин, а также дата и время последней мо­
дификации файла.
Язык запросов поисковой системы Апорт включает следую­
щие инструменты:
Ключевые слова: по такому запросу находятся документы, в ко­
торых встречаются все слова запроса.
Булев поиск: Оператор — логическое И подразумевает, что
«И» можно опускать, например, запрос быстрый поиск полнос­
тью эквивалентен запросу быстрый и поиск. По любому из этих
запросов будут найдены документы, содержащие оба слова. Опе­
ратор — логическое ИЛИ позволяет искать документы, содер­
жащие хотя бы один из операндов. По запросу быстрый или по­
иск будут найдены документы, содержащие любое из указанных
слов или оба слова одновременно. Оператор — логическое НЕ
ограничивает поиск документами, не содержащими слово, ука­
занное после оператора. По запросу фрукты не яблоки будут найдены
130
документы, содержащие слово «фрукты», но не содержащие сло­
во «яблоки».
Учет всех словоформ слова: независимо от того, в какой грам­
матической форме пишется в запросе слово, оно находится в до­
кументах во всех своих формах. Например, по запросу «человек
шел» будут найдены среди прочих и документы, содержащие текст
«люди идут». Распознавание всех форм работает для обычных слов
русского языка. Для редко встречающихся слов — неологизмов и
т. п. — оно не работает. В этом случае рекомендуется использовать
сим-вол «*» (звездочка).
Поиск по адресам (URL): позволяет осуществлять поиск по
определенному серверу. Например: url=www.intel.ru управление По
данному запросу будут найдены все документы на сервере
www.intel.ru, содержащие слово «управление».
Поиск по датам: ограничение поиска документами, попадаю­
щими в заданный интервал дат.
Контекстный поиск:
• Круглые скобки задают порядок действия логических опе­
раторов.
• Двойные или одинарные кавычки позволяют находить сло­
восочетание, указанное в них.
• Для указания расстояния между словами используется опе­
ратор «ел». Например, сл5(папа мама сын), означает, что будут
найдены документы, где между словами «папа», «мама» и «сын»
стоит "не более двух других слов (то есть общее число слов во
фрагменте не более 5).
Определение области поиска:
• title= — указанное после равенства слово или конструкция в
круглых скобках должны искаться в заголовках документов (перед
круглыми скобками знак равенства можно опускать);
• keywords^ — указанное после равенства слово или конструк­
ция в круглых скобках должны искаться в поле МЕТА KEYWORDS
документов;
• alt= — указанное после равенства слово или конструкция в
круглых скобках должны искаться в полях ALT;
• link— — указанное после равенства имя интернет-сервера дол­
жно искаться в ссылках, имеющихся в HTML-документах. Данный
поиск ведется только по ссылкам, где явно указано имя сервера;
• comment= — указанное после равенства слово или конструк­
ция в круглых скобках должны искаться в полях COMMENT
(комментарии);
• text— — указанное после равенства слово или конструкция в
круглых скобках должны искаться только в обычном тексте. По
умолчанию слова запроса ищутся как в тексте, так и во всех указан­
ных выше полях.
Результаты поиска упорядочиваются по частоте употребления
в документе искомых терминов. Вместе со ссылкой отображается
131
фрагмент текста, где встречается термин, а также дата и время
последней модификации файла.
Поисковая система Япс1ех начала работать с конца сентября
1997 г. Помимо серверов с расширением su и ш она индексирует
содержание российских и зарубежных Web-узлов. Нормализация
слов происходит на основе специального алгоритма, это позволя­
ет не хранить все словоформы в словаре.
Япс!ех включает модули морфологического анализа и синтеза,
индексации и поиска, а также набор вспомогательных модулей,
таких как анализатор документов, языки разметки, конверторы
форматов, сетевой «паук».
Алгоритмы морфологического анализа и синтеза, основанные
на базовом словаре, умеют нормализовать слова, то есть находить
их начальную форму, а также строить гипотезы для слов, не
содержащихся в базовом словаре. Система полнотекстового ин­
дексирования позволяет создавать компактный индекс и быстро
осуществлять поиск с учетом логических операторов.
Создаваемый индекс составляет около '/ 3 объема текста (без
картинок, tag'oB и пр.), при этом записывается адрес слова с точ­
ностью до позиции в тексте, что потом позволяет проводить кон­
текстный поиск.
Используется словарь на 90 тыс. слов. При индексации проис­
ходит нормализация, то есть слово ставится в свою исходную
форму (для существительных — именительный падеж единствен­
ного числа, для глаголов — неопределенная форма и т. д.). Одно­
временно с индексацией исключается омонимия. Скорость индек­
сации — не менее 2 Мб/мин.
Если слово не существует в словаре, то словарный сервер на
основании имеющихся у него морфологических правил строит
гипотезы возможной нормализации и словоизменения. Алгоритм
морфологического разбора позволяет распознавать слова, не най­
денные в словаре.
Индексирование проводится по всем словам, стоп-слова опре­
деляются статистически.
Язык запросов Япс-ех включает следующие компоненты:
1. Булев поиск:
оператор «пробел» или «&» означает логическое И (в пределах
предложения);
оператор «&&» означает логическое И (в пределах документа);
оператор «|» означает логическое ИЛИ;
оператор «˜» означает бинарный оператор И НЕ (в пределах,
предложения);
оператор « * означает бинарный оператор И НЕ (в пределах
документа);
2. Контекстный поиск:
оператор «( )» означает группирование слов;
оператор «/(п ш)» означает расстояние в словах ( назад + вперед);

132
оператор «" "» означает поиск фразы;
оператор «&&/(п ш)» означает расстояние в предложениях
( назад + вперед)

3. Определение области поиска:
$title (выражение) означает поиск в заголовке;
$anchor (выражение) означает поиск в тексте ссылок;
#keywords= (выражение) означает поиск в ключевых словах;
#image= (значение) означает поиск файла изображения;
#hint= (выражение) означает поиск в подписях к изображениям.
4. Поиск по адресам:
#url= (значение) — поиск на заданном сайте (странице);
#link= (значение) — поиск ссылок на заданный URL
5. Поиск по дате позволяет искать документы, изданные за
указанный период времени.
Результаты поиска упорядочиваются по степени релевантнос­
ти. Критерий релевантности рассчитывается на основе числа встре­
тившихся в документе терминов запроса, их положения и числа
слов между ними. В каждом документе выделяются (подсвечива­
ются) найденные слова. Возможно задавать форму выдачи: пол­
ное описание, краткое описание, адрес.
Поисковая система TELA-ПОИСК в настоящее время менее
популярна, чем три вышеназванные системы. Поисковая система
TELA, созданная компанией DUX, позволяет производить поиск
по ключевым словам русскоязычных страниц во Всемирной Пау­
тине, а также англоязычных страниц на российских серверах. По­
иск производится с учетом морфологии русского языка. Поиско­
вая часть сервера TELA сделана на базе системы поиска FreeWAIS-
SF с использованием русской версии системы поддержки морфо­
логии языка ILIAS, которая позволяет задавать ключевые слова в
произвольной форме.
При определении релевантности учитывается:
• количество слов из запроса найденных в документе;
• частота встречаемости слов запроса в языке (редкие слова
считаются более значимыми, более характерными);
• отношение найденных слов к общему количеству слов в до­
кументе.
В соответствии с этими критериями найденные документы сор­
тируются в выборке по убыванию степени соответствия запросу
от 1000 (максимальное соответствие) до 0. В начале выборки нахо­
дятся наиболее соответствующие запросу документы.
Вместе со ссылкой отображается начальный фрагмент текста
найденного документа, а также дата и время последней модифи­
кации файла.
Основным русскоязычным каталогом является система @Rus —
прежнее название Ау!. Работает с 1996 г. @Rus располагает базой
данных, содержащей более 30.000 аннотаций, которые представ­
лены в Рубрикаторе, насчитывающем более 200 тематических разделов.
133
Аннотации сайтов в зависимости от информативности и со­
держания распределяются в 4 лиги (в результате поиска они отме­
чаются одной или несколькими звездочками), что позволяет пользо­
вателю сразу выбрать лучший источник. В настоящее время @Rus
посещает более 15.000 человек в день ( данные на декабрь 1999 г.)
Основным элементом @Rus является Каталог, содержащий
аннотации с гиперссылками. Он-лайновый каталог состоит из бо­
лее чем 30.000 сайтов, которые разделены в 4 лиги:
Элитная Лига (****) — наиболее популярные и известные сайты
крупных корпораций и правительственных организаций;
Высшая Лига (***) — наиболее информативные и полезные
сайты;
Профессиональная Лига (**) — корпоративные и профессио­
нальные сайты;
Любительская Лига (*) — частные и непрофессионально вы­
полненные сайты.
Каталог @Rus интегрирован с поисковой системой Аппорт. 2.2.4
В настоящее время существует тенденция расширения функ­
ций поисковых систем и каталогов, преобразование их в инфор­
мационные порталы. Такие системы помимо традиционного доку­
ментального поиска предоставляют и другие информационные
услуги. Эти возможности и услуги можно подразделить на не­
сколько групп:
• аналитическая информация — обзоры и рекомендованные сайты,
новости IT, аналитика по статистике и популярности сайтов;
• справочная информация — новости, погода, курсы валют;
• бесплатная электронная почта;
• деловые услуги — электронная коммерция;
• интерактивные элементы — конференции, чаты, опросы.


Литература к главе 8
1. Дескрипторный словарь по информатике. — М.: ВИНИТИ, 1991.
2. Ланкастер Ф. Информационно-поисковые системы. — М.: Мир, 1972.
3. Михайлов А., Черный А. Основы информатики. — М.: Наука, 1968.
4. Монастырский И. Информационно-поисковые системы. — М.: Эконо­
мика, 1983.
5. Ожарахан Э. Машины баз данных. -*• М.: Мир,1989.
6. Субботин М. Гипертекст. Новая форма письменной коммуникации —
М.: Знание, 1994.
7. Тихомиров В. П. Основы гипертекстовой информационной технологии. —
М.: МЭСИ, 1993.
8. Эд Крол. Все об Internet.: Пер. с англ. — К.: BHV, 1996.



134
ГЛАВА 9
КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ
ИНТЕЛЛЕКТУАЛЬНОЙ ПОДДЕРЖКИ
УПРАВЛЕНЧЕСКИХ РЕШЕНИЙ

9.1. В чем состоит назначение
экспертных систем?
Разработка систем интеллектуальной поддержки (основанных
на знаниях) является составной частью исследований по искусст­
венному интеллекту и имеет целью создание компьютерных ме­
тодов решения проблем, обычно требующих привлечения специа­
листов. В конце 70-х гг. специалисты, работающие в области ис­
кусственного интеллекта, начали понимать нечто весьма важное:
эффективность программы при решении задач зависит от знаний,
которыми она обладает, а не только от формализмов и схем вы­
вода, которые она использует. Была принята принципиально но­
вая концепция, которую чрезвычайно просто сформулировать:
чтобы сделать программу интеллектуальной, ее нужно снабдить
множеством высококачественных специальных знаний о некото­
рой предметной области.
Существует много определений понятия «системы, основан­
ные на знаниях», в частности они определяются как «интеллекту­
альные компьютерные программы, использующие знания и про­
цедуры вывода для решения проблем, которые настолько слож­
ны, что для их решения необходимо привлечение эксперта». Тер­
минология по искусственному интеллекту пока еще окончательно
не установилась, поэтому словосочетания «экспертные системы»
(ЭС) и «системы, основанные на знаниях» будем употреблять
как синонимы, хотя считается, что любая ЭС есть система, осно­
ванная на знаниях, но последняя не всегда является экспертной
системой. В системах, основанных на знаниях, правила (или эври­
стики), по которым решаются проблемы в конкретной предмет­
ной области, хранятся в базе знаний. Проблемы ставятся перед
системой в виде совокупности фактов, описывающих некоторую
ситуацию, и система с помощью базы знаний пытается вывести

135
заключение из этих фактов. Можно сказать, что качество эксперт­
ной системы определяется размером и качеством базы знаний (пра­
вил, или эвристик). Система функционирует в следующем цикли­
ческом режиме: выбор (запрос) данных или результатов анализов,
наблюдение, интерпретация результатов, усвоение новой инфор­
мации, выдвижение с помощью правил временных гипотез и за­
тем выбор следующей порции данных или результатов анализов.
Такой процесс продолжается до тех пор, пока не поступит инфор­
мация, достаточная для окончательного заключения.
Более простые системы, основанные на знаниях, функциони­
руют в режиме диалога, называемом режимом консультации. Пос­
ле запуска система задает пользователю ряд вопросов о решаемой
задаче, требующих ответа: «да» или «нет». Ответы служат для ус­
тановления фактов, по которым может быть выведено оконча­
тельное заключение.
В любой момент времени в системе содержатся три типа знаний:
• структурированные статические знания о предметной облас­
ти, после того как эти знания выявлены, они уже не изменяются;
• структурированные динамические знания — изменяемые зна­
ния о предметной области; они обновляются по мере выявления
новой информации;
• рабочие знания, применяемые для решения конкретной за­
дачи или проведения консультации.
Все перечисленные выше знания хранятся в базе знаний. Для ее
построения требуется провести опрос специалистов, являющихся
экспертами в конкретной предметной области, а затем системати­
зировать, организовать и снабдить эти знания указателями, чтобы
впоследствии их можно было легко извлечь из базы знаний.
Системы, основанные на знаниях, обладают рядом специфи­
ческих свойств:
• Экспертиза может проводиться только в одной конкретной
области.
• База знаний и механизм вывода являются различными ком­
понентами (оказывается возможным сочетать механизм вывода с
другими базами знаний для создания новых экспертных систем).
• Наиболее подходящая область применения — решение задач
дедуктивным методом, т. е. правила, или эвристики выражаются в
виде пар посылок и заключений типа «если — то».
• Эти системы могут объяснять ход решения задачи понятным
пользователю способом. Обычно мы не принимаем ответ эксперта,
если на вопрос «Почему?» не можем получить логичный ответ. Точно
так же мы должны иметь возможность спросить систему, основан­
ную на знаниях, как было получено конкретное заключение.
• Выходные результаты являются качественными (а не коли­
чественными).
• • Системы, основанные на знаниях, строятся по модульному
принципу, что позволяет постепенно наращивать их базы знаний.

136
Области применения систем, основанных на знаниях, могут быть
сгруппированы в несколько основных классов, в том числе про­
гнозирование, планирование, контроль и управление, обучение.
Существует ряд прикладных задач, которые решаются с по­
мощью систем, основанных на знаниях, более успешно, чем лю­
быми другими средствами. При определении целесообразности
применения таких систем нужно руководствоваться следующими
критериями:
• Данные и знания надежны и не меняются со временем.
• Пространство (или область) возможных решений относи­
тельно невелико.
• В процессе решения задачи должны использоваться фор­
мальные рассуждения.
• Должен быть, по крайней мере, один эксперт, способный
явно сформулировать свои знания и объяснить методы примене­
ния этих знаний для решения задач.
Но даже лучшие из существующих экспертных систем имеют
определенные ограничения по сравнению с человеком-экспер­
том, которые сводятся к следующему:
• Большинство экспертных систем не всегда бывают пригод­
ны для применения конечным пользователем. Если пользователь
не имеет некоторого опыта работы с такими системами, у него
могут возникнуть серьезные трудности. Многие системы оказыва­
ются доступными только тем экспертам, которые создавали их
базы знаний. Поэтому необходима разработка соответствующего
пользовательского интерфейса, обеспечивающего конечному
пользователю свойственный ему режим работы.
• Навыки системы не всегда возрастают после сеанса экспер­
тизы.
• Все еще остается проблемой приведение знаний, получен­
ных от эксперта, к виду, обеспечивающему их эффективную ма­
шинную реализацию.
Экспертные системы 1-го поколения не способны обучаться.
Человек-эксперт при решении задач обычно обращается к своей
интуиции, здравому смыслу, опыту, аналогии, если отсутствуют
формальные методы решения или аналоги таких задач.
• Экспертные системы редко применяются в больших пред­
метных областях.

<< Пред. стр.

стр. 15
(общее количество: 18)

ОГЛАВЛЕНИЕ

След. стр. >>