<< Пред. стр.

стр. 14
(общее количество: 18)

ОГЛАВЛЕНИЕ

След. стр. >>

Формально гипертекст можно представить в виде сети или
графа, где узлами являются фрагменты текста, а дуги отобража­
ют отношения, связывающие эти фрагменты. Доступ к информа­
ции осуществляется не путем последовательного просмотра тек­
ста, как в обычных информационно-поисковых системах, а пу­
тем движения от одного фрагмента к другому.
В самом общем виде взаимодействие пользователя с гипертек­
стовой системой заключается в следующем. Пользователь читает на
экране компьютера некоторый текст и имеет возможность выпол­
нять ряд определенных в системе действий в зависимости от того,
какие у него возникают ассоциации от чтения текста на экране.
Считают, что первым идею гипертекста, не используя самого
термина «гипертекст», выдвинул в 1945 г. Венневер Буш, совет­
ник президента Рузвельта по науке. Им был предложен проект
технической системы нового типа (или лучше сказать — техни­
ческой среды), названный им «Metex». Основное преимущество
этой системы состояло в возможности соединения и совместного
просмотра отдельно существующих, но ассоциативно связанных
единиц информации (статей, текстовых документов, фотографий,
чертежей). Система «Metex» представлялась в виде своеобразной
библиотеки с простым доступом к любому документу и возмож­
ностью переходить от любого документа к смежным, связанным
с ним по смыслу. Пользователь должен был иметь возможность
120
самостоятельно устанавливать нужные ему связи между докумен­
тами, вводить собственные документы, связывать их с существую­
щим содержимым библиотеки. Таким образом, основная идея пред­
ложенного проекта состояла в возможности фиксации смысловых
связей между элементами информации и доступа к этой информа­
ции по системе,связей. Принципы системы «Metex» полностью со­
ответствуют современным представлениям о сути гипертекста.
Первая компьютерная система, реализующая идею гипертек­
ста, была создана в 1968 г. Она носила чисто научно-исследова­
тельский характер и обеспечивала возможность пользователям, в
соответствии со своими представлениями, формулировать, нара­
щивать систему связей между элементами информации и про­
сматривать информацию как систему связей.
Термин «гипертекст» ввел Т. Нельсон. Он определил гипер­
текст как «соединение текста на естественном языке с создавае­
мой компьютером возможностью интерактивного создания внут­
ри Него новых ветвей или динамичной организации нелинейного
текста, который уже не может быть напечатан обычным образом
на обычной странице».
Т. Нельсон был разработчиком гипертекстовой системы, кото­
рая использовалась для ведения документации по проекту косми­
ческого корабля «Апполон».
В 1987 г. фирма Apple выпустила первую гипертекстовую сис­
тему для персональных машин — пакет HyperCard для компьюте­
ров Macintosh. С этого времени гипертекстовая технология приоб­
ретает массовый коммерческий характер.
Гипертекст можно рассматривать как своеобразную базу дан­
ных, которая организуется в виде открытой, свободно наращива­
емой и изменяемой сети, узлы которой (линейные тексты) со­
единяются самим пользователем. От обычной базы данных гипер­
текст отличается прежде всего тем, что в нем отсутствуют апри­
орно заданные ограничения на характер связей (как, например, в
иерархических структурах).
Элементы гипертекста (текстовые фрагменты) называются
узлами. Узлы, между которыми возможен переход, считаются смеж­
ными, а сама возможность перехода называется «связь». Совокуп­
ность смежных узлов образует «окрестность» данного узла.
Последовательно соединенные связями узлы образует «цепь».
Расстояние между узлами, что соответствует «близости» или «не­
близости» их содержания, равно минимальному количеству про­
межуточных узлов.
В общем случае в качестве узла могут выступать: слово; слово­
сочетание; предложение; абзац; параграф; документ; собрание до­
кументов, относящихся к одной теме; отдельные сообщения и т. п.
Характер связей между узлами может быть различным. Пере­
ход может осуществляться между: текстом и комментарием к нему,
между разными редакциями текста, между текстом и его возмож-
121
ными продолжениями, между текстами, отвечающими или воз­
ражающими друг другу, между текстами пересекающимися по
содержанию и т. д.
Создание гипертекста состоит, прежде всего, в формировании
системы переходов от узла к узлу (системы ссылок). В зависимости
от типа гипертекстовой системы такая система может задаваться
как разработчиками, так и пользователем в процессе работы с
гипертекстом.
Движение в гипертекстовой сети, совершаемое в процессе чте­
ния гипертекста, называется «навигацией».
Если гиперсеть имеет сложную, разветвленную структуру, воз­
никает проблема ориентации пользователя, т. е. определения в ка­
ком месте сети в данный момент он находится. Проблема ориента­
ции присутствует и при работе с традиционным линейным текстом
большого объема, но в этом случае пользователь имеет только два
направления поиска — «выше» или «ниже». Гипертекст предлагает
больше возможностей в выборе направлений движения, поэтому в
этом смысле работать с гипертекстом сложнее. Многие гипертек­
стовые системы облегчают проблему ориентации в гипертексте,
предоставляя наглядное изображение структуры связей.
В некоторых современных гипертекстовых системах существует
возможность запоминания направлений поиска пользователя в про­
цессе навигации. Такую информацию можно рассматривать как аль­
тернативу обработки информации по правилам логического выво­
да (экспертные системы). Примером использования такого подхода
могут служить системы, базирующиеся на технологии CBR (Case
Based Reasoning — вывод, основанный на прецедентах).
Гипертекстовая технология реализуется в конкретной гипер­
текстовой системе, которая состоит из двух частей: гипертекста
(базы данных) и гипертекстовой оболочки.
Гипертекстовая оболочка осуществляет следующие основные
функции:
• поддержка ссылочных связей;
• создание, редактирование и наращивание гипертекста;
• прямой доступ;
• поддержка ссылочных связей;
• просмотр (browsing — браузинг);
• выделение виртуальных структур.
Поддержка ссылочных связей позволяет поддерживать ранее
зафиксированные связи между узлами сети.
Функция создания, редактирования и наращивания гипертек­
ста принципиально отличает технологию гипертекста от техноло­
гии баз данных, в которых концептуальная схема данных заранее
задана. Она позволяет вводить новые узлы, редактировать содер­
жание узлов, устанавливать связи между узлами.
Прямой доступ позволяет осуществлять прямой доступ к уз­
лам сети по их именам.
122
Просмотр (браузинг) — операция, характерная только для
гипертекста. Означает поиск информации посредством просмотра
гипертекстовой сети, при этом возможно запоминание пути сле­
дования, с тем, чтобы при последующем аналогичном запросе
поиск происходил по зафиксированному пути следования.
Реальные гипертекстовые системы в зависимости от специа­
лизации могут обладать различным набором вышеперечисленных
функций.
Гипертекстовые технологии широко используются в различ­
ных прикладных системах:
• в настольных издательских системах — для создания доку­
ментов большого объема со свойствами гипертекста (т. е. с систе­
мой ссылок);
• в системах управления документами (СУД) — например,
для сведения в один итоговый документ информации, содержа­
щейся в разнородных документах;
• в системах подготовки электронных документов, позволя­
ющих составлять гипертекстовые документы с возможностью осу­
ществления навигации.
Наиболее известным инструментом создания гипертекста ос­
тается система HyperCard, входящая в набор базовых программ­
ных средств для машины Макинтош.
Одним из перспективных направлений развития гипертексто­
вых систем является технология гипермедиа — соединение техно­
логии гипертекста и технологии мультимедиа (интеграция текста,
графики, звука, видео). Для разработки гипермедийных прило­
жений фирма Apple разработала среду программирования АМТ
(Apple Media Tool), в которой основным объектом разработки яв­
ляется не «карта», как в HyperCard, а «экран». С помощью этих
средств создаются различные электронные издания — справочни­
ки, энциклопедии; разрабатываются обучающие программы.

8.2. Какое применение нашли гипертекстовые
технологии в Интернет?
Гипертекстовые технологии нашли широкое применение и при
организации хранения и представления информации в сети Ин­
тернет, например в сервисе World Wide-Web (WWW).
Сервис Web построен на основе архитектуры «клиент-сервер».
В состав Web-системы входят следующие составляющие:
• язык гипертекстовой разметки документов HTML (Hyper
Text Markup Language),
• универсальный способ адресации ресурсов в сети URL
(Universal Resource Locator);
• протокол обмена данными (гипертекстовой информацией)
HTTP (Hyper Text Transfer Protocol),
• средства просмотра Web-страниц (браузеры).
123
Язык HTML — это средство для формирования гипертексто­
вых документов. Гипертекстовые ссылки встроены в текст доку­
мента и хранятся как его часть. Благодаря этому языку можно не
только формировать гипертекстовые документы, но и осуществ­
лять связь текста и изображения с документами, расположенны­
ми на другом сервере Web.
Универсальный способ адресации применяется для организа­
ции гипертекстовых ссылок и обеспечивает доступ к распределен­
ным ресурсам сети. Адрес URL состоит из трех элементов: ис­
пользуемого протокола доступа, логического имени сервера, имени
файла. Например, сервер Государственной публичной научно-тех­
нической библиотеки России имеет адрес: http://gpntb.ippi.ras.ru/
Протокол обмена данными служит для установления связи с до­
кументами формата HTML независимо от его местонахождения.
В настоящее время гипертекстовые технологии развиваются
в нескольких направлениях.
Одно из них концентрируется на представлении в узлах гипер­
текста разнородной, но семантически связанной информации —
текста, рисунков, графики, фотографий, видео, звука.
Важным направлением развития гипертекстовых технологий
является аналитическая обработка информации. Например, смыс­
ловое упорядочивание документов, обеспечивающих решение мно­
гоэтапной задачи или разработку сложных проектов
Наиболее перспективным направлением являются технологии
организация информационных ресурсов, распределенных в сетях раз­
личных типов (локальных, корпоративных, глобальных) и, прежде
всего, Web-технология.

8.3. Какими методами осуществляется
поиск информации в Интернет?
Интернет представляет собой огромное хранилище распределен­
ной документальной информации, различных форматов и видов:
• Web-страницы,
• онлайновые электронные библиотеки,
• виртуальные музеи,
• каталоги по продуктам и услугам,
• открытая правительственная информация,
• научно-исследовательские публикации,
• документы различных сервисов Интернет: Gopher, FTP,
Usenet и электронной почты,
• коммерческая и финансовая информация.
По некоторым оценкам, в настоящее время Web содержит
сотни миллионов страниц и каждые четыре месяца этот объем
удваивается.
Одна из основных проблем пользователя современного Ин­
тернета — эффективный поиск информации. Очевидно, что ак-

124
туальность этой проблемы будет возрастать, так как объем доку­
ментальной информации в Интернет возрастает экспоненциально.
Как показывает практика, существующие инструменты поис­
ка документальной информации в Интернет пока имеют неудов­
летворительную точность выдачи и возвращают слишком много
документов, из которых лишь небольшая часть действительно со­
ответствует запросу пользователя.
Основным инструментом поиска в Интернет являются поис­
ковые системы.
В настоящее время известно около 200 поисковых систем.
Существующие поисковые системы Интернет можно класси­
фицировать по нескольким критериям:
1. Объем поискового индекса
Поисковые системы периодически просматривают узлы Ин­
тернет и формируют постоянно обновляемые индексы докумен­
тов. Из-за экспоненциального расширения Всемирной сети ис­
черпывающее индексирование всего содержимого Web и создание
одного огромного индекса практически невозможно. В настоящее
время даже лучшие поисковые системы индексируют не более
трети всего содержимого Сети.
Самый больший объем индексируемой информации собран на
узле HotBot (34%); несколько меньший — на AltaVista (28%),
Northern Light (20%) и Excite (14%). Список замыкает Lycos,
поисковая машина которого индексирует только около 3% всей
информации.
2. Метод выбора серверов для просмотра (опроса)
Генерация поискового индекса требует систематического об­
хода Web-узлов и определения местонахождения каждого доку­
мента. Структура Web аналогична структуре ориентированного гра­
фа, поэтому здесь применимы алгоритмы обхода графа.
Существуют четыре метода такого обхода:
• случайный выбор первого URL-адреса для инициализации
поиска. Профамма индексирует начальный документ, выделяет
URL-адреса, указывающие на другие документы, а затем анали­
зирует эти URL для поиска «преимущественно в ширину» или
«преимущественно в глубину»;
• поиск начинается с набора URL-адресов, определяемых на
основе популярности Web-узлов;
• пространство Web делится на разделы на основе системы
имен Интернет или кодов стран, а для полного исследования
этих разделов выделяется одна или несколько программ-роботов;
такой метод используется чаще, чем первые два;
• частота опроса — каждые несколько часов, каждый день
каждый месяц. Частота опроса является важной характеристикой
качества работы системы, т. к. определяет актуальность и полноту
индекса.

125
3. Используемые поисковые технологии
По этому критерию поисковые системы можно разбить на 4 ка­
тегории:
• Тематические каталоги.
• Специализированные каталоги (онлайновые справочники).
• Поисковые машины(полнотекстовый поиск).
• Средства мета-поиска.
Тематические каталоги предусматривают обработку докумен­
тов и отнесение их к одной из нескольких категорий, перечень
которых заранее задан. Фактически — это индексирование на ос­
нове классификации.
Индексирование может проводиться автоматически либо вруч­
ную с помощью специалистов, которые просматривают популяр­
ные Web-узлы и составляют краткое описание документов-резюме
(ключевые слова, аннотация, реферат).
Например, в ИПС Yahoo каталог построен на основе фасетно-
иерархической классификации. Иерархически организованный тема­
тический каталог Web генерируется полуавтоматически. Ссылки на
различные ресурсы собираются двумя способами: присылаются
пользователями и извлекаются программами-роботами, считываю­
щими новые ссылки из известных источников. Тематика каталога
разделена на большие классы, например, Компьютеры, Прави­
тельство, которые далее детализируются по иерархическому прин­
ципу.
В ИПС Magellan индексируются Web-узлы, серверы FTP и
Gopher, а также новости Usenet и сеансы Telnet. Коллектив редак­
торов и авторов просматривает Web-узлы и ранжирует их по таким
факторам, как полнота и простота исследования. Пользователи мо­
гут присылать для рецензии свои URL-адреса. Критерий выдачи
оценивается на основе частоты вхождения терминов запроса в до­
кумент. Более релевантными считаются те документы, которые со­
держат указанные в запросе термины в заголовке, дескрипторе
МЕТА или URL-адреса. Результаты запроса ранжируются.
Специализированные каталоги или справочники создаются по
отдельным отраслям и темам, по новостям, по городам, по адре­
сам электронной почты и т. п.
Поисковые машины (самое развитое средство поиска) реализу­
ют технологию полнотекстового поиска. Индексируются тексты, рас­
положенные на опрашиваемых серверах. Индекс может содержать
информацию о нескольких миллионах документов. На'пример, в ин­
дексе популярной ИС AltaVista 56 млн. URL-адресов (данные 1999 г.)
Запрос может быть сформулирован как запрос к полнотексто­
вой базе данных, распределенной в сети. Поскольку это база ог­
ромных размеров, характер запроса очень сильно влияет на ре­
зультат. При формировании запроса в ПС могут использоваться
следующие Инструменты:

126
1. Отдельные ключевые слова — этот вид запроса целесообраз­
но использовать только для узко специальных терминов. В про­
тивном случае количество найденных документов может дости­
гать нескольких десятков тысяч, т. е. такой поиск становится бес­
смысленным.
2. Логические операторы (булев поиск).
3. Средства контекстного поиска:
• указание расстояния между словами;
• указания порядка следования слов;
• поиск по полям документа HTML (слово в названии, заго­
ловке и т. п.).
4. Запрос по образцу (QBE) (найти такой же, найти подобный)
позволяет выделять в наборе выданных документов особо полезный
документ и автоматически формировать запрос на основе ключевых
слов этого документа. Этот тип запросов позволяет сформулировать
более точный запрос с использованием новых ключевых слов.
5. Поиск фразы — поиск документов, содержащих конкретное
словосочетание или фразу.
6. Поиск с использованием всех словоформ слова — поиск с эле­
ментами морфологического анализа. Это средство особенно важно
при поиске в русскоязычных текстах.
7. Определение области поиска (наименование сервиса), домена
(серверы с определенньш расширением имени, su,ru) и т. п.
8. Запрос на естественном языке. Запрос на русском языке
можно делать только в Япёех. При внешней привлекательности
данный вид запроса не очень эффективен — поиск будет не со­
всем точным и полным т. к. запрос автоматически индексируется
и система сама выделяет из него ключевые слова.
При расчете критерия выдачи в поисковых системах учиты­
ваются:
• частота слова в документе;
• его местоположение (в заголовке, подзаголовке, HTML-
дескрипторах).
Документы сортируются в порядке убывания релевантности,
информация о них выдается в виде:
• URL-адреса;
• названия;
• нескольких первых строк или краткого описания (резюме,
автоматическая аннотация или реферат).
В конкретных поисковых системах может быть предложен раз­
личный набор этих инструментов.
При использовании средств мета-поиска запрос осуществляет­
ся одновременно несколькими поисковыми системами, результат
поиска объединяется в общий, упорядоченный по степени реле­
вантности список. Каждая система обрабатывает только часть узлов
сети, это позволяет значительно расширить базу поиска. К подоб­
ному классу можно также отнести «персональные программы по-
127
иска», которые позволяют формировать свои собственные инст­
рументы мета-поиска (например, автоматически опрашивать час-
топосещаемые узлы).
Примерами систем данного вида могут служить: IBM InfoMarket,
которая выполняет поиск в Yahoo, OpenText, Magellan, различных
коммерческих ресурсах и группах новостей одновременно, генери­
руя ранжированные результаты обработки запроса; MetaCrawler,
которая посылает запросы восьми различным серверам поиска:
OpenText, Lycos, WebCrawler, InfoSeek, Excite, AltaVista, Yahoo
и Galaxy, поддерживает булевы операции и поиск фраз.
Известно, что для количественной оценки эффективности
ИПС используется формальное измерение точности и полноты
поиска, полученное на основе экспериментов в контролируемых
условиях. Это требует наличия экспериментальной системы с фик­
сированным числом документов, стандартного набора запросов и
множества документов, релевантных и нерелевантных каждому
обрабатываемому в эксперименте запросу. Создание подобных ус­
ловий в контексте Web крайне затруднено. Как уже говорилось,
различные серверы поиска работают с разными индексами, раз­
личающимися полнотой охвата документов Web.
Таким образом, достаточно сложно осуществить объективное
сравнение эффективности поиска различных поисковых систем.

8.4. Какие поисковые системы наиболее
распространены в сетевой службе WWW?
Самой популярной поисковой системой считается AltaVista. Она
имеет одну из самых крупных индексных баз и всемирную зону
охвата. Сервер расположен в США. Имеется ряд зеркальных серве­
ров в других странах. Данная система обрабатывает и русские сер­
веры. Для автоматического просмотра и индексирования докумен­
тов Web и групп новостей Usenet в системе AltaVista применяется
программа-робот под названием Scooter.
Индексирование выполняется по всему тексту документа. В ка­
честве аннотации используются первые несколько строк докумен­
та. Для краткого описания содержимого авторы HTML-документов
могут применять оператор МЕТА, в котором указываются ключе­
вые слова документа.
Индекс AltaVista обновляется, по крайней мере, раз в день. При
посещении страниц Scooter отдает предпочтение тем, которые из­
меняются наиболее часто. Страница, не меняющаяся в течение ме­
сяца, будет просматриваться реже, чем страница, оказывающаяся
обновленной при каждом ее просмотре программой-роботом.
AltaVista поддерживает полный булев поиск, поиск по фразам.
Результаты ранжируются по релевантности. Приоритет отдается:
• документам, содержащим искомые термины в числе первых
нескольких слов;
128
• документамцшиирмины находятся близко друг от друга;
• документам, содержащим несколько вхождений терминов.
Результаты вИИИ*вЛ* : л ю ч а ю т в с е ^ я заголовок, аннотацию
документа, его м$Ё1ИИИР*гУ последней модификации.

<< Пред. стр.

стр. 14
(общее количество: 18)

ОГЛАВЛЕНИЕ

След. стр. >>