Старт в науке. Информационный поиск

Как уметь читать, писать или публично выступать, сегодня в условиях информационного общества умение грамотно осуществлять профессиональный поиск - непреложный навык специалиста-интеллектуала.
Быстрый рост и динамическое развитие информационных ресурсов (прежде всего представленных в сети Интернет) обязывает каждого иметь разнообразные навыки сложного поиска. Уметь быстро и правильно искать в Интернете значит экономить время, владеть достоверной и актуальной информацией, а значит делать верные выводы и принимать правильные решения.
Информационная эвристика призвана помочь специалисту достаточно быстро провести избирательный и эффективный поиск при решении конкретных интеллектуальных задач.

Проблема поиска и использования информации - одна из самых актуальных в современной науке. Разумеется, для эффективного и качественно поиска информации Интернет незаменим. Однако сам факт хранения в Интернете огромного пласта знаний человечества не является свидетельством высокой эффективности поиска и использования информации. Пусть даже информация выдается и в удобной форме, но осваивать ее в конечном итоге приходится человеку. И от того, насколько он владеет методами и методикой поиска, будет зависеть эффективность и качество его труда.
Следовательно, в основе использования информации лежит проблема поиска и преобразования ее в такие содержание и форму, которые создают возможность более удобного и оперативного освоения информации и ее эффективного использования в общественной деятельности.
В связи с этим цель данной работы - исследование особенностей развития и распространения информации, рассмотрение основных целей и методов информационного поиска, анализ правил построения стратегии поиска и формулирования поискового запроса.

Эвристика в общем понимании - это искусство и наука открытия и творческого поиска в сложной предметной области.
При этом эвристика имеет множество значений.
Так, эвристика - это система обучения, способствующая развитию у обучаемых находчивости, умения самостоятельно добывать знания, познавательной активности, потребности в знаниях.
Также эвристика - наука о закономерностях и методах открытия и изучения нового в творческой и познавательной деятельности человека; психология творчества.
Под эвристикой понимается методология разрешения проблем, использующая метод проб и ошибок, а также результаты эксперимента для нахождения прямого пути к решению.
Эвристика - это специальные методы решения задач (эвристические методы), которые обычно противопоставляются формальным методам решения, опирающимся на точные математические модели. Использование эвристических методов (эвристик) сокращает время решения задачи по сравнению с методом полного ненаправленного перебора возможных альтернатив; получаемые решения не являются, как правило, наилучшими, а относятся лишь к множеству допустимых решений.
Эвристика - совокупность присущих человеку механизмов, с помощью которых порождаются процедуры, направленные на решение творческой задач (например, механизмы установления ситуативных отношений в проблемной ситуации, отсечения неперспективных ветвей в дереве вариантов, формирования опровержений с. помощью контрпримеров и т.п.). Эти механизмы, в совокупности определяющие метатеорию решения творческих задач, универсальны по своему характеру и не зависят от конкретной решаемой проблемы.
Эвристика - наука, изучающая эвристическую деятельность; специальный раздел науки о мышлении. Ее основной объект - творческая деятельность; важнейшие проблемы - задачи, связанные с моделями принятия решений (в условиях нестандартных проблемных ситуаций), поиска нового для субъекта или общества, структурирования описаний внешнего мира (на основе классификаций типа периодической системы или систематики К.Линнея). Эвристика как наука развивается на стыке психологии, теории искусственного интеллекта, структурной лингвистики, теории информации.
Таким образом, центральное слово эвристики - это поиск (информации).
Несомненно, что разработка методов получения и использования разнообразной социальной информации традиционно составляет центральную проблему научной организации труда специалиста.
Для принятия решения в каждой конкретной ситуации специалисту необходимо получить возможно более полную и актуальную информацию, относящуюся к данному случаю.
Выбор источников информации, стратегий ее поиска, способов проверки достоверности и соответствия уже имеющимся сведениям, методы оценки полезности найденной информации для разрешения проблем - все эти факторы являются характеристиками информационного поведения человека.
Критериями информационной культуры человека можно считать его умение адекватно формулировать свою потребность в информации во всей совокупности информационных ресурсов, перерабатывать информацию и создавать качественно новую, вести индивидуальные информационно-поисковые системы, адекватно отбирать и оценивать информацию.
Интернет открыл доступ ко многим информационным ресурсам, получить которые другим способом в настоящее время невозможно для читателей российских библиотек. Объединяя локальные, национальные и глобальные сети, он стал громадным информационным ресурсом, наиболее динамичным из всех существующих в настоящее время.
Весьма важной чертой Интернета является то, что пользователь не просто получает доступ к информации, но и сам производит ее. К тому же поиск информации в новых условиях и в новой информационной среде предоставляется самому специалисту.
В связи с этим можно выделить два положительных момента:
- увеличивается вероятность выявления полезной по существу, но не соответствующей строго формально запросу информации. В отличие от посредника специалист не вынужден жестко придерживаться формулировки запроса. Он сам ведет диалог с поисковой системой, меняя тактику поиска в зависимости от полученных результатов;
- формируются основы научного мышления, навыки научно-исследовательской работы. Специалист учится ориентироваться в сетевом пространстве, отбирать из большого количества документов то, что действительно необходимо и, наконец, варьировать свой запрос в зависимости от анализа уже выявленных документов.
Тем не менее, пользователи часто не ощущают удовлетворения от результатов поиска в новой информационной среде. Обычно это происходит по следующим причинам:
- как правило, пользователи в качестве инструмента поиска используют либо поисковые машины (AltaVista, HotBot), либо каталоги ресурсов (Yahoo). Несмотря на ряд достоинств, вышеупомянутые поисковые системы не обеспечивают научный контроль качества (то есть процесс включения информации в БД этих поисковых систем не находится под контролем специалистов-предметников), что может привести к получению в результате поиска недостоверной информации;
- отсутствие знаний и навыков по составлению запроса к поисковой системе приводит к получению большого количества информационного шума;
- пользователь часто не осознает тот факт, что, несмотря на то, что информация существует в интернете, она находится вне поля зрения поисковых машин. Отсутствие элементарных знаний по проведению поиска приводит к снижению полноты получаемой информации.
Таким образом, можно утверждать, что в Интернете есть больше возможностей, нежели используется в настоящий момент. И, следовательно, проблема заключается не в недостаточности качественной информации в Интернете, а в неумении специалиста ее найти.
В рамках библиографоведения накоплен, теоретически и методически обобщен большой исторический опыт поиска и использования информационных источников. Именно в библиографоведении сформировалась и ныне целенаправленно развивается специальная научная дисциплина - библиографическая эвристика.
Библиографическая эвристика - одна из важнейших и активно развивающихся частей общей науки о библиографии, библиографоведении. В современных условиях ускорения и усложнения информационных процессов в обществе ей уделяется особое внимание.
Под библиографической эвристикой понимается библиографоведческая дисциплина, разрабатывающая историю, теорию и методику информационного поиска.
Категория «информация» при этом включает в себя и понятие «библиографическая информация», которая является одной из важнейших ее составляющих. Это объясняется той функциональной ролью, то есть той социальной задачей, которую решает общество посредством библиографической информации в процессе производства, распространения и использования социальной информации, знания.
Объективный характер существования и использования такой информации и предопределяет самые различные задачи ее поиска. В целом же все реальное многообразие таких задач можно свести к трем основным целям информационного поиска:
- поиск необходимых сведений об источнике и установление его наличия в системе других источников. Ведется путем разыскания библиографической информации и библиографических пособий (информационных изданий), специально создаваемых для более эффективного поиска и использования информации (литературы, книги);
- поиск самих информационных источников (документов и изданий), в которых есть или может содержаться нужная информация;
- поиск фактических сведений, содержащихся в литературе, книге, например, об исторических фактах и событиях, о технических характеристиках машин и процессов, о свойствах веществ и материалов, о биографических данных из жизни и деятельности писателя, ученого и т.п.
Эти цели определяют и три основных вида информационного поиска: библиографический, документальный и фактографический, которые тесно взаимосвязаны между собой.
Например, чтобы найти информационный источник (документ или издание), надо знать определенную совокупность библиографической информации (фактов), характеризующей его, отличающей его от многих других: хотя бы от написанных тем же автором, на одну и ту же тему, выпущенных тем же издательством, в одном и том же году и т.д. Следовательно, нужно сначала проделать библиографический поиск. И, наоборот, чтобы провести фактографический поиск в какой-либо отрасли знаний или практики требуется сначала найти те литературные источники (документы, издания), в которых могут быть интересующие нас факты. Поэтому сначала надо провести библиографический и документальный поиск.
Осуществлять поиск и использовать мощные потоки информации становится все труднее.
И для этого библиографическая эвристика имеет ряд методов поиска информации: сплошной, выборочный, интуитивный, типологический («рецептурный»), индуктивный, дедуктивный, метод библиографических ссылок, метод восхождения от абстрактного к конкретному.
Рассмотрим их вкратце.
Итак, сплошной метод. Это обследование сплошь и без пропусков все наличие имеющихся пособий и источников. Очевидно, что в современных условиях этот прием трудно реализуем даже для узкой темы. Поэтому часто он рассматривается только в качестве чисто теоретического.
Выборочный метод - более рациональный и реальный путь поиска информации, который сводится к подбору и изучению определенной совокупности источников.
Интуитивный метод. Под ним понимается умение найти нужный материал посредством библиографического чутья, продолжительного опыта.
Типологический, или рецептурный метода, когда использование задач информационного поиска позволяет для каждого конкретного информационного поиска намечать определенный путь и документальные средства (пособия, источники) решения, то есть дать своего рода модель, рецепт решения этой поисковой задачи. Так, оптимальной типовой моделью для разработки различных «рецептов» информационного поиска является библиографическое описание.
Индуктивный метод информационного поиска. Процесс познания с использованием индукции совершается от единичных суждений и фактов к общим правилам и обобщениям, в которых выражается общая закономерность.
Дедуктивный метод информационного поиска. Обратная картина сложится, если мы будем осуществлять поиск дедуктивным методом. Такая направленность мысли может иметь место при исследовании определенной области явлений, создании развернутой научной теории и т.п.
Метод информационного поиска по библиографическим ссылкам. Возможность его использования заключается и в самом характере литературы, состоящей из определенной взаимосвязи фактов, произведений, документов и изданий. Каждое новое литературное произведение - это в известной степени анализ, оценка и обобщение социальной информации, уже имеющейся в литературе. Специфической формой отражения указанной взаимосвязи, преемственности литературного развития и является библиографическая ссылка (сноска).
Изложенные методы позволяют найти необходимую информацию в традиционной информационной среде.
Однако в наше время не менее, а где-то и гораздо более, важны методы и методика поиска информации в новой информационной среде - Интернете.
Поиск информации может быть произведен по нескольким методам, значительно различающимся как по эффективности и качеству поиска, так и по типу извлекаемой информации.
Рассмотрим основные методы поиска информации в Интернете, используемые по отдельности или в комбинации друг с другом.
Прежде всего, это использование поисковых машин. В настоящее время этот метод - один из основных и фактически единственный при проведении предварительного поиска. В результате поиска появится список ресурсов Интернета, который требуется детально рассмотреть.
Применение поисковых машин основано на использовании ключевых слов, передающихся поисковым серверам в качестве аргументов поиска.
В качестве методов рассматривается и непосредственный поиск с использование гипертекстовых ссылок. Так как все сайты в пространстве Всемирной паутины фактически связаны между собой, то поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью броузера.
На первый взгляд, этот полностью ручной метод поиска выглядит полным анахронизмом, в то же время этот способ Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое исследование уступает место более глубокому анализу.
При этом, использование каталогов, классифицированных и тематических списков и всевозможных справочников также относится к этому виду поиска.
Поиск с применением специальных средств - это полностью автоматизированный метод, весьма эффективный для проведения первичного поиска.
Сущность этого метода заключается в применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию.
То есть, можно говорить об автоматизированном варианте просмотра с помощью гипертекстовых ссылок (поисковые машины используют похожие методы).
Этот метод является особо эффективным в том случае, если использование поисковых машин не дает необходимых результатов в силу нестандартности запроса, либо других причин.
Еще один метод - анализ новых ресурсов, поиск по которым может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации либо для анализа тенденций развития объекта исследования в динамике.
Еще одна причина такого поиска заключается в том, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и это упущение обычно тем больше, чем менее популярна интересующая тема. Такое соображение является весьма существенным при проведении поиска в узкоспециальной предметной области.
Очевидно, что поиск информации в Интернете более рассматривается как процесс решения поисковой задачи, стоящей перед пользователем, а не как просто нахождение релевантной запросу информации.
Основными этапами методики поиска являются:
- формулировка и уточнение информационного запроса. На этом этапе идет целенаправленное ограничение и конкретизация общей цели поиска;
- планирование поисковой процедуры. Основная цель данного процесса - определение путей и способов рационального решения поисковой задачи. Этот этап включает в себя разработку поисковых стратегий, предусматривающих выполнение выявленных наборов требований;
- реализация поиска. Окончательное решение поисковой задачи.
Методика поиска информации включает несколько этапов.
Первым этапом является формулировка и уточнение информационного запроса. Этот этап традиционно играет ведущую роль. От того, насколько верно сформулирован запрос, будет зависеть последующий выбор информационных ресурсов. «Уточнение запроса» в библиотечной практике представляет собой ряд критериев или вопросов, необходимых для уточнения потребности пользователя в информации. В ходе интервью выясняется тип источника, в котором будет проводиться поиск, содержание темы, глубина ретроспективного поиска. На данном этапе целесообразно осуществить:
- формулирование запроса на естественном языке;
- определение типа информационной потребности;
- определение цели поиска информации;
- определение необходимых ограничений поиска;
- окончательную формулировку информационного запроса.
Цель 1-го шага - формирование представления об искомой информации. Для того чтобы получить это представление, обладателю информационной потребности необходимо как можно более точно выразить ее на естественном языке.
Даже достаточно грубое представление о типе информационной потребности позволяет уточнить обуславливаемые ею требования, которые следует учитывать при поиске. Традиционно различают два типа информационных потребностей: 1) когда наилучшей метаинформацией (информацией об информации) признается та, которая наиболее полно и точно описывает конкретную информационную потребность данного потребителя и позволяет получить точный ответ; 2) когда границы определены нечетко, а также с течением времени могут изменяться.
Процессы информационного поиска, с помощью которых удовлетворяются информационные потребности разных типов, в целом отличаются друг от друга, в связи с чем можно говорить о разных видах информационного поиска. Об информационном поиске, удовлетворяющем информационные потребности первого типа, говорят как о фактографическом. Об информационном поиске, удовлетворяющем потребности второго типа, - как о документальном. Однако часто, чтобы найти некоторые факты в интернете, необходимо сначала провести поиск документов (Web-страниц), содержащих эти факты. В этом случае можно говорить о документально-фактографическом поиске.
Следующий шаг - определение цели поиска информации, которое позволяет выявить степень требуемой полноты информации, что также оказывает влияние на выбор поисковых систем. Противоположными друг другу целями поиска информации традиционно являются:
- предварительное знакомство с проблемой;
- тщательное изучение проблемы.
Как правило, обычная цель поиска информации лежит где-то между этими двумя крайностями, то есть пользователю требуется некоторое количество информации, но абсолютная полнота сведений ему не нужна.
К числу основных ограничений традиционно относят: ограничения по видам изданий, языкам публикаций, по географическим и хронологическим рамкам поиска. Поэтому необходимо четко выяснить:
- информация из каких источников интересует пользователя (статьи, монографии, материалы конференций, другое);
- на каком языке;
- каковы географические рамки поиска;
- каковы хронологические рамки поиска.
Для окончательной формулировки информационного запроса необходимо провести всесторонний лексический анализ информации, подлежащей поиску. Необходимо получить из какого-либо источника прецедент подробного и грамотного описания исследуемого вопроса. Таким источником может стать как узкоспециальный справочник, так и энциклопедия общего профиля. На основе изученного материала необходимо сформулировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики и клише, при необходимости на нескольких языках.
Основная цель этапа планирования поисковой процедуры - определение путей и способов рационального решения поисковой задачи. Он включает в себя разработку общей программы поиска. Параллельно осуществляется выбор и оценка качества поисковых систем, проводится поиск недостающей информации.
На этом этапе речь идет о следующих шагах:
- выбор и оценка качества поисковых систем;
- разработка общей программы поиска.
Отбор и оценку качества поисковых систем необходимо проводить с точки зрения их соответствия реальной информационной потребности и специфике запроса. Каждый пользователь имеет специфические требования, оказывающие влияние на выбор поисковой системы, ее содержания и возможностей. При выборе поисковой системы необходимо обращать внимание на следующие параметры: объем индекса поисковой системы, контроль качества содержащейся в ней информации, возможности языков запросов.
Разработка общей программы поиска заключается в определении объектов, методов и возможных направлений (маршрутов) поиска на основе выявленных ограничений поиска (тематических, хронологических, языковых, географических), а также степени полноты поиска.
Тактика и средства поиска могут существенно различаться в зависимости не только от тематики, но и от других параметров запроса. Здесь следует руководствоваться рядом общих методических рекомендаций.
Так, например, характер поиска всецело определяется содержанием поставленной пользователем поисковой задачи. И в этом отношении важно различать, что сначала поиск как бы привязан к теме и к цели детальной, всесторонней разработки ее плана, когда особенно необходим широкий охват источников информации.
Следовательно, сначала в большей мере идет поиск информационных ресурсов (то есть совокупностей документов). И лишь затем информационный поиск конкретизируется, ограничивается непосредственным содержанием решаемой поисковой задачи. На этом этапе преобладает уже поиск самих документов.
Разумеется, на протяжении всего процесса поиска следует сочетать различные виды и методы поиска в двух основных направлениях: c одной стороны, от общих классификационных поисковых систем к предметно-ориентированным указателям ресурсов, далее к конкретным документам и содержащимся в них фактам; c другой - от уникальных слов и фраз запроса к предметно-ориентированным указателям ресурсов и/или к конкретным документам.
Цель последнего этапа - окончательное решение поисковой задачи. Он также включает в себя создание инструментов, необходимых для ее решения.
На этом этапе необходимо выполнить следующие шаги:
- отбор совокупности информационных ресурсов по теме поиска;
- проведение поиска в информационных ресурсах;
- оценка полноты информации;
- расширение круга информационных ресурсов.
На этапе отбора совокупности информационных ресурсов по теме поиска проводится поиск в отобранной на этапе планирования совокупности поисковых систем. Поиск можно проводить как от частного к общему, так и от общего к частному. В результате формируется список информационных ресурсов, в которых может содержаться информация по вопросу.
Список информационных ресурсов намечается таким образом, чтобы ресурсы, дополняя друг друга, максимально охватывали информацию по данной теме в соответствии с заранее намеченными ограничениями поиска. Если их круг слишком узок, результаты поиска могут оказаться неудовлетворительными, а если слишком широк - возрастает трудоемкость поиска.
На этом этапе необходимо четко определить, что известно об искомой информации и что неизвестно, но необходимо выяснить. Например, может быть известно название интересующего информационного центра, но неизвестен его URL. Таким образом, необходимо сформировать список запросов для поиска недостающей информации. Этот список формируется на основе выявленных ключевых слов и имеющейся информации о ресурсах.
Поиск недостающих звеньев описания ресурса (метаданных) рекомендуется проводить с помощью поисковых и метапоисковых машин. Однако, если ничего не известно об искомых ресурсах, целесообразно обращаться к классификационным поисковым системам или же к специализированным словарным поисковым системам. В случае, если пользователь не является специалистом в данной области, ему следует обращаться к классификационным поисковым системам с научным контролем качества (информационным шлюзам).
При проведении поиска рекомендуется использовать следующие методы: метод догадки, метод поиска от общего к частному, метод поиска от частного к общему. Метод догадки заключается в том, что после можно попытаться написать название искомой организации или ее аббревиатуру. Метод поиска от общего к частному обычно используется при проведении поиска в классификационных поисковых системах. Поскольку поиск в них проводится только по предметным категориям и описаниям ресурсов, то целесообразно изначально максимально расширить запрос. Метод поиска от частного к общему обычно используется при проведении поиска в словарных поисковых системах.
В результате формируется список информационных ресурсов. Данный шаг позволяет создать персональную информационную систему, направленную на решение конкретной задачи поиска.
При проведении поиска документов необходимо иметь возможность как сузить, так и расширить запрос. Как правило, поиск действительно нужной пользователю информации представляет собой состоящую из ряда шагов деятельность, в процессе которой пользователь формулирует некоторые запросы, анализирует полученную выборку (результат выполнения запроса), на основании анализа уточняет свое понимание структуры базы данных и возможностей поискового аппарата информационной системы, свои информационные потребности и формулирует новый запрос (уточняет старый). И снова чередует шаги выборки и анализа, постепенно уточняя запрос и продвигаясь к цели.
Традиционно различают две базовые стратегии поиска: отраслевой поиск и предметный. Они отражают две противоположные тенденции во взаимоотношении между науками и отраслями знания: дифференциацию наук и их интеграцию. Стратегия отраслевого поиска осуществляется от общего к частному путем просмотра иерархических классификаторов, а предметного - от частного к общему путем выборки данных по значениям дескрипторов, ключевых слов (то есть данные рассматриваются с точки зрения их «предметных» свойств).
Выбор той или иной поисковой стратегии зависит от конкретной задачи поиска. Например, при прочих равных условиях поиск по ключевым словам тем предпочтительнее поиску по классификатору, чем более конкретный характер имеет запрос. Как и при поиске информационных ресурсов, при поиске документов необходимо учитывать возможности языков запросов, предлагаемые различными СУБД.
Выявив часть документов путем проведения поиска в первичном круге информационных ресурсов, целесообразно провести просмотр и оценку полноты полученной информации.
Далеко не всегда пользователю нужна вся информация по заявленной теме. Часто ему достаточно лишь нескольких авторитетных источников.
На этом этапе формируется список документов и проводится проверка на дублетность. Однако в том случае, если полнота полученной информации недостаточна, следует провести дополнительный поиск информационных ресурсов.
При проведении поиска информации в интернете, в котором полнота играет важную роль, необходимо помнить, что ни одна поисковая система не индексирует всего, что есть в интернете.
Расширить список информационных ресурсов можно следующими путями:
- провести поиск в зарубежных метапоисковых системах с целью выявления баз данных, посвященных конкретно тематике поиска;
- провести поиск по гипертекстовым ссылкам, двигаясь от уже найденных документов;
- провести поиск баз данных, опираясь на структуру URL уже найденных документов.
Использование исследованных методов позволяет пользователю самостоятельно проводить поиск информации в новой информационной среде. Она дает возможность не только улучшить качество получаемой в результате поиска информации, но и повысить ее полноту.
И в завершение работы хотелось еще бы обратить внимание на некоторые советы участников Кубка России по поиску в Интернете:
1. Постарайтесь понять смысл вопроса. Возможно, ответ вам уже известен. Чтобы найти правильный адрес страницы, ищите одновременно ключевые слова из вопроса и известный вам ответ.
2. Число документов, полученных в результате поиска, может быть огромно. Поэтому решающее значение для оптимального поиска информации имеет правильный набор ключевых слов.
3. Проверяйте орфографию в написании слова. Используйте синонимы, если список найденных страниц слишком мал.
4. Ищите больше, чем по одному слову. Максимально сужайте предмет поиска.
5. Используйте настройки поиска в поисковых системах, чтобы задать удобные параметры описания документов и структуру страницы с результатами поиска.

easyschool.ru/sosh/Sovremennye_metody_poiska_informacii.doc

Лекция 3

Web-технология World Wide Web (WWW) считается специальной технологией подготовки и размещения документов в сети Интернет. В состав WWW входят и web-страницы, и электронные библиотеки, каталоги, и даже виртуальные музеи! Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поисковые системы), тематические Интернет-каталоги, системы мета-поиска, службы поиска людей и т.д.).

Поиск информации в Интернете осуществляется с помощью специальных программ, обрабатывающих запросы - информационно-поисковых систем (ИПС) . Существует несколько моделей, на которых основана работа поисковых систем, но исторически две модели приобрели наибольшую популярность - это поисковые каталоги и поисковые указатели .

Поисковые каталоги устроены по тому же принципу, что и тематические каталоги крупных библиотек. Они обычно представляют собой иерархические гипертекстовые меню с пунктами и подпунктами, определяющими тематику сайтов, адреса которых содержатся в данном каталоге, с постепенным, от уровня к уровню, уточнением темы. Поисковые каталоги создаются вручную . Высококвалифицированные редакторы лично просматривают информационное пространство WWW, отбирают то, что по их мнению представляет общественный интерес, и заносят в каталог.

Основной проблемой поисковых каталогов является чрезвычайно низкий коэффициент охвата ресурсов WWW. Чтобы многократно увеличить коэффициент охвата ресурсов Web, из процесса наполнения базы данных поисковой системы необходимо исключить человеческий фактор - работа должна быть автоматизирована.

Автоматическую каталогизацию Web-ресурсов и удовлетворение запросов клиентов выполняют поисковые указатели . Работу поискового указателя можно условно разделить на три этапа:

· сбор первичной базы данных. Для сканирования информационного пространства WWW используются специальные агентские программы - черви, задача которых состоит в поиске неизвестных ресурсов и регистрация их в базе данных;

· индексация базы данных - первичная обработка с целью оптимизации поиска. На этапе индексации создаются специализированные документы - собственно поисковые указатели;

· рафинирование результирующего списка. На этом этапе создается список ссылок, который будет передан пользователю в качестве результирующего. Рафинирование результирующего списка заключается в фильтрации и ранжировании результатов поиска.

Под фильтрацией понимается отсев ссылок, которые нецелесообразно выдавать пользователю (например, проверяется наличие дубликатов). Ранжирование заключается в создании специального порядка представления результирующего списка (по количеству ключевых слов, сопутствующих слов и др.).

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска – релевантность.

Релевантность – это соответствие результатов поиска сформулированному запросу.

Федеральное агентство по образованию

Смоленский государственный университет

Технологии поиска информации в сети Интернет.

Смоленск


Введение………………………………………………………………………….. 1.Классификация поисковых систем …………………………………………... 2.Приемы поиска……………………………………………………………….... 2.1.Простой поиск……………………………………………………………….. 2.2.Расширенный поиск…………………………………………………………. 3.Тематический каталог Yahoo.………………………………………………… 4.Автоматический индекс Alta Vista…………………………………………… 5.Поиск информации в конференциях (Usenet)……………………………….. 6.Отечественные поисковые службы ………………………………………….. 6.1.Rambler………………………………………………………………………. 6.2.Яндекс…………………………………………………………………………. 7.Поиск файлов ………………………………………………………………….. 8.Источники специализированной информации ……………………………… 9.Поиск отдельных людей в сети Internet ……………………………………... 10.Метапоиск…………………………………………………………………….. 11.Эффективный поиск информации…………………………………………...

Заключение……………………………………………………………………….

Литература………………………………………………………………………..
3 3 6 6 8 10 12 13 14 15 15 16 17 18 19 19 21 22

Введение

Любой, кто пытался когда-нибудь найти нужную информацию в Интернете, наверняка согласится с тем, что этот процесс похож на поиск иголки в стоге сена. Глобальная сеть Internet содержит огромный объем информации, который стремительно увеличивается с каждым днем. В силу этого часто оказывается, что задача нахождения необходимой информации в этом информационном океане является чрезвычайно сложной и нужно уметь эффективно использовать различные поисковые системы (программы поиска информации в сети). Необходимо учесть, что "поиск - это искусство".

1. Классификация поисковых систем

Существует много разных поисковых систем принадлежащих разным компаниям. Прежде всего, выделяют так называемые тематические каталоги (например, Yahoo) и автоматические индексы (например, AltaVista), хотя необходимо иметь ввиду, что целый ряд поисковых систем занимает некоторое промежуточное положение между этими двумя "полюсами", то есть они содержат в себе элементы обоих этих классов. Каждая из поисковых систем имеет свою обширную базу данных об адресах (местоположении) различных Web-документов, и поиск ссылок на необходимую нам информацию происходит, не в самих Web-документах, а именно в этой базе данных.

Тематические каталоги и автоматические индексы различаются, прежде всего, по тому, как формируются и пополняются их базы данных: принимают ли в этом процессе участие люди, или все происходит совершенно автоматически.

Базы данных тематических каталогов составляются и систематически пополняются экспертами в соответствующих областях на основании новых Web-документов, обнаруженных в Internet специальными поисковыми программами. Тематический каталог представляет пользователю Internet некоторую древовидную структуру категорий (разделов и подразделов), на верхнем уровне которой собраны самые общие понятия, такие как Наука, Искусство, Бизнес и т. п., а элементы самого нижнего уровня представляют собой ссылки на отдельные Web-страницы и серверы вместе с кратким описанием их содержимого. По этому иерархическому каталогу можно путешествовать, начиная с более общих категорий (понятий) к более узким, специализированным.

Например, для нахождения информации о состоянии научных исследований по теории суперструн можно спуститься вниз по следующей "лестнице" понятий:

Science (Наука)

Physics (Физика)

Theoretical Physics (Теоретическая физика)

Theories (Теории)

String Theories (Теорииструн)


В результате будет получен список сайтов, среди которых наибольший интерес представляет сайт Superstrings. Щелкнув мышью на гиперссылке Superstrings, мы попадаем на home page сайта, с соответствующим заголовком, на котором можно найти on-line учебник по теории суперструн, различные ссылки для дальнейшего чтения, глоссарий по суперструнам и т.д.

Главным достоинством тематических каталогов является большая ценность получаемой пользователем информации, что обеспечивается присутствием "человеческого фактора" в процессе анализа и сортировки новых Web-страниц. С другой стороны, тематические каталоги имеют существенный недостаток, связанный опять же с человеческим фактором, ибо из-за ограниченных возможностей человека их базы данных охватывают лишь небольшую часть всего информационного Web-пространства (менее 1 %). Таким образом, несмотря на всю полезность тематических каталогов, использование лишь поисковых систем этого вида часто оказывается явно недостаточным.

Сводная таблица избранных предметных каталогов

List.Ru Апорт Яндекс Rambler Yahoo! About
Общая характеристика 19 разделов верхнего уровня 14 разделов верхнего уровня 10 основных разделов, 7 комбинированных, дополнительная классификация 56 разделов 14 основных разделов 36 разделов
Сортировка ресурсов внутри раздела Алфавит, оценка гидов, популярность (посещаемость), дата Алфавит, посещаемость, лига, оценка числа ссылок на данный ресурс, мнение пользователей Алфавит, дата добавления, индекс цитируемости по посещаемости по алфавиту по оплаченности ссылок
Булевские операторы Используется язык поисковой машины Апорт Используется язык поисковой машины Яndex Используется язык поисковой машины Rambler Нет Нет
Поиск по фразе " " " "
Префиксы +, - +, -
Итеративный поиск (в результатах) Есть поиск внутри категории После входа щелкните More…
замена части слова * * (не всегда корректно)

В отличие от тематических каталогов, базы данных для автоматических индексов создаются и пополняются полностью автоматически некоторыми специальными, внутренними поисковыми программами-роботами, которые в круглосуточном режиме просматривают Internet-узлы (сайты) в поисках вновь появившихся Web-документов. Из каждого такого документа робот извлекает все содержащиеся в нем новые ссылки и добавляет их в свою базу адресов, в результате чего у программы-робота возникает возможность просмотра еще некоторого количества новых для него Web-документов. В каждом новом Web-документе робот анализирует все входящие в него слова и в разделе базы данных, соответствующем каждому данному слову, запоминается адрес (URL) документа, где это слово встретилось. Таким образом, база данных, создаваемая автоматическим индексом, фактически хранит сведения о том, в каких Web-документах содержаться те или иные слова. В отличие от тематических каталогов, автоматические индексы охватывают до 25 % общего Web-пространства.

Автоматический индекс имеет отдельную поисковую систему для обеспечения интерфейса с пользователем. Эта система может, просматривая базу данных, по заданному набору ключевых слов находить и выдавать на экран пользовательского компьютера адреса и краткую информацию обо всех Web-страницах, которые содержат данный набор ключевых слов. Таким образом, автоматический индекс состоит из трех частей: программы-робота, собираемой этим роботом базы данных и интерфейса для поиска в этой базе данных. Именно с последней составляющей и работает пользователь. В силу такой организации, автоматический индекс не делает какой-либо классификации или оценивания информации.

Интерфейс автоматических индексов позволяет пользователю задать некоторый набор ключевых слов, которые с его точки зрения, являются характерными для искомых им документов, и позволяют, таким образом, найти достаточно ограниченное число потенциально относящихся к делу Web-страниц. В качестве таковых слов могут быть использованы некоторые специфические термины и их комбинации, достаточно редкие фамилии и т. д.

Успех поиска нужной информации в значительной степени определяется именно удачным выбором ключевых слов, ибо в противном случае поисковая система может выдать многие тысячи и миллионы ссылок на не относящиеся к делу Web-документы.

Следует иметь ввиду, что начинающего пользователя подстерегает много разных неожиданностей, иногда доходящих до анекдотических ситуаций.

Если для автоматических индексов поиск по ключевым словам является единственным средством нахождения необходимой информации, то в тематических каталогах (например, в Yahoo!) это средство является альтернативным способом поиска наряду с путешествием по системе (дереву) вложенных друг в друга категорий.

Некоторой разновидностью поисковых служб являются рейтинговые службы. Они предоставляют клиенту готовый список некоторых ссылок, к которым обращались наиболее часто другие пользователи сети Internet. Когда речь идет о темах, имеющих общественный интерес, таких как новости, музыка и т. д., такие рекомендации, полученные статистическим методом, являются весьма удобными и полезными. Такие услуги, в частности, обеспечивает отечественная служба Rambler.

2. Приемы поиска

2.1. Простой поиск

Каждая поисковая система (ПС) предоставляет свои методы поиска и имеет свои особенности в правилах записи комбинаций ключевых слов. Однако есть общие элементы одинаково справедливые для большинства поисковых систем. Обычно все ПС допускают поиск Web-документов по ключевым словам, которые являются характерными для искомого документа. Выбор таких слов часто является нетривиальной задачей.

Решение задачи поиска документов в СЕД и технологиях электронного документооборота является крайне важной задачей. Помимо этого поиск информации в сети «Интернет», используемой в процессе управления, также является необходимой задачей, поэтому далее рассмотрим особенности построения поисковых машин.

Документальные системы: информационно-поисковый язык, система индексирования, технология обработки данных, поисковый аппарат, критерии оценки документальных систем

Функционирование современных ИПС основано на двух предположениях:

  • 1) документы, необходимые пользователю, объединены наличием некоторого признака или комбинации признаков;
  • 2) пользователь способен указать этот признак.

Оба эти предположения на практике не выполняются, и можно говорить только о вероятности их выполнения. Поэтому процесс поиска информации обычно представляет собой последовательность шагов, приводящих при посредстве системы к некоторому результату и позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.

Пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск. Оценить адекватность выражения запроса, как и полноту получаемого результата, он может, отыскав дополнительные сведения или так организовав процесс, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части. В то же время для поль- зователей-профессионалов характерна устойчивость тематического профиля. Когда они являются «информационно ориентированными», то им свойственно желание и способность организовать информационное пространство проблемы. Это означает, что пользователь создает по существу новый, «самостоятельный» проблемно ориентированный, индивидуально обновляемый и пополняемый ИР, включающий помимо подборок документов также и метаинформацию, например, словари специальной терминологии, классификаторы предметных областей, описания ресурсов и т.д.

Особенность работы пользователя в режиме «самообслуживания», в контексте задачи автоматизации совокупной деятельности означает, что система должна представлять среду, обеспечивающую поддержку функций потребителя по обработке найденной информации, а также традиционно относящихся к функциям информационного посредника (интерпретация запроса, его перевод на информационно-поисковый язык, выбор ИР, автоматизированный поиск и ручной отбор материалов), но также и такие «обеспечивающие» функции, как: структурирование информационной потребности, лексическая адаптация запроса, оценка, систематизация и обработка результатов поиска, причем на уровне как отдельного документа, так и информационных ресурсов в целом. Технические возможности, которыми располагает пользователь, позволяют ему создавать информационный ресурс - формировать массивы, систематизировать и создавать внешние представления их содержания для собственного или внешнего использования.

Автоматизированные ИПС (АИПС) используют компьютерные программно-технические средства и технологии и предназначаются для нахождения и выдачи пользователям информации по заданным критериям. Определяющими для понимания методов автоматизации поиска являются два следующих фактора:

  • 1) сравниваются не сами объекты, а описания - так называемые поисковые образы;
  • 2) сам процесс является сложным (составным и не одноактным) и обычно реализуется последовательностью операций.

Данные в АИПС вводятся на основе специально разрабатываемых форматов ввода. Все сведения об одном объекте в ИПС представляются в виде систематизированных данных, образующих одну строку таблицы и называются записью. При этом если И ПС представляет электронный каталог библиотеки, то любое библиографическое описание (БО) документа в нем - это одна запись, состоящая из полей, равных количеству элементов БО. Совокупность записей образует БД, которая, как правило, хранится в одном файле. Совокупность БД, объединенных одной СУБД, образует банк данных.

Поскольку АИПС инструмент, используемый человеком при поиске (а не интеллектуальный автомат для поиска информации - готовых решений задач основной деятельности), эффективность ее использования зависит от того, насколько хорошо человек знает природу операционных объектов и свойства инструмента, посредством которого он работает с этими объектами.

Информационный поиск подразумевает использование определенных стратегий, методов, механизмов и средств. Поведение пользователя, осуществляющего управление процессом поиска, определяется не только информационной потребностью, но и инструментальным разнообразием системы - технологиями и средствами, предоставляемыми системой.

Стратегия поиска - общий план (концепция, предпочтение, установка) поведения системы или пользователя для выражения и удовлетворения информационной потребности пользователя, обусловленный как характером цели и видом поиска, так и системными «стратегическими» решениями - архитектурой БД, методами и средствами поиска в конкретной АИПС. Выбор стратегии в общем случае является оптимизационной задачей. На практике в значительной степени он определяется искусством достижения компромисса между практическими потребностями и возможностями имеющихся средств.

Метод поиска - совокупность моделей и алгоритмов реализации отдельных технологических этапов: построения поискового образа запроса (ПОЗ), отбора документов (сопоставление поисковых образов запросов и документов), расширения и реформулирования запроса, локализации и оценки выдачи. Поисковый образ запроса - записанный на ИПЯ текст, выражающий смысловое содержание информационного запроса и содержащий указания, необходимые для наиболее эффективного осуществления информационного поиска. Методы поиска, т.е. выделение подмножества документов, потенциально содержащих описание решения задачи отбора документов (ОД), являются отражением процесса нахождения решения и зависят от характера задачи и предметной области. Сегодня активно используются и разрабатываются три модели поиска.

  • 1. Векторная модель. Самой первой моделью, которая присутствует сегодня во всех система, является векторная модель поиска. Ее изобрел Дж. Сэлтон в 60-х гг. Большинство машин работают по принципу наличия в релевантном документе всех терминов запроса, учета их встречаемости в документах и их средней языковой частотности. Эта модель используется при обработке запросов на естественном языке, особенно на поисковых страницах сайтов; она же применяется для поиска похожих документов.
  • 2. Булева модель. Активно используется булева модель поиска, которая позволяет вводить в запрос логические операторы, контекстные ограничения на расстояние между словами, строить разветвленные мощные запросы, использовать стоп-словарь и лексические шаблоны аналогично регулярным выражениям в скриптовых языках. Профессиональные системы в дополнение к перечисленным базовым моделям предоставляют поиск с использованием нечеткой булевой модели поиска, позволяющей поисковой машине доставлять документы, которые она считает релевантными, даже если некоторые «слабые» элементы запроса в них не встречаются.
  • 3. Поиск с использованием тезаурусов. Для семантического поиска широко используются тезаурусы, за счет которых происходит расширение запроса. Например, при поиске документов по автотранспортным происшествиям запрос «ДТП» имеет фактор расширения 1:150, т.е. из одной лексемы системой фактически генерируется 150 лексем для сервера поиска. Активное использование тезаурусов русского языка сдерживается сегодня отсутствием актуальных словарей синонимов.

Рассматривая поиск как итеративный процесс, методы сокращения пространства перебора (просматриваемого подмножества) образуют по существу методологическую основу стратегии поиска и могут быть разделены на следующие классы - методы поиска в:

  • 1) одном пространстве (обычно тематическом);
  • 2) иерархически упорядоченном пространстве;
  • 3) альтернативных пространствах;
  • 4) динамическом (изменяющемся в процессе поиска) пространстве.

Реализуемый метод построения ПОЗа должен обеспечивать эффективные способы построения запроса для достижения целей различного типа. Механизмы поиска - совокупность реализованных в системе моделей и алгоритмов процесса формирования выдачи документов в ответ на поисковый запрос. Средства поиска, с одной стороны, взаимозависимый комплекс информационно-поисковых языков (ИПЯ) и языков определения (управления) данными, обеспечивающий структурные и семантические преобразования объектов обработки (документов, словарей, совокупностей результатов поиска), а с другой - объекты пользовательского интерфейса, обеспечивающие управление последовательностью выбора операционных объектов конкретной АИ ПС.

Поисковые технологии - унифицированные (оптимизированные в рамках конкретной АИПС) последовательности эффективного использования отдельных средств поиска в процессе взаимодействия пользователя с системой для устойчивого получения конечного и промежуточных результатов. Навигация как реализация процесса поиска по запросу в выбранной БД - целенаправленная, определяемая стратегией последовательность использования методов, средств и технологий конкретной АИПС для получения и оценки результата.

Средства навигации позволяют пользователю осуществлять управление процессом поиска. Они предоставляются пользователю в виде интерфейса, позволяющего организовать более или менее эффективный процесс взаимодействия с БД. При этом «дружественность» интерфейса характеризуется не только эргономичностью и понятностью, но и вариантностью выбора операционных объектов.

Процесс поиска информации представляет последовательность шагов, приводящих при посредстве системы к некоторому результату и позволяющих оценить его полноту. Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, основываясь лишь на внешних оценках или на промежуточных результатах и обобщениях, сопоставляя их, например, с предыдущими.

Процесс поиска можно представить в виде следующих основных компонент (рис. 4.1):

  • ? формулирование запроса на естественном языке, выбор поисковых системы и сервисов, формализация запроса на соответствующем ИПЯ;
  • ? проведение поиска в одной или нескольких поисковых системах;
  • ? обзор полученных результатов (ссылок);
  • ? предварительная обработка полученных результатов: просмотр содержания ссылок, извлечение и сохранение релевантных и пертинентных данных;
  • ? при необходимости модификация запроса и проведение повторного (уточняющего) поиска с последующей обработкой полученных результатов.

Для уменьшения объема отобранных материалов осуществляют фильтрацию результатов поиска по типу источников (сайтов, порталов), те-

Рис.

матике и другим основаниям. По используемым поисковым технологиям ИС можно разбить на 4 категории.

  • 1. Тематические каталоги.
  • 2. Специализированные каталоги (онлайновые справочники).
  • 3. Поисковые машины (полнотекстовый поиск).
  • 4. Средства метапоиска.

В Интернете ИПС размещается на одном или нескольких серверах. В ИПС собирается, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой системой группе веб-серверов. В документах индексируются все значащие слова или только слова из заголовков. Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически это индексирование на основе классификации. Индексирование может проводиться автоматически или вручную с помощью специалистов, просматривающих популярные вебузлы и составляющих краткое описание документов-резюме (ключевые слова, аннотация, реферат).

Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т.п. Поисковые машины (самое развитое средство поиска в Интернете) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов. Например, в индексе популярной ИПС AltaVista более 56 млн URL-адресов.

При использовании средств метапоиска запрос осуществляется одновременно несколькими поисковыми системами. Результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, что позволяет расширить базу поиска. К подобному классу можно отнести и «персональные программы поиска», позволяющие формировать свои собственные инструменты метапоиска (например, автоматически опрашивать часто посещаемые узлы).

Базы информационных данных могут содержать практически любые виды информации, в том числе в любой комбинации. Информационный поиск осуществляется как по существующим в полнотекстовых ЭИР терминам, так и по специальным элементам, входящим в состав ИПЯ. Для формирования запросов используются специальные информационно-поисковые языки.

ИПС внутри найденной выборки обычно пытаются расположить документы в порядке их «релевантности», т.е. близости к введенному пользователем запросу. Критериев такой близости много и выявление близких «по смыслу» к запросу документов не решает проблемы получения информации при отсутствии релевантного документа. Подобная ситуация достаточно тривиальна, в том числе и потому, что пользователь зачастую ищет документ, который сам собирается написать. Следует отметить, что в результате проведенного поиска пользователь может получить как релевантные, пертинентные, так и нерелевантные и непертинентные подмассивы данных.

ИПС фактически являются системами информационного обеспечения и представляют собой базы и банки данных. В качестве объекта в них выступает индивид, организация, отрасль, регион и т.п. Субъектом информационного обеспечения является специалист-информатик, любой потребитель информации.

Предлагается процедуру поиска необходимой информации разделить на девять основных этапов.

  • 1. Определение области знаний.
  • 2. Выбор типа и источников данных.
  • 3. Сбор материалов, необходимых для наполнения информационной модели.
  • 4. Отбор наиболее полезной информации.
  • 5. Выбор метода обработки информации (классификация, кластеризация, регрессионный анализ и т.д.).
  • 6. Выбор алгоритма поиска закономерностей.
  • 7. Поиск закономерностей, формальных правил и структурных связей в собранной информации.
  • 8. Творческая интерпретация полученных результатов.
  • 9. Интеграция извлеченных «знаний».

Для проведения поиска первоначально на компьютере пользователя загружается интерфейс работы с соответствующей БД. Это может быть локальная или удаленная БД. Первоначально следует определиться с видом поиска (простой, расширенный и т.д.). Затем с набором предлагаемых для поиска полей. ИПС могут предложить для ввода одно или несколько полей. В последнем случае это обычно поля: автора, заглавия (названия), временного периода, вида документа, ключевых слов, рубрик и др. При формировании запроса практически все системы позволяют использовать логические элементы «И», «ИЛИ», «НЕТ».

Поисковые средства и технологии, используемые для реализации информационных потребностей, определяются типом и состоянием решаемой пользователем задачи основной деятельности: соотношением его знания и незнания об исследуемом объекте. Кроме того процесс взаимодействия пользователя с системой определяется уровнем знания пользователем содержания ресурса (полноты представления, достоверности источника и т.д.) и функциональных возможностей системы как инструмента. В целом эти факторы обычно сводятся к понятию «профессионализма» - информационного (подготовленный (неподготовленный) пользователь) и предметного (профессионал (непрофессионал) «профессионализма».

Процесс поиска информации обычно носит эмпирический характер. Он представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.

Обычно пользователь не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, поэтому оценить адекватность выражения запроса, как и полноту получаемого результата, он может, отыскав дополнительные сведения или организовав процесс так, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.

Операционными объектами, непосредственно участвующими во взаимодействии пользователей с поисковой системой, являются поисковый образ документа (ПОД) и ПОЗ, соответствие которых устанавливается поисковым механизмом АИПС на формальном уровне. Адекватность образа действительному содержанию документа определяется качеством процесса свертки информации и уровнем знания субъектом средств отражения - концептуальной схемы предметной области и возможностей ИПЯ. Поисковый образ документа - описание документа, выраженное средствами ИПЯ и характеризующее основное смысловое содержание или какие-либо другие признаки этого документа, необходимые для его поиска по запросу. Большинство ПС изначально предлагают пользователям либо БО, либо ссылки на полные или частичные документы, их описание и другое, хранящиеся в различных АИПС. Современные ПС позволяют определиться и указать, какой и в каком виде источник информации интересует пользователя.

По характеру преобразований (в контексте дальнейшего использования результатов обработки) методы обработки результатов поиска можно условно разделить на две группы.

  • 1. Структурно-форматные преобразования.
  • 2. Структурно-семантические преобразования (информационно-аналитические, логико-семантические).

Что обычно ищут в Интернете: персональные данные об индивидуумах и организациях; различные адресные данные; конкретные материалы (статьи, книги, фотографии, справочные данные, программное обеспечение и др.), в том числе место их хранения; где и сколько стоят те или иные материалы, услуги, продукты и т.п.; информационные сайты и порталы и др. Общепринята организация поиска по начальным фрагментам слова (поиск с усечением справа), например, вместо слова «библиотечный» можно ввести его фрагмент «библиоте*». При этом будут найдены документы, в которых содержится не только слово «библиотечный», но и «библиотека», «библиотекарь», «библиотековедение» и др. В каждом случае пользователь должен представлять, что именно он хочет найти, так как в предложенном ему варианте будет найдено гораздо большее количество документов, чем при задании данного слова полностью (без усечения). В подобном случае возможно в полученном массиве информации провести уточняющий поиск и в результате получить более релевантные и пертинентные данные.

С точки зрения ИПС результат поиска в ней есть совокупность (подмножество) найденных документов или ссылок на них. Обычно он представляется пользователю в виде списка. То есть простейшей выходной формой в данном случае будет список ссылок в виде полных или частичных БО, найденных ИР. Такой список может быть тут же распечатан или послан на какой-либо адрес электронной почты, если такая возможность предоставляется ИПС и пользователь подключен к Интернету.

Графические и полнотекстовые ЭИР могут предлагаться пользователю только для просмотра, для копирования в различных форматах и масштабах, причем полностью или частично. Графические ИР обычно существуют в общепринятых форматах типа: JPG, GIFF, TIFF, BMP и др., а для текстовых материалов обычно используют текстовые форматы TXT, DOC и др., HTML и PDF - фактически графический формат, в котором могут сохраняться как текстовые, так и графические данные. Полученные в результате поиска документы сохраняют.

Критерием результата поиска является получение пользователем списка документов, одного документа или их частей, максимально удовлетворяющего его потребностям, сформулированным в поисковом запросе. В ИПС принято формировать список полученных в результате поиска документов по их релевантности. Различают критерии смыслового и формального соответствия между поисковым предписанием и выдаваемым документом. Полнота и точность поиска являются взаимосвязанными показателями. Увеличение одного из них ведет к снижению другого. В современных ИПС при сбалансированном поиске их значения составляет примерно 70%. Следует учитывать ситуацию, при которой список выданных поисковой системой ссылок содержит несколько, а порой и десятки разных адресов с одним и тем же текстом. Подобные ссылки характеризуются как дубликаты. Из них при подсчете коэффициентов учитывается только один документ.

Учитывая, что идеальный результат поиска должен удовлетворять требованиям единственности, полноты и непротиворечивости, получаем, что различные виды поиска определяют различные требования к функциональным возможностям системы в части оценивания результата. Однако для случая предметного поиска доказательство полноты является тривиальным: непустой результат поиска подтверждает факт существования (или отсутствия) объекта, обладающего искомыми свойствами. При этом результат тематического поиска множественен и требует последующей систематизации - еще одного процедурного шага для упорядочения полученного множества объектов по значениям не определенного явно основания. В свою очередь проблемный поиск предполагает уже двухуровневую систематизацию.

Развитие процесса поиска осуществляется путем модификации выражения ПОЗ, путем реформулирования запроса и проведения повторного поиска в том же массиве данных или в подмассиве, полученном в результате осуществления первоначального поиска. Интерфейсные средства обработки результата и развития поиска используют два типа операционных объектов - отдельные документы или коллекции документов.

Для получения информации в среде Интернета создаются специальные поисковые системы. Как правило, они общедоступны и обслуживают пользователей в любой точке планеты, где имеется возможность работы с Интернетом. Непосредственно для поиска используются поисковые машины, число которых в мире исчисляется несколькими сотнями. Они ориентируются на определенные типы запросов или их сочетание (библиографический, адресный, фактографический, тематический и др.). Кроме того бывают полнотекстовые, смешанные и другие поисковые машины. Для проведения поиска в Интернете (в WWW) функционирует множество сайтов и поисковых систем, поэтому необходимо не только ориентироваться в таких системах, но и уметь осуществлять в них эффективный поиск, т.е. использовать соответствующие технологии.

Технология поиска (от англ. Search Technology) означает совокупность правил и процедур, в результате выполнения которых пользователь получает ИР. При поиске в Интернете рекомендуется обращать внимание на две составляющие: полноту (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно соответствие найденных материалов этим критериям называют релевантностью, т.е. соответствием ответа вопросу (запросу). Поисковые системы характеризуются также временем выполнения поиска, интерфейсом, предоставляемым пользователю и видом отображаемых результатов. При выборе поисковых систем обращают внимание на такие их параметры, как охват и глубина. Под охватом понимается объем базы поисковой машины, измеряемый тремя показателями: общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается, существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.

Каждая поисковая машина имеет свои алгоритмы сортировки результатов поиска. Чем ближе к началу списка, полученного в результате проведения поиска, оказывается нужный документ, тем выше релевантность и лучше работает поисковая машина. Поисковые машины используют общие принципы работы, ориентированные на выполнение двух основных функций. Первая функция реализуется программой-ро- ботом, автоматически просматривающей различные сервера в Интернете. Находя новые или изменившиеся документы, она осуществляет их индексацию и передает на базовый компьютер поисковой машины. Робот - автоматизированный браузер, загружающий веб-страницу, изучающий ее и при необходимости переходящий к одной из ее гиперсвязей. Когда ему попадается страница, не содержащая связей, робот возвращается на одну - две ступени назад и переходит по адресу, указанному в одной из обнаруженных ранее связей. Запущенный робот проходит огромные расстояния в среде Интернета (киберпространстве), ориентируясь на развитие веб-сети и изменяя в соответствии с этим свои маршруты. Индексирующие роботы обрабатывают лишь HTML-файлы, игнорируя изображения и другие мультимедийные файлы. Они могут: обнаруживать связи с уже несуществующими страницами; устанавливать связь с наиболее популярными узлами, подсчитывая количество ссылок на них в других веб-страницах; регистрировать веб-страницы для оценки роста системы и др. Чаще всего роботы просматривают сервера самостоятельно, находя новые внешние ссылки в уже обследованных документах. Вторая функция заключается в обработке выявленных документов. При этом учитывается все содержание страниц (не только полный текст, но и наличие иллюстраций, аудио- и видеофайлов, Java-приложений). Индексации подвергаются все слова в документе, что дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, составляют БД, к которой собственно и обращаются пользователи, вводя в поисковую строку ПОЗ (сочетания ключевых слов). Выдача результатов осуществляется с помощью специальной подсистемы, производящей интеллектуальное ранжирование результатов. В своих расчетах она опирается на местоположение термина, частоту его повторения в тексте, процентное соотношение данного термина с остальным текстом на данной странице и другие параметры, характеризующие возможности конкретной поисковой машины.

Роботы имеют ряд разновидностей, одной из которых является «паук» (от англ, spider). Он непрерывно «ползает по сети», переходя с одной веб-страницы к другой с целью сбора статистических данных о самой «паутине» (Web) и (или) формирования некоторой БД с индексами содержимого веб. Автоматизированные агенты «спайдеры» регулярно сканируют веб-страницы и актуализируют БД адресов (гиперссылки), средства индексирования информации, расположенные по указанным адресам. Полученные индексы используются для быстрого и эффективного поиска по набору терминов, задаваемых пользователем. В разных системах эта цель достигается различным образом. Одни посылают «агентов» на каждую попадающуюся веб-страницу, индексируя все встречающиеся слова. Другие сначала анализируют БД адресов, определяя наиболее популярные (обычно подсчитывается число имеющихся ссылок на них). Именно эти веб-страницы в различной степени индексируются (только заголовки веб-страниц и ссылки, включая автоматическое аннотирование документов или весь текст).

Все чаще применяются «интеллектуальные агенты» - небольшие программы, обладающие способностью самообучаться и действовать самостоятельно от имени своего владельца. Имея связь с компьютером пользователя, они выступают в роли персональных помощников, выполняющих ряд задач с применением знаний о потребностях и интересах пользователя. Интеллектуальные роботы-агенты ведут самостоятельный поиск в сети по собственным уникальным алгоритмам. Некоторые из них не только просматривают ключевые слова, но и осуществляют в Интернете семантический анализ информации, выявляя степень ее смыслового соответствия поставленной задаче.

Эффективный доступ к информации в Интернете обеспечивают такие зарубежные поисковые системы (машины), как Альта-Виста (AltaVista), Lycos, Yahoo, Google, OpenText, Wais, WebCrawler и др. Их адреса в Интернете: www.altavista.com,www.yahoo.com,www.gogle.com, www. opentext.com.

К отечественным поисковым машинам относятся: Нигма (Научный проект «Интеллектуальная поисковая система Nigma.ru» МГУ им. М.В. Ломоносова, факультетов ВМиК и психологии), Апорт (Aport АО Агама), Rambler (фирма Stack Ltd.), Яндех (Yandex фирма CompTek Int), «Русская машина поиска», «Новый русский поиск», и др. Их адреса в Интернете: www.nigma.ru (нигма.рф), www.aport.ru,www.rambler.ru,www.yandex.ru, search.interrussia.com, www.openweb.ru соответственно и др.

Все эти поисковые машины позволяют по ключевым словам, тематическим рубрикам и даже отдельным буквам оперативно находить в сети, например, все или почти все тексты, где эти слова присутствуют. При этом пользователю сообщаются адреса сайтов, где найденные ИР постоянно присутствуют. Однако ни одна из них не имеет подавляющих преимуществ перед другими. Для проведения надежного поиска по сложным запросам специалисты рекомендуют использовать последовательно или параллельно (одновременно) различные ИПС.

Полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме этого в языке HTML существуют тэги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.). Некоторые машины умеют искать словосочетания или слова на заданном расстоянии, что часто бывает важно для получения разумного результата.

Google - единственная компания, сосредоточившая свои усилия на разработке «идеальной поисковой системы», которая, по словам соучредителя компании Лэрри Пейджа, «точно определит, что подразумевает пользователь, и покажет именно те результаты, которые ему нужны». С этой целью Google непрестанно ищет новые методы и отказывается смиряться с ограничениями существующих технологий. В итоге Google разработала собственную инфраструктуру и революционную технологию PageRank, которая изменила подход к выполнению поиска. С самого начала разработчики Google понимали, что для более быстрого получения наиболее точных результатов необходим новый способ настройки сервера. Большинство поисковых систем использовали несколько больших серверов, которые часто работали медленно при пиковых нагрузках. Компания Google задействовала связанные ПК, позволяющие быстро находить ответы на все запросы. Внедрение этой инновационной технологии привело к сокращению времени отклика, повышению масштабируемости и снижению расходов. С тех пор все остальные компании копируют эту идею, в то время как Google продолжает постоянно улучшать внутреннюю технологию с целью повышения ее эффективности.

Программное обеспечение, используемое для реализации технологии поиска Google, проводит ряд одновременных вычислений, которые занимают не больше доли секунды. Традиционные поисковые системы в большей степени основываются на том, как часто слово появляется на веб-странице. Google же изучает всю структуру веб-ссылок и определяет, какие страницы наиболее важны, с помощью PageRank. Затем проводится анализ соответствия гипертекста и выбор страниц, наиболее подходящих для конкретного поиска. На основании общей значимости и соответствия запросу Google отображает в первую очередь наиболее релевантные и достоверные результаты.

Технология PageRank: PageRank объективно оценивает значимость веб-страниц, основываясь на уравнении, включающем более 500 млн переменных и 2 млрд терминов. Вместо того чтобы подсчитывать прямые ссылки, PageRank рассматривает ссылку со страницы А на страницу Б как голос в пользу страницы Б от страницы А. Затем по количеству полученных голосов PageRank определяет значимость данной страницы. PageRank также оценивает важность каждой страницы, принимающей участие в голосовании. При получении голосов от страниц с большей значимостью ссылка становится более ценной. Значимые страницы получают более высокий рейтинг PageRank и отображаются в начале результатов поиска. Технология Google использует совокупные интеллектуальные веб-средства, чтобы определить значимость страницы. Человеческий фактор или подтасовка результатов невозможны, и именно поэтому пользователи доверяют Google как источнику объективной информации, в результатах поиска которого отсутствуют проплаченные рекламные объявления.

Анализ соответствия гипертекста: поисковая система Google, как и другие системы, также анализирует содержание страницы. Однако вместо простого сканирования текста страницы (который может выполнить веб-издатель с помощью метатегов - HTML- или XHTML-теги, предназначенные для предоставления структурированных метаданных о веб-странице.) технология Google анализирует все содержание страницы, особенности шрифтов, разбивки текста и точное расположение каждого слова. Google также анализирует содержание соседних вебстраниц, чтобы убедиться в том, что полученные результаты наиболее точно соответствуют запросу пользователя (рис. 4.2).

Инновационные технологии Google распространяются не только на настольные ПК. Компания Google поставила перед собой задачу донести результаты своего точного и быстрого поиска до пользователей, работающих в Интернете через мобильные устройства. С этой целью Google разработала первую в своем роде технологию беспроводного поиска для мгновенного преобразования HTML в форматы, оптимизированные


для WAP, i-mode, J-SKY и EZWeb. В настоящее время беспроводная технология Google используется множеством лидирующих на рынке компаний, включая АТ & Т Wireless, Sprint PCS, Nextel, Palm, Handspring и Vodafone.

Время поиска Google обычно занимает менее чем полсекунды, однако эта процедура включает в себя ряд действий, без которых результаты поиска не будут доставлены пользователю. Этапы запроса Google:

  • 1) веб-сервер отправляет запрос на серверы индексации. Содержимое серверов индексации соответствует содержанию в конце книги - в нем сообщается, на каких страницах представлены слова, соответствующие запросу;
  • 2) запрос отправляется на серверы, которые осуществляют поиск хранящихся документов. Для описания каждого результата поиска создаются фрагменты;
  • 3) всего лишь доля секунды требуется для получения результатов поиска.

«Идеальная поисковая система, - говорит один из основателей компании Google Лэрри Пейдж (Larry Page), - точно определит, что подразумевает пользователь, и покажет именно те результаты, которые ему нужны». Учитывая текущий уровень развития технологии поиска, для этого нужно смотреть далеко вперед, проводить исследования, разработку и внедрение новейших методов работы. Google прилагает все усилия к тому, чтобы прокладывать новые пути в этой области. Несмотря на то, что Google уже признана ведущей компанией мира, занимающейся технологией поиска.

Способы поиска в Интернете

Три способа поиска в Интернете

Интернет в целом и Всемирная паутина, в частности, предоставляют абоненту доступ к тысячам серверов и миллионам Web-страниц, на которых хранится невообразимый объем информации. Как не потеряться в этом "информационном океане"? Для этого необходимо научиться искать и находить нужную информацию в сети.

Как уже было сказано, существуют три основных способа поиска информации в Интернете.

1. Указание адреса страницы. Это самый быстрый способ поиска, но его можно использовать только в том случае, если точно известен адрес документа.

2. Передвижение по гиперссылкам. Это наименее удобный способ, так как с его помошыо можно искать документы, только близкие по смыслу текущему документу. Если текущий документ посвящен, например, музыке, то, используя гиперссылки этого документа, вряд ли можно будет попасть на сайт, посвященный спорту.

3. Обращение к поисковому серверу (поисковой системе) . Использование поисковых серверов - наиболее удобный способ поиска информации. В настоящее время в русскоязычной части Интернета популярны следующие поисковые серверы:

Yandex;
Rambler;
Апорт.

Существуют и другие поисковые системы. Например, эффективная система поиска реализована на сервере почтовой службы mail.ru.

Поисковые серверы

Наиболее доступным и удобным способом поиска информации во Всемирной паутине является использование поисковых систем. При этом поиск информации можно осуществлять по каталогам, а также по набору ключевых слов, характеризующих отыскиваемый текстовый документ.

Рассмотрим использование поисковых серверов более подробно. Поисковый сервер содержит большое количество ссылок на самые различные документы, и все эти ссылки систематизированы в тематические каталоги. Например: спорт, кино, автомобили, игры, наука и др. Причем эти ссылки устанавливаются сервером самостоятельно, в автоматическом режиме путем регулярного просмотра всех появляющихся во Всемирной паутине Web-страниц. Кроме того, поисковые серверы предоставляют пользователю возможность поиска информации по ключевым словам. После ввода ключевых слов поисковый сервер начинает просматривать документы на других Web-серверах и выводить на экран ссылки на те документы, в которых встретились указанные слова. Обычно результаты поиска сортируются по убыванию специального рейтинга документов, который показывает, насколько полно заданный документ отвечает условиям поиска или насколько часто он запрашивается в сети.



Язык запросов поисковой системы

Группа ключевых слов, сформированная по определенным правилам - с помощью языка запросов, называется запросом к поисковому серверу. Языки запросов к разным поисковым серверам очень похожи. Подробнее об этом можно узнать, посетив раздел "Помощь" нужного поискового сервера. Рассмотрим правила формирования запросов на примере поисковой системы Яndex.

Синтаксис оператора Что означает оператор Пример запроса
пробел или & Логическое И (в пределах предложения) лечебная физкультура
&& Логическое И (в пределах документа) рецепты && (плавленый сыр)
| Логическое ИЛИ фото | фотография | снимок | фотоизображение
+ Обязательное наличие слова в найденном документе +быть или +не быть
() Группирование слов (технология | изготовление) (сыра | творога)
~ Бинарный оператор И НЕ (в пределах предложения) банки ~ закон
~~ или _ Бинарный оператор И НЕ (в пределах документа) путеводитель по Парижу ~~ (агентство | тур)
/(n m) Расстояние в словах (минус (-) - назад, плюс (+) - вперед) поставщики /2 кофе музыкальное /(-2 4) образование вакансии ~ /+1 студентов
" " Поиск фразы "красная шапочка" Эквивалентно: красная /+1 шапочка
&&/(n m) Расстояние в предложениях (минус (-) - назад, плюс (+) - вперед) банк && /1 налоги

Чтобы получить лучшие результаты поиска, необходимо запомнить несколько простых правил:

1. Не искать информацию только по одному ключевому слову.

2. Лучше не вводить ключевые слова с прописной буквы, так как это может привести к тому, что не будут найдены те же слова, написанные со строчной буквы.

3. Если в итоге поиска вы не получили никаких результатов, проверьте, нет ли в ключевых словах орфографических ошибок.

Современные поисковые системы предоставляют возможность подключения к сформированному запросу семантического анализатора. С его помощью можно, введя какое-либо слово, выбрать документы, в которых встречаются производные от этого слова в различных падежах, временах и пр.

Информационные технологии поиска информации

Поиск информации: основные понятия, виды и формы организации

Поиск информации или информационный поиск представляет один из основных информационных процессов. Человечество издревле занималось им. Цели, возможности и характер поиска всегда зависели от наличия, информации, её важности и доступности, а также средств организации поиска.

Конец XX - начало XXI века, характеризуется огромными массивами постоянно растущей разнообразной информации, доступной и представляющей интерес для самых широких слоев социума. Более того, Интернет-технологии и программно-технические средства, также доступные большинству людей, позволяют осуществлять данный процесс в любое время, практически в любом месте по любым запросам.

Поиск - процесс, в ходе которого в той или иной последовательности производится соотнесение отыскиваемого с каждым объектом, хранящимся в массиве. Цель любого поиска заключается в потребности, необходимости или желании находить различные виды информации, способствующие получению лицом, осуществляющим поиск, нужных ему сведений, знаний и т.д. для повышения собственного профессионального, культурного и любого иного уровня; создания новой информации и формирования новых знаний; принятия управленческих решений и т.п.

По оценке специалистов в Интернете работает 30 и более миллионов пользователей. Из них десятки тысяч - в режиме онлайн (англ. "on-line" - интерактивный доступ в любой момент времени) и количество таких пользователей постоянно растет. Это затрудняет организацию оперативного поиска и нахождения нужной такому количеству пользователей информации. Возникают проблемы, обусловленные разнообразными возможностями (видами) поиска информации, различными способами их реализации в информационно-поисковых системах (ИПС), разным уровнем знаний пользователей о возможностях таких систем, особенно в области формирования запросов и обработки данных, полученных в результате выполнения этих запросов и т.д.

Предполагается, что в дальнейшем будут созданы ИПС, способные автоматически адаптироваться с учетом уровня знаний и запросов конкретных пользователей, воспринимать запросы на естественном языке и, используя искусственный интеллект, выдавать им релевантную и пертинентную информацию. Для создания таких ИПС потребуются интеллект и знания конкретных пользователей ИПС или их посредников. Пока же от широкого круга пользователей поисковых систем требуется достаточно хорошо владеть данной предметной областью.

Существуют различные толкования термина "поиск информации" или "информационный поиск".

Термин "информационный поиск " (англ. "information retrieval") ввёл американский математик К. Муэрс. Он заметил, что побудительной причиной такого поиска являетсяинформационная потребность , выраженная в форме информационного запроса. К объектам информационного поиска К. Муэрс отнес документы, сведения об их наличии и (или) местонахождении, фактографическую информацию.

Решать проблемы фактографического поиска первыми стали представители библиотек. Они разработали средства информационного поиска, получившие название "справочно-поисковый аппарат " (каталоги, библиографические указатели и др.). В профессиональной отечественной печати данный термин используется с 1970-х годов. Библиотекари определяют "информационный поиск " как нахождение в информационном массиве документов , соответствующих информационному запросу пользователей .

С точки зрения использования компьютерной техники "информационный поиск " - совокупность логических и технических операций, имеющих конечной целью нахождение документов, сведений о них, фактов, данных, релевантных запросу потребителя.

"Релевантность " - устанавливаемое при информационном поиске соответствие содержания документа информационному запросу или поискового образа документа поисковому предписанию.

Существуют и другие определения. В любом случае, информационный поиск вызван потребностью удовлетворения информационных запросов пользователей, ожидающих с помощью поисковых систем оперативно получить необходимые им данные или сведения. Он является методом нацеленного поиска и извлечения релевантных документов и (или) фактов из различных источников информации, например, банков данных или запоминающих устройств. В качестве таковых выступают живые и неживые объекты, представляющие различные источники и носители информации.

Системы, обеспечивающие реализацию подобного поиска информации, называются поисковыми системами (ПС). В традиционных технологиях ПС представляют картотеки и каталоги, адресные и иные справочники, указатели, энциклопедии, справочный аппарат к изданиям и другие материалы.

В 1945 годы американский ученый и инженер В. Буш в статье "Возможный механизм нашего мышления" впервые широко поставил вопрос о необходимости механизации информационного поиска. Начиная с 1960 годов, появляются автоматизированные поисковые системы, работающие с информацией. С этого периода ведутся интенсивные работы в области формирования и реализации принципов и методов информационного поиска.

"Поисковые системы " осуществляют поиск среди документов базы или иных массивов машиночитаемых данных, содержащих заданные слова.

Электронные ПС с помощью обычных или интеллектуальных терминалов (ПЭВМ) дают возможность пользователям производить поисковые запросы при помощи формальных и описывающих содержание элементов и с применением специальных логических операторов; осуществляют поиск среди документов базы или иных массивов машиночитаемых данных, содержащих заданные слова. Поисковые системы позволяют осуществлять только поисковые процедуры и связанные с ними процессы.