Современные методы поиска информации. Составление и выполнение запросов к поисковым машинам Естественный отбор и эволюция

Урок № 2 11 класс Дата проведения: _____________

Поиск и отбор информации

Цель: Обучить учащихся ориентироваться в огромном потоке информации

Оборудование:

Интерактивная доска, копьютер, слайды, флипчаты, ресурсы Интернет, ватман, маркеры, стикеры

Ход урока:

  1. Орг.момент.

  2. Актуализация знаний «Мозговой штурм»

  3. Работа в группах: «Какие ассоциации у вас возникают при слове информация?»

  4. Работа в группах «Алгоритм поиска и отбора информации, методы поиска, критерии отбора»

  5. Делегирование

  6. Защита проектов

  7. Д/з. Итоги урока.

  8. Рефлексия

Материал для урока:

Поиск и отбор информативных материалов - взаимосвязан­ный процесс. Студент должен овладеть умением отыскать в море информации только нужные сведения, факты, идеи. Первичной информации в море новой литературы содержится не более 25%, остальная - вторичная. Задача заключается в том, чтобы отыскать в информационном потоке оригинальные издания и отсеять все остальное, найти такую информацию, которая является наиболее ценной и актуальной в данный момент.

Нужно:

1) научиться быстро, с наименьшей затратой сил следить за потоком новой информации;

2) рационально выбирать из информационного потока книги, статьи и другие материалы по конкретной теме;

3) оперативно и полно извлекать из отобранных материалов нужную информацию.

Научная информация подразделяется прежде всего на «первич­ную» и «вторичную».

Первичная информация охватывает публикуемую литературу (официальные издания, массово-политические и научно-попу­лярные издания; научные издания; материалы научных конферен­ций, симпозиумов, семинаров; монографии; сборники; бюллете­ни; «ученые записки», «известия и труды» организаций; специаль­ные виды официальных изданий (нормативные, плановые, статистические, производственные и т.п.) и непубликуемые источ­ники (диссертации; депонированные рукописи; отчетная научно- техническая документация; репринты; переводы; архивные доку­менты; первичные данные предприятий, учреждений, организа­ций; документации общественных организаций).

Вторичная информация - результат аналитико-синтетической и логической переработки первичной публикуемой и непубликуемой информации. Это информационные издания (реферативные журналы, реферативные и аналитические обзоры и др.), справоч­ная литература (энциклопедии, словари, справочники), каталоги и картотеки, библиографические издания.

Умение быстро осуществлять поиск информации является важ­ным условием продуктивности и качества самостоятельной рабо­ты студента. Знания и навыки в этой области включают: представ­ление о системе научно-технической информации в целом и о том, как эта система конкретно представлена там, где работает, учится студент; знания о возможных источниках информации; умение пользоваться библиографическими и другими справочными мате­риалами.

Источник научной информации - это носитель, содержащий сообщение. Органы научно-технической и справочной информа­ции представлены библиотеками (общими и специальными) и единой государственной системой научно-технической информа­ции (ГСНТИ).

В библиотеках основными формами обслуживания читателя являются: справочно-библиографическое; межбиблиотечный обмен (МБО); абонемент, фото- и ксерокопирование, микро­фильмирование.

Методы поиска информации

Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен при помощи двух основных методов, которые, в зависимости от его целей и задач, могут быть использованы по отдельности или в комбинации друг с другом:

· использование поисковых систем - сегодня этот метод является одним из основных при проведении предварительного поиска. Его применение основано на ключевых словах, которые передаются системе в качестве аргумента поиска. Результатом является список ресурсов Интернета, подлежащих детальному рассмотрению. Получение наиболее релевантного результата требует проведения предварительной работы по составлению тезауруса;

· поиск по гипертекстовым ссылкам - поскольку все сайты Интернета связаны между собой гиперссылками, поиск информации может быть произведен путем последовательного просмотра с помощью браузера связанных ссылками web-страниц. К этому виду поиска также относится использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников. Такой метод наиболее трудоемок, однако «ручной» просмотр web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, требующего глубокого анализа. Он может быть также более эффективен при проведении повторных циклов или просмотре вновь образованных ресурсов.

Поиск с использованием поисковых машин

Наиболее широко используемым, но в то же время наиболее сложным является метод поиска с использованием поисковых систем. Его широкая распространенность обусловлена тем, что поисковые системы содержат в себе индексы громадного количества сайтов и при правильно сформированном запросе можно сразу же получить ссылки на интересующие ресурсы. Сложность метода состоит в том, что для того, чтобы результат был качественным, необходимо уметь выбрать наиболее подходящие поисковые системы, правильно формулировать запросы к ним, учитывать их особенности и функциональные возможности.

Двоякая характеристика данного метода связана с тем, что проведение эффективного поиска требует одновременного решения двух противоположных задач: увеличении охвата с целью извлечения максимального количества значимой информации и уменьшении охвата с целью минимизации шумовой информации. Нетрудно увидеть, что одновременно осуществить и то и другое довольно сложно, хотя найти оптимальное соотношение все-таки возможно.

Отбор поисковых систем

Данный этап требует установить последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.

Всего известно около нескольких сотен поисковых систем, различающихся по регионам охвата, принципам проведения поиска (а, следовательно, по входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать «нестандартную» информацию и т. д. Основными критериями выбора поисковых систем являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов.

Составление и выполнение запросов к поисковым машинам

Это наиболее сложный и трудоемкий этап, связанный с обработкой значительного количества информации, большая часть которой обычно является шумовой. На основе тезауруса формируются запросы к выбранным поисковым серверам. После получения первоначальных результатов возможно уточнение запросов с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска, и данные с ресурсов, признанных релевантными, собираются для последующего анализа.

ИНФОРМАЦИОННАЯ РАБОТА

Информация – это сведения о значимых фактах (лицах, действиях, организациях, событиях), которые служат основой для принятия решений о проведении административных, организационных мероприятий, а также для подготовки предложений и рекомендаций. В философском понимании информация обеспечивает уменьшение или снятие неопределенности наших представлений об изучаемых явлениях (процессах) в результате получения сообщения (знака).

Информационная работа – деятельность по обеспечению должностных лиц сведениями, необходимыми для решения возложенных на них задач.

Средства информационной работы – это совокупность документальных, технических и иных устройств, предназначенных для накопления, обработки, систематизации, хранения и выдачи информации.

Формы информационной работы – особенности документирования, накопления, сбережения, интеграции информационных данных в различных звеньях системы управления в целях рационального и эффективного осуществления управленческой деятельности.

Процесс информационной работы – это последовательная совокупность операций (регистрация, передача, накопление, хранение, обработка, выдача информации), позволяющая быстро найти в полном объеме нужные сведения, затребованные конкретными потребителями.

Качество информации – это степень развитости свойств информации, определяющая ее практическую пригодность для исследования. Качество информации зависит от следующих характеристик:

Ø достоверность;

Ø относимость;

Ø своевременность;

Ø полнота;

Ø важность.

Отбор информации – это результат просмотра материалов и документов, уточнения, дополнения и формализации информации.

Накопление информации – это результат интеграции, систематизации, уточнения и учета информации в определенных системах.

Хранение информации – это результат централизации, коррекции, обновления и сбережения банков данных.

Обработка информации – это результат преобразования (сортировка, группировка, обогащение, сравнение и т.д.) в формы, удобные для работы.

Выдача информации – это передача информации потребителю в режиме сигнального информирования или в соответствии с программой, указанной в запросе.

Способы отбора и рамки информационного поиска определяются с учетом:

Ø структуры и содержания изучаемой проблемы с выделением конкретных задач, подлежащих анализу;

Ø наличия смежных областей и проблем, в которых может находиться нужная информация;

Ø глубины ретроспективного поиска;

Ø видов документальных источников, необходимых для исследования.

Обработка информации – упорядочение собранных материалов путем их систематизации с целью сделать обозримыми, компактными, пригодными для анализа, т.е. приведения их к виду, когда фактические данные начинают «говорить».

Отбор и обработка материалов по теме исследования – это подготовительный этап процесса аналитической работы, на котором осуществляется поиск информации, проверка ее качественных характеристик, а также ее обработка с целью создания условий для правильной оценки исследуемых фактов, событий и явлений.

Документирование – это форма информационной работы, применяемая для закрепления результатов, получаемых в процессе управления деятельностью (справки, постановления, планы и т.п.).

Дела – форма информационной работы, предназначенная для систематизации документальных материалов.

Одним из основных механизмов эволюции наряду с мутациями, миграционными процессами и генными преобразованиями является естественный отбор. Виды естественного отбора подразумевают такие изменения в генотипе, которые повышают шансы организма на выживание и продолжение рода. Эволюция часто рассматривается как следствие этого процесса, который может возникнуть в результате различий в видовой выживаемости, рождаемости, темпах развития, успешности спаривания или в любом другом аспекте жизни.

Природное равновесие

Частоты генов остаются постоянными из поколения в поколение при условии, что отсутствуют возмущающие факторы, которые нарушают естественное равновесие. Сюда относятся мутации, миграции (или поток генов), случайный дрейф генов и естественный отбор. Мутация - это спонтанное изменение частоты генов в популяции, для которой характерен низкий темп развития. При этом индивид переходит из одной популяции в другую и затем видоизменяется. Случайный - это изменение, которое передается от одного поколения другому совершенно случайным образом.

Все эти факторы изменяют частоты генов без учета увеличения или уменьшения вероятности выживания организма и воспроизводения в своей естественной среде. Все они являются случайными процессами. А естественный отбор, виды естественного отбора являются умеренными дезорганизующими последствиями этих процессов, поскольку они умножают частоту полезных мутаций на протяжении многих поколений и устраняют вредные составляющие.

Что такое естественный отбор?

Естественный отбор способствует сохранению тех групп организмов, которые лучше приспособлены к физическим и биологическим условиям среды их обитания. Он
может действовать на любые наследуемые фенотипические черты и при помощи селективного давления может влиять на любой аспект окружающей среды, в том числе половой отбор и конкуренцию с членами одного и того же или других видов.

Однако, это не означает, что этот процесс всегда является направленным и результативным в адаптивной эволюции. Естественный отбор, виды естественного отбора в целом, часто приводят к устранению менее приспособленных вариантов.

Вариации существуют внутри всей популяции организмов. Это происходит отчасти потому, что возникают случайные мутации в геноме одного организма, и его потомство может унаследовать такие мутации. На протяжении жизни геномы взаимодействуют с окружающей средой. Следовательно, популяция эволюционирует.

Понятие о естественном отборе

Естественный отбор является одним из краеугольных камней современной биологии. Он действует на фенотип, генетическая основа которого дает репродуктивное преимущество для большей распространенности в популяции. Со временем этот процесс может привести к появлению новых видов. Другими словами, этот важный (хотя и не единственный) эволюционный процесс в пределах популяции.
Само понятие было сформулировано и опубликовано в 1858 году Чарльзом Дарвином и Альфредо Расселом Уоллесом в совместном представлении документов касательно

Термин был описан как аналог то есть это процесс, с помощью которого животные и растения с определенными признаками считаются желательными для разведения и размножения. Понятие "естественный отбор" первоначально разрабатывалось при отсутствии теории наследственности. На момент написания Дарвином его трудов науке еще предстояло разработать Объединение традиционной дарвиновской эволюции с последующими открытиями в области классической и молекулярной генетики называют современным эволюционным синтезом. 3 вида естественного отбора остаются основным объяснением для адаптивной эволюции.

Как работает естественный отбор?

Естественный отбор - это механизм, посредством которого животный организм адаптируется и эволюционирует. По своей сути, отдельные организмы, которые оказываются лучше всего приспособленными к среде, выживают и наиболее успешно размножаются, производя на свет плодовитое потомство. После многочисленных циклов размножения такие виды являются доминирующими. Таким образом природа отфильтровывает плохо приспособленных особей во благо всей популяции.

Это относительно простой механизм, который заставляет представителей определенной популяции меняться с течением времени. Фактически, его можно разбить на пять основных этапов: изменчивость, наследование, отбор, время и адаптация.

Дарвин о естественном отборе

Согласно учению Дарвина естественный отбор состоит из четырех компонентов:

  1. Вариации. Организмы в пределах популяции проявляют индивидуальные различия во внешности и поведении. Эти изменения могут включать размер тела, цвет волос, пятна на мордочке, свойства голоса или количество производимого потомства. С другой стороны, некоторые черты характера не связаны с различиями между индивидуумами, например, количество глаз у позвоночных животных.
  2. Наследство. Некоторые черты последовательно передаются от родителей к потомству. Такие черты переходят по наследству, в то время как на другие сильно влияют условия окружающей среды, и они наследуются слабо.
  3. Высокие популяции. Основная масса животных ежегодно производит потомство в гораздо большем количестве, чем необходимо для равного распределения ресурсов между ними. Это приводит к межвидовой конкуренции и преждевременной смертности.
  4. Дифференциальное выживание и размножение. Все виды естественного отбора в популяциях оставляют после себя тех животных, которые умеют бороться за локальные ресурсы.

Естественный отбор: виды естественного отбора

Дарвиновская теория эволюции кардинально изменила направление будущей научной мысли. В ее центре находится естественный отбор, процесс, который происходит на протяжении последовательных поколений и определяется как дифференциальное воспроизведение генотипов. Любое изменение в окружающей среде (например, изменение цвета ствола дерева) может привести к адаптации на местном уровне. Существуют следующие виды естественного отбора (таблица № 1):

Стабилизирующий отбор

Зачастую частота мутаций в ДНК у одних видов статистически выше, чем в других. Этот тип естественного отбора способствует устранению любых крайностей в фенотипах наиболее приспособленных к окружающей среде особей в популяции. За счет этого уменьшается разнообразие внутри одного вида. Однако это не значит, что все особи получаются абсолютно одинаковые.

Стабилизирующий естественный отбор и его виды кратко можно охарактеризовать как усреднение или стабилизацию, при которой популяция становится более однородной. В первую очередь влиянию подвергаются полигенные черты. Это означает, что фенотип контролируется несколькими генами, и существует широкий спектр возможных исходов. С течением времени некоторые из генов выключаются или маскируются другими, в зависимости от благоприятной адаптации.

Многие особенности человека являются результатом такого отбора. Вес человека при рождении - это не только полигенный признак, он также контролируется факторами окружающей среды. Новорожденные со средним весом при рождении имеют больше шансов выжить, чем со слишком маленьким или чрезмерно большим.

Направленный естественный отбор

Это явление обычно наблюдается в условиях, которые изменились с течением времени, например, погода, климат или количество продовольствия могут привести к направленной селекции. Участие человека также может ускорить этот процесс. Охотники чаще всего убивают больших особей из-за мяса или других крупных декоративных или полезных частей. Следовательно, популяция будет иметь тенденцию к перекосу в сторону более мелких особей.

Чем больше хищники убивают и поедают медленных особей в популяции, тем больше будет оуществляться перекос в сторону более удачливых и быстрых представителей популяции. Виды естественного отбора (таблица с примерами № 1) можно более ярко продемонстрировать с помощью примеров из живой природы.

Чарльз Дарвин изучал направленный отбор, когда он был на Галапагосских островах. Длина клюва местных вьюрков менялась с течением времени из-за имеющихся источников питания. При отсутствии насекомых выживали зяблики с большими и длинными клювами, которые им помогали поедать семена. С течением времени насекомых стало больше, и с помощью направленного отбора птичьи клювы постепенно приобретали меньшие размеры.

Особенности диверсификационного (подрывного) отбора

Подрывной отбор - это вид естественного отбора, который выступает против усреднения видовых характеристик в популяции. Этот процесс является самым редким, если описывать виды естественного отбора кратко. Дивесификационная селекция может привести к видообразованию двух или более различных форм в местах резких изменений окружающей среды. Как и направленный отбор, этот процесс также может быть замедлен из-за разрушительного влияния человеческого фактора и загрязнения окружающей среды.

Одним из наиболее изученных примеров подрывного отбора является случай с бабочками в Лондоне. В сельских районах почти все особи имели светлую окраску. Однако эти же бабочки были очень темного цвета в промышленных районах. Встречались также экземпляры со средней интенсивностью цвета. Это связано с тем, что темные бабочки научились выживать и спасаться от хищников в промышленных районах в городских условиях. Светлых мотыльков в промышленных районах легко обнаруживали и поедали хищники. Обратная картина наблюдалась в сельской местности. Бабочки средней цветовой интенсивности были легко видны в обоих местах, и поэтому их осталось очень мало.

Таким образом, смыслом подрывного отбора является движение фенотипа к крайности, которая нужна для выживания вида.

Естественный отбор и эволюция

Основная идея теории эволюции заключается в том, что все видовое многообразие постепенно развивалось от простых форм жизни, которые появились более трех миллиардов лет назад (для сравнения, возраст Земли составляет примерно 4,5 миллиарда лет). Виды естественного отбора с примерами от первых бактерий до первых современных людей сыграли в этом эволюционном развитии значительную роль.

Организмы, которые были плохо приспособлены к своей среде, имеют меньше шансов выжить и оставить потомство. Это означает, что их гены имеют меньшую вероятность быть переданным следующему поколению. Путь к генетическому разнообразию не должен быть потерян, как и способность на клеточном уровне реагировать на изменяющиеся условия окружающей среды.

Кадровый дефицит вынуждает HR-менеджеров проявлять изобретательность в поиске сотрудников. Традиционных способов поиска сотрудников уже недостаточно, ведь идет настоящая «война» за кадры. Рассмотрим, современные каналы поиска персонала, которыми можно расширить свой арсенал.

Объявления, листовки, рекламные щиты.

Расклейка объявлений с перечнем открытых вакансий организации — эффективное и малобюджетное средство. Максимальную отдачу можно получить, если постоянно размещать объявления и периодически обновлять перечень вакансий. Во избежание неприятностей используйте для этого специально отведенные места. В последнее время появилось немало компаний, оказывающих услуги по размещению информации на остекленных стендах, расположенных рядом с жилыми домами, в подъездах и в лифтах.

Распространение листовок-объявлений на улицах и по почтовым ящикам жилых домов сейчас чаще приводит к отрицательному эффекту. Жители городов уже устали от бумажного мусора на улице и в подъездах. А эффективность попадания в целевую аудиторию крайне мала.

Для массового набора сотрудников возможно применить размещение объявлений на обратной стороне квитанций по квартплате. Для этого стоит обратиться в жилищно-коммунальные хозяйства города.

Рекламные щиты, установленные на важных транспортных артериях города, перекрестках дорог, обочинах, тротуарах, местах остановок общественного транспорта хороши тем, что при единоразовых затратах обеспечивают постоянную отдачу. Если у вас постоянная потребность в сотрудниках определенных категорий, целесообразно изготовить соответствующий рекламный щит и поместить его на обочине дороги рядом с предприятием.

Преимущества: эффективен для закрытия массовых позиций в кратчайшие сроки (поиск продавцов в связи с открытием нового магазина или разнорабочих в связи с расширением производства).
Недостатки: узкий территориальный охват, подходит в основном для поиска персонала низшего звена. Требуется тщательный отбор среди кандидатов, для устранения риска приема на работу соискателей с «проблемами».

Печатные СМИ и газеты бесплатных объявлений регионального значения.

Размещение объявлений о вакансии в новостных газетах или в специализированных печатных издания по поиску работы (газеты «Работа для вас», «Вакансии», журнал «Работа и Зарплата» и др., которые распространяются в вашем регионе).

Как правило размещение в газетах от организаций платное, обсудите о наиболее удобных для вас условиях (тарифный план). Если у вас нет финансовых средств на оплату услуг по размещению объявлений, то воспользуйтесь газетами бесплатных объявлений.

Объявления печатных СМИ более подходит для подбора низкоквалифицированного персонала и кандидатов старшей возрастной категории т.к. они не имеют доступа к сети Интернет.

Преимущества: эффективен для закрытия массовых позиций в кратчайшие сроки из групп не имеющих доступа к интернету, а также почти единственный способ подобрать специалистов из старшей возрастной группы.
Недостатки: Многие из данной категории до сих пор не умеют составлять резюме и боятся проходить собеседования. Здесь делается упор на телефонное интервьюирование, а затем приглашение на очную встречу.

ИПС (информационно-поисковая система) – это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Релевантность – это соответствие результатов поиска сформулированному запросу.

Пертинентность (в информационном поиске) - соответствие полученной информации информационной потребности пользователя.

Пертинентность измеряется степенью соответствие между ожиданиями пользователя и результатами поиска (сравните с релевантностью), которая определяется как отношение объема полезной для пользователя информации к общему объему полученной информации, найденнойпоисковой системой.

Достижение высокой степени пертинентности - основное поле конкурентной борьбы современных поисковых систем. Именно для максимального удовлетворения информационных потребностей пользователей в настоящее время в ИП-системах широко применяются теории и методы семантических сетей, контент-анализа и глубинного анализа текстов (Text mining,интеллектуальный анализ текстов ).

Для поиска нужной информации в сети используется адрес ресурса (англ . Uniform Resource Locator (URL ) адрес), содержащий имя протокола, по которому нужно обращаться к требуемой информации, адрес сервера и имя файла на этом сервере (рис. 2).

Рис. 2. Пример адреса ресурса

Поиско́вая систе́ма - программно-аппаратный комплекс свеб-интерфейсом, предоставляющий возможность поискаинформациивИнтернете. Под поисковой системой обычно подразумеваетсясайт, на котором размещён интерфейс системы. Программной частью поисковой системы являетсяпоисковая машина(поисковый движок) -комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы

Поиск информации в Интернете осуществляется с помощью специальных программ, обрабатывающих запросы - информационно-поисковых систем (ИПС) . Существует несколько моделей, на которых основана работа поисковых систем, но исторически две модели приобрели наибольшую популярность - это поисковые каталоги и поисковые указатели .

Поисковые каталоги устроены по тому же принципу, что и тематические каталоги крупных библиотек. Они обычно представляют собой иерархические гипертекстовые меню с пунктами и подпунктами, определяющими тематику сайтов, адреса которых содержатся в данном каталоге, с постепенным, от уровня к уровню, уточнением темы. Поисковые каталоги создаются вручную . Высококвалифицированные редакторы лично просматривают информационное пространство WWW, отбирают то, что по их мнению представляет общественный интерес, и заносят в каталог.

Основной проблемой поисковых каталогов является чрезвычайно низкий коэффициент охвата ресурсов WWW. Чтобы многократно увеличить коэффициент охвата ресурсов Web, из процесса наполнения базы данных поисковой системы необходимо исключить человеческий фактор - работа должна быть автоматизирована.

Автоматическую каталогизацию Web-ресурсов и удовлетворение запросов клиентов выполняют поисковые указатели . Работу поискового указателя можно условно разделить на три этапа:

    сбор первичной базы данных. Для сканирования информационного пространства WWW используются специальные агентские программы - черви, задача которых состоит в поиске неизвестных ресурсов и регистрация их в базе данных;

    индексация базы данных - первичная обработка с целью оптимизации поиска. На этапе индексации создаются специализированные документы - собственно поисковые указатели;

    рафинирование результирующего списка. На этом этапе создается список ссылок, который будет передан пользователю в качестве результирующего. Рафинирование результирующего списка заключается в фильтрации и ранжировании результатов поиска.

Под фильтрацией понимается отсев ссылок, которые нецелесообразно выдавать пользователю (например, проверяется наличие дубликатов). Ранжирование заключается в создании специального порядка представления результирующего списка (по количеству ключевых слов, сопутствующих слов и др.).

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска – релевантность.

Релевантность – это соответствие результатов поиска сформулированному запросу.

1 Поисковые инструменты

Поисковые инструменты - это особое программное обеспечение, основная цель которого – обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета. Поисковые инструменты размещаются на специальных веб-серверах, каждый из которых выполняет определенную функцию:

Машины веб-поиска - это сервера с огромной базой данных URL-адресов, которые автоматически обращаются к страницам WWW по всем этим адресам, изучают содержимое этих страниц, формируют и прописывают ключевые слова со страниц в свою базу данных (индексирует страницы).

Более того, роботы поисковых систем переходят по встречаемым на страницах ссылкам и переиндексируют их. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернет.

Именно этот вид поисковых инструментов является наиболее известным и популярным среди всех пользователей сети Интернет. У каждого на слуху названия известных машин веб-поиска (поисковых систем) – Яndex, Rambler, Aport.

Работа машин веб-поиска сводится к следующему:

    Анализ веб-страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера.

    Поиск информации по запросу пользователя.

    Обеспечение удобного интерфейса для поиска информации и просмотра результата поиска пользователем.

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы. При их описании используются следующие понятия:

    Интерфейс поискового инструмента представлен в виде страницы с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запроса.

    Индекс поисковой системы – это информационная база, содержащая результат анализа веб-страниц, составленная по определенным правилам.

    Запрос – это ключевое слово или фраза, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные символы ("", ~), математические символы (*, +, ?).

Схема поиска информации проста. Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц).

В России наиболее крупными и популярными поисковыми указателями являются:

    «Яndex» (www.yandex.ru)

    «Pамблер» (www.rambler.ru)

    «Google» (www.google.ru)

    «Апорт2000» (www.aport.ru)

2 Механизмы поиска

Обобщенная технология поиска состоит из следующих этапов:

    Пользователь формулирует запрос

    Система проводит поиск документов (или их поисковых образов)

    Пользователь получает результат (сведения о документах)

    Пользователь совершенствует или реформирует запрос

    Организация нового поиска...

Как правило, поисковые машины поддерживают два режима: режим простого поиска и режим расширенного поиска. Рассмотрим обобщенные возможности.

Формирования запроса в режиме простого поиска. Можно просто вводить через пробел одно или несколько слов; поиск слов со всевозможными окончаниями моделируется символом * в конце слова. Многие системы позволяют искать словосочетания или фразу, для этого необходимо ее заключить в кавычки. Возможно обязательное включение или исключение определенных слов.

Основная проблема поиска по примитивно составленному запросу (в виде перечисления ключевых слов) заключается в том, что поисковая машина найдет все страницы, на которых указанные слова встречаются в любой части документа. Как правило, количество найденных страниц будет слишком велико.

Для улучшения качества поиска в режиме простого поиска допустимо использование логических операторов и операторов, позволяющих ограничить область поиска, а также выбор определенной категории документов из представленного списка.

Многие поисковые системы включают в свой язык составления запросов специальные операторы, позволяющие проводить поиск в определенных зонах документа, например, в его заголовке, или искать документ по известной части его адреса.

Режим расширенного или детального запроса в разных системах реализован индивидуально, но чаще всего это бланк, в котором упомянутые операторы и ключевые элементы реализуются простой установкой соответствующих флажков или выбором параметров из списка.

Ниже в качестве примера приведены сведения из раздела помощь поисковой системы Yandex: окно расширенного поиска, язык запросов, искать в найденном.

Искать в найденном Если в результате запроса Яндекс нашел много документов, но по более широкой теме, чем вам хочется, вы можете сократить этот список, уточнив запрос. Еще один вариант - включить флажок в найденном в форме поиска, задать дополнительные ключевые слова, и следующий поиск будет вестись только по тем документам, которые были отобраны в предыдущем поиске.

Памятка по использованию языка запросов

Пример

Значение

"К нам на утренний рассол"

Слова идут подряд в точной форме

"Прибыл * посол"

Пропущено слово в цитате

полгорбушки & мосол

Слова в пределах одного предложения

снаряжайся && добудь

Слова в пределах одного документа

глухаря | куропатку | кого-нибудь

Поиск любого из слов

не смогешь << винить

Неранжирующее "и": выражение после оператора не влияет на позицию документа в выдаче

я должон /2 казнить

Расстояние в пределах двух слов в любую сторону (то есть между заданными словами может встречаться одно слово)

нешто я ~~ пойму

Исключение слова пойму из поиска

при моем /+2 уму

Расстояние в пределах двух слов в прямом порядке

чай ~ лаптем

Поиск предложения, где слово чай встречается без слова лаптем

щи /(-1 +2) хлебаю

Расстояние от одного слова в обратном порядке до двух слов в прямом

Соображаю!что!чему

Слова в точной форме с заданным регистром

получается && (+на | !мне)

Скобки формируют группы в сложных запросах

Политика

Словарная форма слова

title:(в стране)

Поиск по заголовкам документов

url:ptici.narod.ru/ptici/kuropatka.htm

Поиск по URL

беспременно inurl:vojne

Поиск с учетом фрагмента URL

Поиск по хосту

Поиск по хосту в обратной записи

site:http://www.lib.ru/PXESY/FILATOW

Поиск по всем поддоменам и страницам заданного сайта

Поиск по одному типу файлов

Поиск с ограничением по языку

Поиск с ограничением по домену

Поиск с ограничением по дате

государственное дело && /3 улавливаешь нить

Расстояние в 3 предложения в любую сторону

нешто я ~~ пойму

Исключение слова пойму из поиска

Интересной возможностью является поиск документов в сети, ссылающиеся на страницу с указанным вами адресом (URL). Таким образом, можно найти в сети страницы, на которых есть ссылки на ваш Web-сайт. Некоторые системы позволят ограничить область поиска внутри указанного домена.

В качестве дополнительных специальных операторов можно выделить:

    Операторы поиска документов с определенным графическим файлом;

    Операторы ограничения по дате искомых страниц;

    Операторы близости между словами;

    Операторы учета словоформы;

    Операторы сортировки результатов (по релевантности, свежести, старости).

Следует заметить, что, к великому сожалению, на сегодняшний день не существует стандарта на количество и синтаксис поддерживаемых операторов для различных поисковых систем. Попытки разработать стандарт на синтаксис поддерживаемых операторов предпринимаются, поэтому есть надежда на то, что разработчики поисковых систем позаботятся об удобстве пользователей. На данном этапе развития средств поиска, пользователь, обращаясь к определенной поисковой системе, непременно должен в первую очередь ознакомиться с ее правилами составления запросов. Как правило, на домашней странице будет обязательно присутствовать ссылка Помощь (Help), по которой вы перейдете к справочной информации.

Различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной поисковой системе.

Рассмотрим способы представления результатов поиска в поисковых машинах.

Чаще всего количество найденных документов превышает несколько десятков, а в отдельных случаях может достигать сотен тысяч! Поэтому в качестве формы выдачи составляется список документов по 5-10-15 единиц на странице с возможностью перехода к следующей порции внизу страницы. Обязательно указывается заголовок и URL(адрес) найденного документа, иногда система указывает в процентах степень релевантности документа.

В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов).

Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов.

Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания.

Однако, автоматизация определение похожести – весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

© 2024 who-calls-me.ru
Whocallsme - Мир вашего софта