четверг, 11 октября 2012 г.

И.Нежданов о поисковых запросах


Игорь Нежданов хорошо обобщил информацию о составлении поисковых запросов в зависимости от ситуации.

Разбираться с темой будем на примере Яндекса. Почему? – да по тому, что у него есть оператор следования, чего нет у других «больших» поисковиков и он лучше работает с русским языком. Точнее Яндекс единственный из крупных, кто вообще работает с русской морфологией.

Для начала нужно запомнить, что поисковики периодически меняют правила поиска (алгоритм поиска, значение операторов, принцип построения весовых значений) и Яндекс не исключение. Они же предоставляют сервис бесплатно и на условии «как есть», а по тому не обязаны что-то соблюдать с его стабильностью.

Теперь пара слов о самих поисковых операторах. Для Яндекса они хорошо расписаны в «Помощи» к Яндексу вот здесь http://help.yandex.ru/search/?id=1111313. Там же найдете и примеры их применения и еще массу полезной информации, а «на соседней странице» можно увидеть полезные документальные операторы http://help.yandex.ru/search/?id=1111369. Поэтому исходим из того, что пользоваться поисковыми операторами вы умеете и не тратим время на эту тему, а сразу переходим к самому формированию запросов.

И для окончания вступления – уверен, что для многих эта тема давно пройденный этап. Но почему то ко мне достаточно часто обращаются с просьбой рассказать как правильно составлять запросы для поисковых систем. Видимо появляются новые поклонники «Больших» поисковых систем.

Как строиться запрос

Мы регулярно что то ищем. От значения не знакомого слова до адресов, инструкций, людей. Но чаще всего мы ищем вполне определенные объекты – объекты, которые понятны и относительно просты в своем описании. Например мы ищем конкретного человека зная как его зовут, примерный возраст и город проживания. Вполне себе определенная информация. Гораздо реже пользователю нужны абстрактные понятия.

Когда нужно найти что-то конкретное – то именно это (обозначение, название, имя…) и вносим в поисковую строку. Все просто – поисковики приучили нас к простоте. А вот что делать, когда нужно найти нечто абстактное? Не такое конкретное, как название компании или книги. Вот тут то и начинаются сложности с формированием поискового запроса.

Шаг 1 Фиксируем проблему

Для начала нужно хоть как-то сформулировать проблему. Просто необходимо превратить мысль в слова. Иначе поисковик вас не поймет – он работает только со словами. Итак, записываем вашу проблему на бумагу (так будет проще работать с ней). Записываем так как она «вас посетила». Затем приводим ее к удобоваримой форме.

Шаг 2 Уточняем формулировку

Переформулируем  проблему по возможности кратко и в то же время достаточно однозначно. Например из «как бы мне узнать что может меня ожидать из плохого при путешествии пешком по горному Алтаю…» путем сжатия формулировки получаем «проблемы пешего путешествия по горному Алтаю». Получилось более кратко и в то же время не потеряло смысл.

Такое «сжатие» осуществляется путем сначала понимания сути проблемы, а затем формулирования этой сути по новой. Но даже если не получается сжать, не отчаивайтесь – переходите к Шагу 3. Этот шаг также позволяет взглянуть на проблему с другой стороны и в конце концов перефразировать ее.

Шаг 3 Выбираем ключевые слова

Это ни что иное как отбор тех слов из формулировки проблемы, без которых теряется ее смысл. Возьмем ту же тему, что обозначена выше «проблемы пешего путешествия по горному Алтаю». Какие слова определяют смысл? Видимо слова и словообразования «проблемы», «пешее путешествие» и «горный Алтай». Даже их простое перечисление позволяет понять, о чем идет речь.

Шаг 4 «Расширяем» запрос

Данный шаг обусловлен многообразием и многовариантностью русского языка. Да и любого языка. Дело в том, что одну и ту же мысль можно выразить разными словами и по тому полезная для вас информация может оказаться не с тем набором ключевых слов, что вы использовали. А поисковики ищут именно по словам. В результате будет упущена полезная информация. Чтобы избежать такого развития нужно «расширить» ваш запрос. «Расширение» в нашем случае это нахождение дополнительных понятий, которые могут быть использованы другими людьми для описания интересующей вас проблемы. Например синонимы для слова «переход» это слова путь, ходьба, движение и т.д..

«Проблемы»

Как люди могут еще назвать проблему? – «сложность», «трудность», «опасность». Возможны еще варианты, но оставлю их для развития вашей фантазии.

«Пешее путешествие»

«Переход», «ходьба», возможно «туризм»…

«Горный Алтай»

Поскольку речь о горах, а они и бывают весьма похожи, то это слова обозначающие горы – «горы» и , при необходимости, названия разных гор «Урал», «Кавказ», «Памир», «Альпы», «Анды»…  Ведь там скорее всего те же трудности и опасности подстерегают путешественника.

Направления «расширения» понятий

Для выявления всего возможного материала запрос необходимо расширять за счет использования слов и выражений ассоциированных с искомыми. Некоторые примеры (но не все) приведены ниже.

Синонимы (полные и частичные)

самолет – аэроплан; налог – подать – сбор;

кушать – есть – питаться  или получить – принять

Однокоренные слова

поставить – доставить – подставить – проставить

Иные части речи

стройка – строительство – строить – построенный

Слэнг, жаргон, вульгаризм, просторечие

шарман, гёрла, юзер, доллар – бакс, голова – башка, сегодня – сёдня

Иностранные эквиваленты

налог – tax, taxes

Простые сокращения

страница – стр, статья – ст,

Аббревиатура и сокращения

СПС – союз правых сил, профком – профессиональный союз

Иные варианты написания слов

1 – I – один – первый

Шаг 5 Составляем используя операторы

Посредством лексики поисковой системы описывается взаимное положение поисковых блоков и их взаимная зависимость и составляется сам запрос с использованием операторов эксплуатируемой поисковой системы.

Берем ту же тему «проблемы пешего путешествия по горному Алтаю». Для слова «проблемы» мы выявили синонимы и синонимические выражения «сложность», «трудность», «опасность». Предположим, что больше нет вариантов. Значит данный блок запроса будет выглядеть так [(проблема | сложность | трудность | опасность)] Здесь и далее квадратные скобки в самом запросе не нужны – они нужны для визуального отделения тела запроса от остального текста.

Также поступаем с «пешим путешествием» и «горным Алтаем» и получаем [(путешествие | переход | туризм)] и  [(алтай | горы | урал | памир | альпы | анды)] Теперь пробуем составить первый полноценный запрос [+(проблема | сложность | трудность | опасность) +(путешествие | переход | туризм) +(алтай | горы | урал | памир | альпы | анды)]  и пробуем его в работе. Он выдает неимоверное количество ответов, прочитать которые не хватит и полжизни. Значит нужно уточнять запрос.

Уточнение может идти несколькими путями. Во-первых смотрим какое слово «приносит» больше всего «информационного мусора» — информации не по теме. В нашем случае это слово «туризм». Оно и понятно – ведь туризм на три четверти не связан с экстримом и опасностями…  Значит убираем это слово из запроса. И так проделываем пока не сведем выборку до приемлемых результатов.

Во-вторых нужно задействовать дополнительные операторы поисковика. Например, поставив себя на место человека публикующего информацию о сложностях альпинизма (к стати еще одно слово для поиска), попробуйте понять как он может сформулировать свои мысли в части обозначения трудностей путешествия. В частности, скорее всего, слова «трудность» и «путешествие» будут стоять рядом или не далеко друг от друга. Например возможны такие конструкции как «трудности путешествия» или «трудности в ходе путешествия» или «трудности, с которыми мы столкнулись путешествуя по…». В общем эти слова будут точно в одном предложении. Вот и задействуем это правило в запросе, используя соответствующий оператор. И получаем вот такую конструкцию [((проблема | сложность | трудность | опасность) & (путешествие | переход)) +(алтай | горы | урал | памир | альпы | анды)]

При необходимости далее уточняем запрос до получения приемлемых результатов.

И еще

В силу наличия человеческого фактора, в документах достаточно часто встречаются ошибки. А ошибка в искомом документе (тексте) приводит к тому, что этот документ не будет найден. Поэтому при составлении запросов необходимо учитывать и ошибочное написание слов. Такие варианты задействуются как синонимы основных понятий запроса.

Безусловно, количество возможных ошибочных написаний одного слова огромны, поэтому в первую очередь необходимо учитывать наиболее распространенные ошибочные написания искомого слова.

Причины появления таких ошибок разные:

1- случайная опечатка при вводе информации;

2- безграмотность автора или того кто вводил информацию;

3- намеренные ошибки для облегчения обнаружения сайта пользователями, которые неверно вводят искомое слово в поисковую строку сервера-поисковика;

4- намеренные ошибки для усложнения обнаружения сайта пользователями, которые не в теме (своего рода маскировка);

5- принадлежность автора к некой субкультуре использующей соответствующий  сленг (сюда же относятся и сетевые традиции написания слова.

Теперь рассмотрим наиболее часто возникающие задачи по поиску информации на просторах интернета. Изучение проводим всё так же на основе поисковых операторов Яндекса, как наиболее приспособленных под русский язык.

Если ищем информацию о человеке

Что является идентификатором человека
Или другими словами – по каким признакам мы можем определить, что это тот самый человек, которого мы ищем? Таких признаков достаточно много, но нужно помнить, что есть уникальные признаки, а есть не уникальные. Уникальные это те, которые однозначно указывают на искомый объект или те, которые могут принадлежать только одному человеку. Например это ИНН. А вот адрес прописки уже не может быть уникальным – ведь по этому адресу может быть прописано более одного человека. Или возьмем ФИО человека. Ведь всегда существует вероятность существования полного тезки, но чем необычнее эти самые Фамилия-Имя-Отчество, тем эта вероятность ниже. И в ряде случаев ею можно пренебречь. Но и не уникальные признаки нужны. Используя их в сочетании друг с другом можно также однозначно идентифицировать объект поиска. Например сочетание «ФИО» + «дата рождения» делает два не уникальных признака весьма близким к уникальному.

Что же может являться идентификаторами человека, в т.ч. и не уникальными?

  • ФИО;
  • Дата рождения;
  • Адрес проживания (прописки);
  • ИНН (уникальный);
  • Данные документов — номер и серия паспорта, водительского удостоверения, пенсионного свидетельства (уникальны);
  • Номер телефона (домашнего, мобильного);
  • e-mail (уникальный);
  • ник на форуме;
  • номер icq, ник в skype… (уникальны);
  • адрес блога, личного сайта….

Другими словами всё, что связано с человеком может выступать его идентификатором или поисковым признаком.

Как строится запрос

Теперь, понимая по каким признакам можно найти информацию о человеке в интернете, рассмотрим несколько вариантов поиска.

1. По уникальным признакам.

Это довольно просто – если мы знаем уникальный признак, то используя его в качестве условия поиска мы должны получить те странички в интернете, на которых этот признак фигурирует. А значит на этих страничках упоминается и искомое лицо. Но увы это не совсем так. Для примера возьмем «ИНН». Признак уникальный – один человек – один ИНН. Проблема заключается в том, что ИНН это набор цифр. А такой же набор цифр может быть и номере фотографии (коих много) или в icq… Получается много «информационного шума» — не нужной нам информации.
Значит нужно ограничить выдачу. Это дополнение – когда  вместе с самим поисковым признаком (в данном случае набором цифр) использовать и идентификатор этого поискового признака (в данном случае «ИНН»). Тогда запрос получиться таким:

["ИНН" /2 "1234567890"]

Оператор следования в данном случае нужен чтобы отсечь страницы, где «ИНН» находится за несколько предложений от «1234567890» — вряд ли это то, что нам нужно. При этом мы понимаем, что в некоторых случаях этот самый набор букв «ИНН» могут поставить и после самого номера и перед. Есть еще один способ — он основан на последовательном исключении из выдачи того, что нас не устраивает. Но он менее удобен и не так однозначен. Тем ни менее рассмотрим его – вполне возможно подойдет для решения других задач. Например задали мы запрос «1234567890» и получили в выдаче поисковика и номера телефонов, и номера фотографий, и еще что то…. Тогда начинаем добавлять исключения из выдачи. Напомню – это оператор «~~» двойная тильда. Она означает, что всё, что стоит после нее НЕ должно присутствовать в выдаче поисковика. В нашем случае это будет выглядеть примерно так:

["1234567890" ~~(телефон | фото | icq | номер)]  – думаю его недостаток для этой конкретной задачи очевиден. Ведь на целевой странице вполне может содержаться и искомый «1234567890» и одно из исключенных слов (телефон | фото | icq | номер). А значит вы такую страницу не увидите. В общем не рекомендую использовать этот метод для аналогичных случаев.

Поисковый запрос для поиска по skype, следуя той же логике, будет выглядеть так:

[(skype | скайп) /2 "ник в скайпе"] 

А по icq вот так 

[(icq | ася | аська | месенджер) /2 1234567]

Если же вы знаете несколько уникальных идентификаторов, то поисковый запрос будет выглядеть так: [«номер ИНН» | «номер страхового свидетельства»| «номер и серия паспорта» | «номер и серия водительского удостоверения»]
Отдельно нужно рассказать о таком идентификаторе как номер телефона. Во первых это набор цифр со всеми вытекающими отсюда сложностями. Во вторых этот набор могут писать по разному (слитно, с пробелами, через тире, через точку и т.п..). Всё это нужно учесть в составлении поискового запроса. Если это «семизнак» (что постепенно отходит в историю),  то здесь в качестве дополнительного идентификатора нужен или код города или указатель на то, что это телефон (тел, тлф и т.п.). Для таких случаев запрос может выглядеть так:

[(тел | тлф | телефон|) /(+1 +3) ("1234567" | "123 4567"| "123 45 67")]

Если же номер из числа «красивых», то нужно учитывать и эти «красивости». Например если номер 2340432 , то в варианты написании нужно добавить и «234-0-432″. Если же что то вроде «7272134″ то нужно учесть вариант написания «72-72-134″. Поскольку Яндекс все спецсиволы воспринимает как пробел, то достаточно написания одно варианта (например с пробелом или с тире), а остальные найдутся.

2. По не уникальным признакам

Теперь посмотрим как поступить, кода в нашем распоряжении есть не уникальные признаки. Например «ФИО» и город проживания. И тот и другой признак в отдельности может принадлежать более чем одному человеку. Вместе они уменьшают такую вероятность (но не исключают). Для начала нужно понять как написать в запросе ФИО. Ведь оно может быть написано по разному так «ФИО» или так «ИОФ». А если использовать сокращения (инициалы) то количество вариантов увеличивается. Итак «Нежданов Игорь Юрьевич» (потренируемся на мне для исключения кривотолков) – для Яндекса это будет выглядеть так:

[нежданов /1 "игорь юрьевич"]

Т.е. одим запросом мы собираем и «нежданов игорь юрьевич» и «игорь юрьевич нежданов». Теперь предположим, что объект проживает в Москве. Тогда запрос будет выглядеть так:

[+(нежданов /1 "игорь юрьевич") +москва]

Но у меня есть еще один идентификатор – профессиональная деятельность – «конкурентная разведка». Если использовать ее, то запрос будет выглядеть так:

[+(нежданов /1 "игорь юрьевич") +"конкурентная разведка"]

Можно задействовать несколько признаков тем самым сузив выдачу. Например помимо указанного про меня известно, что когда то был членом СПКР – тогда запрос приобретет такую форму:

[+(нежданов /1 "игорь юрьевич") +"конкурентная разведка" +СПКР +москва]

Если ищем информацию об организации

Что является идентификатором организации
Теперь точно так же попробуем понять как искать информацию о компании на просторах интернета. Для начала нужно понять что может являться поисковыми признаками организации.

  • Название организации – если оно уникально, а не набор общеупотребительных слов, то такой признак можно назвать уникальным.
  • ИНН организации – уникальный идентификатор как и ее ОГРН.
  • Бренд, торговая марка – также как и название, если они уникальны, а не являются набором общеупотребительных слов, то такой признак также является уникальным.
  • ФИО руководителя, ТОПов, учредителей – это тоже поисковый признак, но не уникальный. Если только ФИО не состоит из редких слов.
  • Контакты компании (телефон, факс, e-mail, сайт, skype, icq и т.п.) – к сожалению тоже могут быть уникальными с оговоркой т.к. и на одном телефоне может быть несколько компаний и одним e-mal могут пользоваться несколько юрлиц.
  • Домен (сайт) – скорее уникальный идентификатор.
  • Товар или услуга компании – не уникальный идентификатор, если только компания не является единственным в мире производителем товара.

Логика же построения запросов такая же как и при поиске информации о человеке.

Комментариев нет:

Отправить комментарий