Конкурентная разведка и интернет-маркетинг: января 2015

среда, 21 января 2015 г.

26 статей уголовного кодекса, предусматривающих ответственность за распространение информации

В России есть целый ряд статей, подразумевающий преступления, для совершения которых достаточно распространить какую-либо информацию (случаи, когда распространение информации само по себе может образовать состав преступления) зависит от трактовки и фантазии правоохранительных органов.

Статья 119. Угроза убийством или причинением тяжкого вреда здоровью.
Статья 128.1. Клевета.
Статья 135. Развратные действия (есть свежее разъяснение Пленума ВС, что по данной статье можно квалифицировать действия, совершенные посредством сети интернет).
Статья 137. Нарушение неприкосновенности частной жизни.
Статья 138. Нарушение тайны переписки, телефонных переговоров, почтовых, телеграфных или иных сообщений (с некоторой натяжкой, т.к. состав образует собственно нарушение, а разглашение - не обязательный признак).
Статья 146. Нарушение авторских и смежных прав.
Статья 147. Нарушение изобретательских и патентных прав.
Статья 148. Нарушение права на свободу совести и вероисповеданий (условно).
Статья 155. Разглашение тайны усыновления (удочерения).
Статья 205.1. Содействие террористической деятельности.
Статья 205.2. Публичные призывы к осуществлению террористической деятельности или публичное оправдание терроризма.
Статья 207. Заведомо ложное сообщение об акте терроризма.
Статья 212, ч. 3 - Призывы к массовым беспорядкам.
Статья 242. Незаконные изготовление и оборот порнографических материалов или предметов.
Статья 242.1. Изготовление и оборот материалов или предметов с порнографическими изображениями несовершеннолетних.
Статья 273. Создание, использование и распространение вредоносных компьютерных программ.
Статья 274. Нарушение правил эксплуатации средств хранения, обработки или передачи компьютерной информации и информационно-телекоммуникационных сетей (условно).
Статья 280. Публичные призывы к осуществлению экстремистской деятельности.
Статья 282. Возбуждение ненависти либо вражды, а равно унижение человеческого достоинства.
Статья 283. Разглашение государственной тайны.
Статья 310. Разглашение данных предварительного расследования.
Статья 311. Разглашение сведений о мерах безопасности, применяемых в отношении судьи и участников уголовного процесса.
Статья 319. Оскорбление представителя власти.
Статья 320. Разглашение сведений о мерах безопасности, применяемых в отношении должностного лица правоохранительного или контролирующего органа.
Статья 354.1. Реабилитация нацизма.
Статья 359. Наемничество.

48 видов контента, которые могут стать основанием для блокировки

Политический контент

Информация и сайты, посвященные деятельности оппозиционных движений, а также сообщения, содержащие критику действующей власти. В ряде стран подобный контент подпадает под формулировку «анти-государственная пропаганда». В частности, по этой статье в 2012 году во Вьетнаме были осуждены несколько блогеров.
Сайты, посвященные защите прав человека. Такие сайты блокируются, в частности, в Бирме. Тестирование показало, что там недоступны сайты правозащитных организаций Human Rights Watch, Amnesty International и Burma Watch, а также ресурсы, освещающие состояние дел с правами женщин в стране.
Сайты религиозных движений и сект, деятельность которых не одобряется государством. В частности, в Китае цензуре подвергается информация о духовной дисциплине Фалуньгун. А в ряде мусульманских стран блокируются ресурсы, направленные на распространение христианства.
Информация об этнических меньшинствах. Так, Вьетнам подвергает цензуре сведения о племенах монтаньяров.

Информация, нарушающая социальные нормы

Порнографические сайты. Большинство стран мира регулирует доступ к порнографическим материалам в Интернете. Отдельные страны, такие как Саудовская Аравия, пытаются заблокировать этот сегмент полностью, но усилия большинства стран направлены на ограничение доступа к ним несовершеннолетних. Сильно отличается в различных странах понимание того, что считается порнографией – например, в Иране блокируются даже изображения «провокационной одежды». Общим местом же является борьба с детской порнографией.
Сайты, посвященные половому просвещению и планированию семьи.
Сайты ЛГБТ-тематики. В ряде мусульманских стран Среднего Востока и Африки под запрет попадают сайты знакомств и форумы для геев и лесбиянок. Белоруссию обвиняют в блокировании ЛГБТ ресурсов под предлогом того, что они содержат порнографию.
Сайты о наркотиках и алкоголе. Наиболее крупные сайты подобного рода попали в блок-списки сразу нескольких коммерческих интернет-фильтров.
Онлайн-казино. До 2010 года в Италии действовал закон, блокирующий большинство зарубежных интернет-букмекеров и казино. Он был принят под давлением двух организаций, получивших монопольное право на организацию букмекерской деятельности. Однако после серии исков частных компаний и расследования Евросоюза, закон был изменен.
Сайты, разжигающие межнациональную и религиозную рознь или призывающие к насилию. В России действует законодательство о борьбе с экстремизмом, предусматривающее блокировку подобных интернет-ресурсов. Во Франции и Германии блокируются неонацистские сайты. В 2000 году французский суд вынес громкий вердикт в деле против компании Yahoo, обязав ее ограничить доступ французских пользователей к интернет-аукциону нацистской символики. Дело оказало значительное влияние на всю последующую дискуссию в странах Евросоюза о юрисдикции государств в Интернете.
Сайты, оскорбляющие государственную религию. В большинстве мусульманских стран блокировались ресурсы, содержащие карикатуры на пророка Мухаммеда.
Сайты, распространяющие клевету и диффамацию, в частности, в адрес представителей властей.

Контент, блокируемый по соображениям безопасности

Сайты экстремистских, сепаратистских и террористических движений. Блокирование применяется как демократическими, так и авторитарными государствами.
Интернет-ресурсы военных противников. Южная Корея тщательно блокирует сайты Северной Кореи. В Грузии во время и некоторое время после войны с Россией в 2008 году действовали ограничения на доступ к российским сайтам.
Ресурсы с конфиденциальными данными. В США сайт Wikileaks недоступен с компьютеров федеральных учреждений. Власти Франции в апреле 2013 года потребовали от Wikipedia удаления одной из статей, так как в ней содержалась секретная информация.
Сайты онлайн-мошенников и финансовых пирамид. Массовая рассылка нежелательной почты (спам) и вредоносное программное обеспечение (malware). Блокируется большинством интернет-провайдеров, а также антивирусами и фаерволлами, установленными на компьютерах пользователей.

Сайты и сервисы, нарушающие экономические интересы

Сайты, нарушающие интеллектуальную собственность. Особенно жесткое законодательство в этой сфере действует в США. Крупные поисковые системы, в частности Google, фильтруют результаты поиска с учетом жалоб правообладателей.
Файлообменные сайты, программы и торрент-трекеры. В 2012 году под давлением американских властей был заблокирован на тот момент один из самых посещаемых сайтов Интернета – файлообменный сервис MegaUpload, а его создатели были арестованы. Широко освещается борьба с торрент-трекерами (The Pirate Bay, Demonoid, IsoHunt), которые формально не нарушают закон, но способствуют нелегальному распространению интеллектуальной собственности.
VoIP (Voice-over-IP) программы и сервисы, позволяющие передавать голос по Интернету, такие как Skype и «Mail.Ru Агент». В Объединенных Арабских Эмиратах и Омане использование таких программ нелегально и карается большим штрафом или тюремным заключением. Причина блокирования VoIP программ двоякая: с одной стороны - звонки по ним сложнее отследить и прослушать, с другой – их использование ведет к убыткам компаний стационарной и сотовой связи, которые, зачастую, связаны с правящими кругами.

Инструменты обхода блокировок и социальные сервисы

Инструменты, позволяющие обходить интернет-цензуру. В эту категорию попадают анонимайзеры и сайты со списками прокси-серверов, так как они могут использоваться для обхода государственных фильтров.
Хакерские сайты и ресурсы с информацией об обходе интернет-цензуры. Социальные сети, площадки для блогов и микроблогов, хостинги видео и изображений. В Китае заблокирован Twitter, Facebook, YouTube, WordPress и ряд других подобных ресурсов, серверы которых расположены за рубежом. Таким образом китайское правительство принуждает своих пользователей использовать местные сервисы, которые легче контролировать и фильтровать публикуемый в них нежелательный контент.
Поисковые системы. Так, в Китае и на Кубе блокируются американские поисковые системы Google и Bing, бесплатные почтовые сервисы.
Онлайн-переводчики. Они могут быть использованы как прокси-серверы для обхода цензуры. Помимо этого, с их помощью пользователи могут получить доступ к нежелательной информации на иностранных языках, которую сложно отследить.

понедельник, 12 января 2015 г.

Недокументированные операторы языка запросов Яндекса

За время своего существования язык запросов Яндекса претерпел существенные изменения. Причем изменения эти были далеко не в лучшую сторону для пользователя. Постепенно исчезло много операторов, применение которых пытливому исследователю позволяло творить чудеса.

Исчезли замечательные операторы, такие как link (поиск по ссылающимся документам), anchor (поиск по текстам ссылок), : и :: (разные варианты присвоения веса термину из запроса), softness (настройка мягкости для фильтрации по кворуму) и другие. Текущий список документированных операторов можно найти в помощи Яндекса.

Однако, до сих пор в поиске продолжают использоваться операторы, которые исчезли из документации. Например, оператор <<(неранжирующее логическое «И») бывает очень полезен при построении достаточно сложных конструкций в запросе. Более того, до сих пор используются операторы, которые никогда не были задокументированы. По крайней мере для большого поиска.

В свое время в разделе помощи Яндекса, посвященной Яндекс.Серверу (приложению для поиска в корпоративных сетях и поиска по сайту), содержался многостраничный документ «Яндекс.Сервер. Руководство по установке и эксплуатации» (до сих пор отдельные версии этого документа для различных сборок, закачанные на сторонние сайты, можно найти в глубинах сети). Там довольно подробно описывался язык запроса, который был несколько шире задокументированного языка запросов для большого поиска по вебу. Но что самое интересное, многие операторы из руководства Яндекс.Сервера работали (и до сих пор работают) в большом поиске. Рассмотрим самые, на мой взгляд, интересные из них.

Оператор intext

Пожалуй, наиболее интересный оператор. Выдача с его использованием не пустая и отличается от выдачи без его использования:

Заявлено, что этот оператор используется для поиска только в текстах документов. И это действительно похоже на правду. Например, документы, найденные по ссылке, этим оператором, не ищутся:

То есть, при ранжировании по сути игнорируется анкор-файл. Этот оператор может быть весьма полезен при исследовании текстовой релевантности документов.

Оператор inlink

Заявлено, что оператор используется для поиска в ссылках на документы. Однако, к большому сожалению, если этот оператор применять целиком ко всей поисковой фразе, выдача пуста:

Выдача становится непустой, если хотя бы одно слово запроса вынести из-под данного оператора:

Однако трудности с интерпретацией полученных результатов сводят к минимуму полезность этого оператора.

Оператор inpos

Выдержка из руководства: «Специальное имя атрибута для указания точного диапазона позиций, в которых должен находиться предыдущий лист или скобка. Имеет синтаксис inpos:N1..N2, где N1 и N2 — целые положительные числа». Применение различных интервалов к запросу дает любопытные эффекты. Например, при достаточно малом диапазоне выдача сужается до документов, содержащих ключевые слова только в адресе документа:

Оператор linkint

Сильно ужатая версия былого оператора link, осуществляющая поиск внутренних ссылок на определенный документ. Однако может быть полезен при решении определенных задач.

Оператор anchorint

Аналогичным образом ужатая на внутренние ссылки версия отмененного оператора anchor. Осуществляет поиск по документам, содержащих ключевую фразу в текстах своих ссылок, ведущих на внутренние страницы того же сайта. Любопытна конструкция, объединяющая операторы linkint и anchorint (аналогичным образом в свое время можно было объединить в одном запросе операторыlink и anchor), и позволяющая найти все внутренние страницы сайта, ссылающиеся на данную страницу заданной ключевой фразой:

Менее любопытны, но на мой взгляд, заслуживают упоминания операторы, позволяющие искать по определенным фрагментам текста документов:

• address – поиск внутри текстов, заключенных в теге

• quote - поиск внутри текстов, заключенных в теге

Оператор image

Осуществляет поиск по имени файлов изображений, используемых в документе. Так, например, например, на страницах сайтов, принадлежащих Яндексу, используется однопиксельное изображение с именем файла La6qi18Z8LwgnZdsAr1qy1GwCwo.gif. С помощью оператора image можно найти все страницы, содержащие такое изображение:

Оператор anchormus

Ищет ссылки на музыкальные файлы, содержащие в анкоре поисковый запрос:

Оператор linkmus

Позволяет найти все страницы, ссылающиеся на определенный музыкальный файл:

Оператор idate

В отличие от канонического оператора date, который ищет документы с заданной датой последнего изменения (формулировка взята из раздела «Документные операторы» помощи Яндекса), оператор idate ищет документы с заданной датой последней индексации.

Вообще под датой последнего изменения на самом деле понимается возраст документа в поисковой базе. Так, например, отсортировав выдачу по времени (добавляется параметр &how=tm в URL страницы выдачи), видим, что главная страница Яндекса датирована 14 августа 2006 года:

Именно по этой дате главная страница Яндекса находится с помощью оператора date:

В случае же оператора idate главная страница Яндекса на момент написания статьи находится совсем по другой дате – 17 декабря 2014 года (для тех, кто владеет старым добрым методом половинного деления, нахождение этой даты не составляет труда):

Что почти совпадает с датой сохраненной копии – 18 декабря 2014 года:

Удивительно, но в индексе по сей день продолжают находиться документы, не переиндексировавшиеся годами. Самая старая сохраненная копия документа, которую мне удалось найти, датирована 26 мая 2008 года:

И, в заключение, пожалуй, стоит упомянуть пусть совсем малоинтересные в практическом применении, но тем не менее, имеющие место быть недокументированные операторы, позволяющие искать по определенным фрагментам кода документов: