Избранное из Сети: чтение для начальства

Текст:Марина Эфендиева

Как отличить хорошее от плохого

Разработчики некоторых систем «слежения» уверяют, что могут довольно уверенно в режиме реального времени отследить «плохие» и «хорошие» комментарии. Андрей Комаров, руководитель отдела аудита и консалтинга компании Group IB (компания специализируется на расследованиях преступлений в компьютерной сфере) считает, что в таких заявлениях есть доля лукавства.

«Алгоритмы для анализа информации и извлечения знаний достаточно формализованы. Они требуют для увеличения точности как можно больше поступаемой информации на вход. Если вы такой системе положите 2-3 сайта с двумя-тремя предложениями, где будет слово «плохо» и или «хорошо», то, скорее всего, результат там будет менее чем удовлетворительный, почему все эти системы работают на больших сгонах информации и, как правило, структурированных, — рассказал Комаров в интервью BFM.ru. — Другая особенность заключается в морфологии. Не все эти системы адаптированы к разбору иностранных языков, транслиту, жаргонным выражениям. Все эти критерии очень влияют на качество анализа».

По его оценкам, 40-45% — это действительный показатель. Он также уверен, что все эти системы требуют участия оператора. «Оператор ознакомляется с результатами вывода и уже сортирует, отбирает, понимает, что же система ему показала. Это некий автоматизирующий инструмент деятельности аналитика», — пояснил он BFM.ru.

Представитель InfoWatch рассказал, что очень мало систем могут показывать положительный, отрицательный, нейтральный характер высказываний. «Здесь все завязано на лингвистике. Необходимо понять, про что этот текст, снять омонимию, то есть понять, что там. Вот фраза: «Мне купили новый iPod, а на районе у меня его отжали». Вопрос: что отжали? Что отжали именно iPod, что это негативная реакция, система должна понимать. У «Яндекса» что-то похожее есть, когда они пытаются организовать поиск на естественном языке, чтобы вопрос был естественный без использования языка запроса, и пытаются понять, что означает то или иное слово, его порядок в предложении, пытаются построить релевантную выдачу. Так же и наша система. Она также выбирает предложения, помимо того, что выбирается само сообщение, потом кидается в какую-то категорию, выбирается предложение, и система пытается понять, о чем речь: позитив, негатив, что имел в виду пользователь и так далее. Многие оценивают, что система понимает на 80%».

Надо сказать, что есть вещи, которые мешают системе понять и оценить эмоциональную составляющую блогов, постов и твитов. Это интернет-сленг, так называемый «олбанский язык», и употребление идиоматических выражений. Но ученые и разработчики работают над решением этих задач.

«Матерные слова у нас звучат совершенно по-разному. Систему можно этому научить, так как это такой же естественный язык, такая же часть языка», — говорит представитель InfoWatch.

Эксперты прогнозируют, что уже к следующим выборам системы анализа и мониторинга социальных сетей будут уже более совершенными — с качественно другим уровнем семантического анализа.

Можно ли спрятаться от «Большого брата»

Однако о слежке за всеми речь не идет, успокаивает Андрей Комаров. «О тотальной слежке я бы не говорил. Более того, те инструменты, о которых мы говорили, не позволяют делать это в отношении всего населения. Как правило, это конкретные информационные ресурсы, достаточно небольшие объемы поступающей информации, потому что в нашей стране существует система специальных оперативных мероприятий, которые и решают задачу мониторинга активности в Интернете, когда действительно стоит задача найти кого-то, за кем-то последить, послушать и так далее. Она дает лишь понимание окраски настроений заказчику, чтобы он предпринял те или иные меры, которые необходимы в его плановой деятельности. Большого ущерба от таких систем нет и бояться их не стоит».

Собеседник BFM.ru из InfoWatch объясняет, что Facebook мониторить сложнее, потому что «у FB свой API, к которому сложно приконнектиться в плане техническом».

«Проблема полноты [мониторинга и анализа] — большая проблема, потому что на сегодня ни мы, не «Медиалогия» весь полностью даже русский сегмент Интернета не видим. Это означает, что надо либо с «Яндексом» договариваться, либо еще с кем-то, кто индексирует весь Интернет, и потом оттуда вытаскивать площадки. Люди работают по площадкам. Интересна банкам площадка банки, они идут туда. Чтобы полностью охватить Интернет, такого нет ни у одной системы, если она не совсем поверхностная», — поясняет эксперт.

Андрей Комаров отмечает некоторые особенности пользования зарубежными ресурсами. «Если мы говорим именно о перехвате трафика, о мониторинге сетевой активности, то если человек обращается к иностранному ресурсу из страны, то естественно такое подключение отследить очень легко, — говорит он. — Задача поиска информации на каком-то ящике электронной почты, который зарегистрирован где-то за рубежом, действительно требует какого-то ресурса в стране размещения сервиса электронной почты. Если у человека почта зарегистрирована в США, ее не так просто будет заполучить здесь. И этому подтверждение — деятельность компаний, таких как Google, которая очень неохотно идет навстречу при работе с правоохранительными органами России».

Избранное из Сети: чтение для начальства

Рекомендуем:

Рекомендуем: