понедельник, 29 августа 2011 г.

"Все любить твой привет". Опыт исследования текстов пятиста случайных SMS-ок

На прошлой неделе арбитражный суд Москвы принял решение рассматривать скандал с утечкой мегафоновских SMS в закрытом режиме, квалифицировав текст сообщений как персональные данные. В этом есть свой резон, но все же действие это бесполезное. Потому что тексты 3000 сообщений, с которых началась череда чудных яндексовских разоблачений, до сих пор свободно бродят по сети. Эти самые SMS я и решил проанализировать.
Цель моего исследования: понять основные темы межличностного общения граждан (в данном случае не суть важно, что это только абоненты Мегафона). Попутно, я уверен, мы узнаем еще кое-что интересное о себе, ведь читать SMS, это почти тоже, что и читать мысли нашего коллективного бессознательного.
Из 3000 SMS, я отобрал 500. Затем воспользовался услугами сайта advego.ru, где представлен инструмент под названием "Семантический анализ текста онлайн". Забегая вперед скажу, что анализ вовсе не семантический, а скорее лексический, но кого волнуют такие мелочи?
Вот что получилось (кликайте на картинку, если плохо видите):
В 500 SMS-ках было использовано 10701 слово, т.е. 21,4 слова на SMS, из чего можно сделать вывод, что наши граждане достаточно многословны. Однако 21,1% этих текстов не имеют смысла ("вода"). Это 4,5 слова на одно сообщение (всякие "ну", "а" и прочие). Эти данные ни о чем не говорят. 
Процент грамматических ошибок составляет 3,1. 
Классическая и академическая тошнота документа - критерии, определяющие повторяемость одного и того же слова в тексте. Они вычисляются специальными алгоритмами. В нашем случае эти критерии абсолютно бесполезны, поскольку текст всех сообщений не является единым.

Семантическое ядро позволяет понять, о чем этот текст. Скажу честно, я приятно поражен тем, что одним из самых часто употребляемых слов стало слово "любовь", а не "хуй". Тем более интересно, если мы посмотрим, что слово "твой" расположившееся на третьем месте, употребляется в SMS ровно столько же раз, сколько и слово "любовь". Из этого можно сделать вывод, что, на самом деле, 56 раз было употреблено словосочетание "люблю тебя", т.е. в каждой 8,9 SMS. Согласитесь, это хороший результат.
Почему слово "все" заняло первое место тоже понятно. Машина, подсчитывающая слова, не отличает его от  слова "всё", которое мы так привыкли писать без точек. 
Обращением "привет" решили начать свое сообщение 55 абонентов. 
Пусть вас не смущает слово "клиент" на пятом месте. Как человек, прочитавший все 500 SMS, ответственно заявляю - его использовали только боты в своей рассылке. Сообщения ботов я решил не удалять из гуманистических соображений (робот тоже имеет право на общение). 
Что такое "стоп-слова" не объяснит вам даже Википедия (то есть, конечно, объяснит, но в нашем случае это объяснение не совсем подойдет)). Из данной таблицы мы можем сделать вывод, что писать о себе наши граждане любят на 13,74% больше, чем о своем собеседнике. Остальное - словесный мусор.
Выводы: Наше общество не такое уж плохое, как иногда кажется. Основной темой межличностного общения является "любовь", а не "ненависть" или "Путин". Граждане любят говорить прежде всего о себе, они достаточно грамотны и, скорее всего, эмоциональны (мне лень подсчитывать количество смайликов и восклицательных знаков, но их там достаточно). 
ЗЫ. Выкладываю сам текст SMS-ок. Посмотрите какая бездна отчаяния в сообщениях №319 и №214. Забавная фривольность SMS №159 на фоне жизненной философии абонента, пославшего сообщение №258. Есть даже цитата из Гришковца (сообщения №№18, 303), что не удивительно - он ведь и книги свои пишет в SMS-стиле. 
ЗЗЫ. Мне кажется, что чтение чужих SMS должно делать нас гуманнее и добрей. Фрагменты судеб неизвестных людей проплывают перед нами, свернувшись в сообщения из нескольких десятков знаков. Только прочитав их, по-настоящему осознаешь, что те, кто ездят рядом с тобой в метро - тоже люди. Я говорю это без всякой иронии. 
Копипаста возможна, только делайте ссылку на журнал