Представляем новый проект аналитического центра Brand Analytics — еженедельный Рейтинг упоминаемости медийных персон в социальных медиа и раскрываем технологии его подготовки.
Хотим мы того или нет, но люди XXI века живут в океане информации: интернет, ТВ, радио, газеты, книги и журналы, окружающие люди — все вокруг напичкано названиями, именами, брендами, кличками и прочими атрибутами идентификации объектов.
Проходя через наше сознание информация внешнего мира трансформируется не только в знания и опыт, но и в эмоции, мнения, высказывания, суждения, что находит свое отражение в социальных медиа: статьи, посты, твиты, комментарии, отзывы.
Новые технологии, для которых есть специальное название — OBD&A (Online Big Data & Analytics ), — позволяют анализировать миллиарды публичных высказываний миллионов людей и выявить наиболее обсуждаемые персоны, объекты и сущности, которые наиболее сильно «зацепили» нас в окружающем информационном поле.
Используемые ранее технологии, в виду своих ограничений, не могли обработать такие огромные объемы данных, и проводили обработку, например, статей в СМИ, составляя рейтинги упоминаний топ-персон в газетах и журналах. Или же подобные рейтинги проводились путем социологических исследований — опросов сотен людей. Понятно, что подобные выборки данных или аудитории позволяют получить реальные мнения населения страны или региона с невысокой точностью.
Современные (что вдвойне приятно — российские) технологии и разработки позволяют революционно изменить подход к учету мнений населения: не спрашивать — а слушать, не выбирать узкую группу (фокус- или журналистов) — а учитывать мнения всех.
Подобный подход позволяет решать множество старых и новых задач и вызовов, среди которых есть и такая интересная тема, как выявление топовых медийных персон — своеобразный народный рейтинг политиков, звезд шоу-бизнеса, спортсменов и просто замечательных людей, которые стали героями прошедшей недели.
Анализ социальных медиа
Рейтинг Топ-50 персон в социальных медиа и СМИ, неделя первая (1-7 сентября):
| По данным анализа соцмедиа | 
 | По данным анализа СМИ | ||||
| № | Персона | Упоминания | 
 | № | Персона | Упоминания | 
| 1 | Владимир Путин | 1 121 296 | 1 | Владимир Путин | 60 726 | |
| 2 | Петр Порошенко | 537 269 | 2 | Петр Порошенко | 38 583 | |
| 3 | Барак Обама | 207 439 | 3 | Дмитрий Медведев | 19 139 | |
| 4 | Игорь Стрелков | 118 176 | 4 | Барак Обама | 15 561 | |
| 5 | Дмитрий Песков | 97 889 | 5 | Ангела Меркель | 5 804 | |
| 6 | Дмитрий Медведев | 82 959 | 6 | Владимир Ленин | 5 791 | |
| 7 | Сергей Лавров | 81 507 | 7 | Андрей Лысенко | 5 686 | |
| 8 | Виктор Янукович | 78 181 | 8 | Сергей Лавров | 5 607 | |
| 9 | Игорь Коломойский | 76 597 | 9 | Игорь Коломойский | 5 555 | |
| 10 | Владимир Ленин | 73 816 | 10 | Дмитрий Песков | 5 516 | |
| 11 | Андрей Макаревич | 66 090 | 11 | Игорь Стрелков | 4 827 | |
| 12 | Адольф Гитлер | 61 122 | 12 | Александр Лукашенко | 4 514 | |
| 13 | Ангела Меркель | 61 025 | 13 | Виктор Янукович | 4 440 | |
| 14 | Юлия Тимошенко | 47 689 | 14 | Франсуа Олланд | 4 318 | |
| 15 | Владимир Жириновский | 47 349 | 15 | Александр Захарченко | 4 293 | |
| 16 | Арсен Аваков | 46 726 | 16 | Адольф Гитлер | 4 167 | |
| 17 | Александр Лукашенко | 45 681 | 17 | Леонид Кучма | 3 920 | |
| 18 | Иосиф Сталин | 43 590 | 18 | Андрей Стенин | 3 677 | |
| 19 | Андрей Стенин | 43 344 | 19 | Андрей Пургин | 3 479 | |
| 20 | Рамзан Кадыров | 38 454 | 20 | Андрей Макаревич | 3 007 | |
| 21 | Олег Ляшко | 35 087 | 21 | Михаил Зурабов | 2 937 | |
| 22 | Франсуа Олланд | 31 939 | 22 | Иосиф Сталин | 2 905 | |
| 23 | Сергей Собянин | 31 422 | 23 | Игорь Плотницкий | 2 819 | |
| 24 | Алексей Навальный | 31 264 | 24 | Сергей Аксенов | 2 586 | |
| 25 | Руслана | 31 177 | 25 | Сергей Собянин | 2 572 | |
| 26 | Сергей Шойгу | 30 462 | 26 | Олег Ляшко | 2 490 | |
| 27 | Лионель Месси | 30 448 | 27 | Нурсултан Назарбаев | 2 400 | |
| 28 | Ксения Собчак | 28 939 | 28 | Арсен Аваков | 2 339 | |
| 29 | Леонид Кучма | 28 732 | 29 | Владимир Жириновский | 2 297 | |
| 30 | Никита Михалков | 28 693 | 30 | Сергей Шойгу | 2 094 | |
| 31 | Анджелина Джоли | 23 867 | 31 | Юлия Тимошенко | 1 916 | |
| 32 | Ляпис Трубецкой | 23 365 | 32 | Рамзан Кадыров | 1 848 | |
| 33 | Макс Корж | 22 221 | 33 | Валерий Андреев | 1 825 | |
| 34 | Дмитрий Рогозин | 21 710 | 34 | Дмитрий Рогозин | 1 816 | |
| 35 | Павел Губарев | 21 695 | 35 | Хайди Тальявини | 1 748 | |
| 36 | Бьянка | 20 675 | 36 | Дмитрий Тымчук | 1 733 | |
| 37 | Андрей Макаревич | 19 803 | 37 | Юрий Луценко | 1 618 | |
| 38 | Владимир Ходов | 18 941 | 38 | Виталий Кличко | 1 387 | |
| 39 | Тимати | 18 766 | 39 | Борис Ельцин | 1 380 | |
| 40 | Андрей Леницкий | 17 992 | 40 | Руслана | 1 363 | |
| 41 | Надежда Савченко | 17 609 | 41 | Игорь Сечин | 1 289 | |
| 42 | Андрей Пургин | 17 457 | 42 | Олег Иванов | 1 239 | |
| 43 | Михаил Саакашвили | 17 414 | 43 | Дженнифер Лоуренс | 1 198 | |
| 44 | Виталий Кличко | 16 451 | 44 | Лев Шлосберг | 1 195 | |
| 45 | Олег Царев | 16 329 | 45 | Надежда Савченко | 1 160 | |
| 46 | Нурсултан Назарбаев | 15 855 | 46 | Леонид Кучук | 1 121 | |
| 47 | Борис Ельцин | 15 817 | 47 | Анджелина Джоли | 934 | |
| 48 | Рем Дигга | 15 475 | 48 | Борис Немцов | 932 | |
| 49 | Дженнифер Лоуренс | 15 398 | 49 | Виктор Ющенко | 875 | |
| 50 | Сергей Аксенов | 14 175 | 50 | Михаил Горбачев | 862 | |
Для расчета Рейтинга за 1-7 сентября 2014 были проанализированы 142 910 402 публичных русскоязычных сообщения пользователей социальных медиа. Источниками данных для анализа сообщений выступили популярные социальные сети и сервисы: ВКонтакте, Twitter, Одноклассники, Мой Мир, Facebook, Instagram, YouTube, G+, а также блоги, форумы, тематические сайты и группы обсуждений, онлайн СМИ и комментарии в них. Общее число выявленных объектов составило 16 198 388, из которых 2 088 558 – уникальных объектов (например, РФ, Российская Федерация и Россия – один уникальный объект). Далее было проанализировано количество упоминаний персон, в соответствии с которым выстроен рейтинг.
Система выявления сущностей (NER — Named Entities recognition) системы Brand Analytics позволяет классифицировать именованные объекты в тексте на пять классов: физические лица, юридические лица, географические объекты, названия продуктов и брендов и именованные события.
Основной особенностью разработки NER Brand Analytics является то, что в его основе не используются словари и тезаурусы, которые хорошо работают для канонических текстов СМИ и книг, но плохо применимы для пользовательских сообщений в социальных сетях и выявления новых, не существовавших ранее, объектов и именований (челябинский метеорит, ДНР, влог). Таким образом, новый NER достаточно точно может определять тип ранее не встречающегося объекта или объекта, тип которого может меняться в зависимости от контекста. Так же к плюсам данной технологии можно отнести и то, что ему не требуется никакой лингвистической предобработки текста, что значительно повышает скорость его работы и позволяет в реальном масштабе времени обрабатывать тысячи сообщений в секунду — именно такой поток «генерят» русскоязычные пользователи соцсетей.
Для специалистов и любителей лингвистики: в таблице представлена точность и полнота определения системой типа именованных сущностей:
| Тип | Точность | Полнота | F1 | 
| Физ.лица | 94.04 | 94.28 | 94.16 | 
| Гео.объекты | 92.19 | 91.76 | 91.97 | 
| Юр.лица | 85.27 | 86.52 | 85.89 | 
| Продукты | 79.20 | 80.03 | 79.62 | 
| События | 80.15 | 76.27 | 78.16 | 
| Среднее | 86.18 | 85.78 | 85.97 | 
Brand Analytics- система мониторинга и анализа социальных медиа.
