Разработчики Brand Analytics усовершенствовали технологию распознавания именованных сущностей (NER) и добились рекордных показателей точности и полноты при обработке потоков данных социальных медиа. Теперь NER обрабатывает сообщения с точностью 99% и полнотой 97%.
NER (named entity recognition) — технология, которая распознаёт в тексте именованные сущности: имена людей, названия организаций и продуктов,
городов и географических объектов.
Что новый NER улучшил в системе Brand Analytics?
В системе Brand Analytics NER используется в аналитических отчётах «Персоны» и «Юрлица» и помогает клиентам анализировать, какие персоналии и компании участвуют в формировании инфополя бренда или любого другого объекта мониторинга.
Технология NER упрощает отраслевой анализ: вы сразу видите конкурентов, присутствующих в вашем инфополе, находите лидеров мнений, которые влияют на репутацию вашего бренда, а также экспертов, сильных в конкретных темах.
Напомним, что NER работает не по словарям, а умеет выявлять именованные сущности даже тогда, когда впервые их видит в тексте. NER стал точнее, благодаря чему вы не будете тратить время на чистку облаков слов в отчётах «Персоны» и «Юрлица» от случайно попавшего в отчёт нерелеванта. Усовершенствованная технология стала значительно быстрее: у вас не возникнет задержек с отчётами даже при работе с большими потоками данных в режиме реального времени.
Новый NER уже доступен в темах и корректно работает с данными, собранными после 4 апреля 2023 года. Если вы хотите работать с обновленным NER, выбирайте для анализа период после 4 апреля.
Как работает NER? Объясняем на примере
Вот случайное сообщение пользователя Сети: он поделился в районной группе новостью об акциях в продуктовом магазине.
Старый NER мог определить только то, что «Лента», которую упоминают в тексте, — это какая-то организация. А вот новый NER понимает ещё и то, что «сергей» — это имя человека, а «москва» и «путилково» — названия неких геолокаций. Новый NER «не обращает внимания» на то, что часть имён собственных написаны с ошибками или с маленькой буквы – корректно отрабатывает такие кейсы. И это только часть отличий.
В скором времени NER научится понимать прозвища и жаргонизмы. Например, если в Сети напишут «ездили на выходные в нерезиновую», система сможет определить, что речь идёт о Москве.
В чём уникальность технологии?
Соцмедийные данные, которые обрабатывает система Brand Analytics, — это скоростные потоки неструктурированной информации. Пользователи Сети часто пишут с ошибками, по настроению меняют правила русского языка, используют много разных словоформ в названиях объектов и именах собственных. Всё это — так называемые, «грязные тексты». И чтобы научить систему вычленять из них правильные именованные сущности, мы проделали большую работу по замене в NER лингвистических технологий на современные ML-решения.
Попробуйте новый NER в отчётах «Персоны» и «Юрлица» и поделитесь своим мнением в наших соцсетях — группе ВКонтакте и Telegram-канале.