Экспертное мнение

Иностранные системы не справляются с анализом российских соцмедиа

О том, почему иностранные решения не подходят нашей действительности, как и зачем обрабатывать десятки миллионов постов в день, в интервью рассказала Наталья Соколова, CEO компании Brand Analytics.

Наталья, расскажите, как в целом выглядит российский рынок систем мониторинга и анализа социальных медиа? Насколько велико наше отставание от лучших образцов?

Если в США в настоящий момент девять из десяти компаний в обязательном порядке используют ту или иную систему анализа социальных медиа, то в России мы только в начале пути. Мы еще формируем рынок и спрос, и видим в этом свою миссию.

Тысячи компаний, использующих сейчас аналитику соцмедиа в России и странах СНГ, в ближайшие годы превратятся в миллионы клиентов. Мы наблюдаем бурный рост, как это уже случилось на западных и азиатских рынках.

Какие основные системы представлены на рынке и чего ждут от подобных решений заказчики?

Если говорить про российский рынок, то сейчас это «Медиалогия», «Крибрум», YouScan (украинская система), IQ Buzz и Brand Analytics. 

Если говорить об ожиданиях клиентов, то на рынке уже сформирован спрос на мониторинг для выявления репутационных угроз и для клиентской поддержки пользователей в социальных медиа. Это действительно важные для бизнеса задачи, однако потенциал аналитики соцмедиа много больше. Наша задача — его реализовать. Дать маркетологам инсайты о клиентах, продуктах и трендах потребления, PR-специалистам – инструменты нового медиапланирования и современные KPI, кадровикам — возможность мониторинга HR-бренда в режиме реального времени, службам эксплуатации — выявление сбоев в системах по сообщениям пользователей, безопасникам — долгожданный контроль утечек в соцсети и так далее. Для топов же — это инструмент стратегического маркетинга и развития бизнеса, показывающий, как завтра стать лидером.

Существует немало западного ПО – насколько российские варианты конкурентоспособны?

На самом деле, западного ПО (вернее, облачных систем) не так уж и много. А лидеров — буквально единицы. Это американская Sprinklr, немецкая TalkWalker, английская BrandWatch, французская Linkfluence. Создать подобную систему — дело непростое и трудноповторимое. Это сплав самых передовых технологий обработки естественного языка с применением машинного обучения и элементов ИИ, а также дорогостоящей платформы сбора данных в режиме реального времени со всех типов соцмедийных площадок.

В России и СНГ западным системам трудно обеспечить не только сбор данных, но и лингвистическую обработку русского и других языков. Поэтому неоднократные попытки использовать зарубежные решения в России никогда не приводили к хорошим результатам.

Рынок систем мониторинга соцмедиа делится по языкам, а не по странам. И это работает в обе стороны — для Brand Analytics весьма затратно выходить на другие языковые рынки.

111_konkurentnyi_analiz_bankov.png

Share Of Voice 2.0. Автоматический конкурентный анализ брендов в соцмедиа по лояльности, вовлеченности и вниманию пользователей.

Какой функциональностью должны обладать подобные решения? Какие департаменты предприятий в них наиболее заинтересованы и почему?

С аналитикой соцмедиа сложилась уникальная ситуация — она позволяет компаниям решать широчайший круг задач. Как правило, сотрудничество Brand Analytics с компанией начинается с PR-департамента клиента. Пиарщикам, в первую очередь, необходимо выявлять репутационные риски и купировать репутационные кризисы, которые все чаще возникают и развиваются в сверхпроводящей среде соцмедиа. Они оказывают серьезное влияние на бренд компании и лояльность пользователей.

Но пиарщики не только защищаются, они хотят быть эффективными и хотят выполнять свои KPI. А KPI пиарщика — это не число публикаций в СМИ, как раньше, а сам факт того, «зашел» ли ваш контент в соцсети, получил ли он высокую цитируемость и соответствующий аудиторный охват.

Поэтому сегодня мы наблюдаем переход на совершенно новые принципы медиапланирования. С помощью анализа соцмедиа легко увидеть площадки, необходимые для продвижения и коммуникации с той или иной группой ЦА. Нетрудно узнать их интересы и запустить релевантную рекламную кампанию или предложить релевантный контент.

Но одними только пиарщиками дело не ограничивается?

Верно. Вслед за ними из компании к нам приходит служба клиентской поддержки или контакт-центр. Стоящая перед ними задача понятна: необходимо адаптировать бизнес-процессы и инструменты отработки обращений клиентов к соцмедийным каналам, где более 80% таких обращений пользователи оставляют за пределами собственных страниц и групп брендов.

Первыми такие задачи начали решать банки, телеком-операторы и страховщики, а сейчас практически все розничные бренды озабочены поддержанием лояльности пользователей в соцмедийном канале.

Автоматическое выявление проблемных зон/тематик для сети продуктового ритейла

Однако самое интересное начинается тогда, когда вслед за пиарщиками и клиентской поддержкой к нам приходит маркетинг. Далеко не все маркетологи — и это реальная проблема — знакомы с возможностями аналитики соцмедиа. И сотрудничество с ними набирает ход не сразу, зато имеет долгую перспективу и стратегическое значение для компании.

Надо следить за потребительским трендами, чтобы завтра не подарить своих клиентов новому Тинькову? Да, такая задача актуальна для любого банка и она имеет решение. Это называется Trendwatching («выявление трендов»).

Углубиться в интересы и привычки того или иного сегмента аудитории, чтобы понять как продвигать для него ваш продукт и улучшить его в дальнейшем? Не проблема. Для этого в рамках современных U&A-исследований (Usage and Attitude — «потребительские привычки и предпочтения») уже используются данные соцмедиа. Как воспринимается новый продукт, что ждет от вас клиент завтра — теперь на эти вопросы можно и нужно искать ответы в аналитике соцмедиа.

Проанализировать удовлетворенность клиентов и интерпретировать колебания привычных для бизнеса показателей NPS (Net Promoter Score – «индекс потребительской лояльности») и CSI (Customer Satisfaction Index – «индекс удовлетворенности потребителя»)? Да, теперь бизнес получил такую возможность — понимать, почему клиент вас рекомендует или не рекомендует в каждый момент времени.

Такое ключевое исследование для бренда как трекинг «здоровья» бренда BHT (Brand Health Tracking), анализирующий влияние на бренд всех его активностей, теперь проводится обязательно с включением аналитики соцмедиа, которая призвана интерпретировать динамику показателей и атрибутов бренда. По-прежнему ли вас воспринимают как надежную и инновационную компанию. А если нет, то почему и как это исправить?

А безопасники?

Технологии поиска по тексту на картинках в сообщениях соцмедиа позволяют обнаружить скрины конфиденциальных документов или экраны внутренних информационных систем, вбросы и так далее.

В итоге, начиная свой путь с PR-департамента, система аналитиза соцмедиа в течение года-двух «проникает» в контакт-центр, отделы маркетинговых исследований и продвижения, в стратегический маркетинг, в HR-департамент и к бизнес-аналитикам, строящим модели, к безопасникам и эксплуатационщикам и, конечно, к топ-менеджменту. Почти такой путь мы прошли, например, вместе со Сбербанком, в котором уже более двухсот сотрудников различных подразделений используют в своей работе Brand Analytics.

Ваша компания недавно представила поиск по тексту на картинках в соцмедиа и по расшифровкам видео. Расскажите, что в этом особенного? 

Смотрите, на настоящий момент все системы мониторинга и анализа соцмедиа на российском рынке анализируют только текст сообщений пользователей. Исключение — предложение YouScan по мониторингу логотипов брендов и решение Angry по мониторингу упоминаний в геоточках. Геоточки в Brand Analytics есть давно, а кейсы с дорогостоящим мониторингом логотипов не слишком убедительны. Разве что для оценки эффективности спортивного спонсорства.

Мы же поставили задачу предоставить всем клиентам возможность текстового анализа не только сообщений и комментариев, но и чекинов, картинок, видео и сториз. То есть максимально полного набора типов данных в соцмедиа.

Почему это так важно? Потому, что текст на картинках может оказаться рекламой или мемом. А может оказаться вбросом или фотографией конфиденциальных документов. Подобная скрытая от глаз бренда информация может быть крайне чувствительной. Ежедневно в русскоязычных соцмедиа публикуется 25 млн картинок, каждая третья из которых содержит текст. Это огромный пласт информации, которую нельзя оставлять без внимания, желательно автоматического.

Видео влиятельного блогера также может содержать угрозу репутации или дискредитировать ваш продукт в рамках, например, сравнительного теста. А может быть, наоборот, источником инсайта для вашего позиционирования, как это часто бывает на практике. Ежедневно в русскоязычных соцмедиа публикуется более 2 млн постов с видеоконтентом и этот тренд только усиливается — видео и публикуют больше, и смотрят чаще. Не анализировать текст в видео — непозволительная роскошь.

Кстати, большинство телеканалов сейчас выкладывает свои новости на YouTube с автоматической расшифровкой. А это значит, что попутно мы предоставили нашим клиентам возможность мониторинга телеэфира.

Как это реализовано технологически?

Классическая задача распознавания текста на изображениях решена давно, однако реализовать подобное решение в режиме реального времени для многомиллионного потока данных соцмедиа — задача совершенно иного уровня.

Изображений в соцсетях не просто много - их очень много. Для распознавания на них текста все картинки необходимо скачать на свои серверы. Это огромная нагрузка и на канал связи, и на серверные мощности. Поэтому наша главная технологическая задача состояла в оптимизации обработки фотографий на всех этапах для снижения вычислительной нагрузки, реализации высокоскоростной обработки и решения главной задачи — аналитики текстов в публикуемых картинках на полном потоке соцмедиа в режиме реального времени.

Первый этап оптимизации — фильтрация. Необходимо исключить из последующей обработки все ненужное, чтобы не нагружать систему попусту. За счет анализа метаинформации и текстов сообщений, без скачивания изображений, мы фильтруем поток картинок от ботов и спама.

Для дальнейшего анализа изображения придется скачивать, что требует не только сверхширокой полосы пропускания, но и работы хранилища данных на запись-чтение потока файлов в высокоскоростном режиме. Даже для высоконагруженных серверов баз данных требования по нагрузке ниже.

Скачали, что дальше? Надо быстро находить «похожие» изображения. Это позволит в дальнейшем распознавать текст только на одной из похожих картинок вместо того, что распознавать его на каждой из них.

В этой задаче много нюансов и, несмотря на доступность различных реализаций хешей для изображений, позволяющих их сравнивать, нам пришлось разработать свой подход к хешированию. Существующие решения могли обеспечить либо качество, либо скорость. Нам же удалось «усидеть на двух стульях».

Дальше нужно ответить на вопрос: а есть ли на картинке вообще текст? И тут нам пришлось создать и обучить собственную нейронную сеть, так как существующие нас снова не устроили из-за своих скоростных параметров. Для обучения нейронной сети нам пришлось собрать корпус из нескольких сотен тысяч изображений с текстом и без него для разных языков.

Для самого процесса распознавания текста оптимальным решением оказалась доработка рекуррентной сети, построенной на LSTM-архитектуре, что мы и сделали.

После всех оптимизаций решение по распознаванию текста на картинках в потоке соцмедиа оказалось реализуемой задачей с разумной «компьютерной себестоимостью», сравнимой по необходимым ресурсам с обеспечением высокой доступности одной из наших внутренних баз данных.

Источник

© 2020-2022 Ассоциация исследовательских компаний «Группа 7/89». Все права защищены.

Поиск