Предсказали поведение пользователей и повысили эффективность вложений в маркетинг

www.litres.ru

Задача

создать систему предиктивной аналитики, которая была бы способна достоверно предсказать вероятность совершения покупки каждым посетителем веб-ресурса клиента

Результаты

Предсказали действия каждого пользователя

Повысили эффективность рекламных активностей

Команда проекта

Иван Барченков

Партнер, генеральный директор, MBA

Александр Вахтин

Руководитель отдела аналитики

Как делали?

Каждый владелец бизнеса ищет способы увеличения прибыли. Идти к этой цели можно разными путями, каждый из которых сложен в реализации, по-своему эффективен и трудозатратен. Наша цель — создать волшебную кнопку, которая автоматически и на постоянной основе будет увеличивать эффективность вашей компании. Александр Вахтин, аналитик больших данных в MediaNation, рассказывает про нее в статье на примере построения предиктивной аналитики для компании ЛитРес.

В рамках проекта StreamMyData мы разработали систему, которая способна достоверно предсказать вероятность совершения покупки в будущем каждым из посетителей интернет-ресурса. При этом горизонт предсказания будет связан со сроком принятия решения о покупке, который характерен для конкретного бизнеса. Например, клиенту на рынке недвижимости требуется значительно больше времени, чтобы решиться на покупку, чем покупателю книг.

Данная статья является логическим продолжением рассказа о построении сквозной аналитики для ЛитРес, лидера рынка цифровых книг в России и странах СНГ, и обогащает её новой главой о предиктивной аналитике.

Первым шагом было построение системы сквозной аналитики, которая детально описана в кейсе «Объединили экосистему сайта и приложений с многочисленными рекламными каналами и системами аналитики» на нашем сайте.

Зачем нужна предиктивная аналитика?

Система с предсказаниями была необходима для разработки индивидуальных стратегий в отношении каждой группы целевой аудитории и увеличения общей эффективности маркетинга.

Существует множество вариантов использования этих данных — ремаркетинг на поиске и рекламных системах, push-уведомления, email-рассылки, специальные предложения на веб-сайте или в приложении, персональные скидки и обзвоны и другое специфическое для каждого бизнеса применение.

Например, мы можем использовать предсказания в реальном времени и корректировать стоимость товара или услуги в зависимости от вероятности покупки, или создать аудитории в Яндекс.Аудитории, Google Analytics или VK и использовать их в таргетированной рекламе, варьируя величину корректирующей ставки таким образом, чтобы добиться поставленных целей, которыми могут быть:

Увеличение количества и/или доли конверсий
Увеличение эффективности рекламных вложений
Увеличение прибыли

Во время работы с ЛитРес мы использовали предсказания для ремаркетинга в Яндекс.Директе. Для каждого из сегментов использовалась своя корректирующая ставка, которая позволяла эффективно расходовать бюджет и увеличивать процент конверсии.

В данной статье мы рассмотрим фактическое качество работы системы и сегментацию на основе поведенческих факторов на примере аудитории сайта крупнейшего книжного сервиса в России и странах СНГ ЛитРес . Модели обучались на данных о действиях пользователей за два месяца. Тестовая выборка состоит из двух миллионов уникальных пользователей, которые посещали сайт в течение последней недели. Мы предсказали вероятность совершения покупки на семь дней в будущем для каждого из них, наблюдали в течение месяца и теперь готовы поделиться результатами.

Этапы предиктивной аналитики

Силами StreamMyData можно реализовать методы предиктивной аналитики. Мы собираем данные, анализируем их и делаем какие-то предположения для каждого пользователя или для групп пользователей. В процессе работы системы можно выделить пять главных этапов (рис. 1):

Сбор данных — выгрузка данных из систем аналитики, рекламных систем, внутренних CRM-систем и любых других источников, которые находятся в доступе клиента и хранят полезные данные (рис. 2). Осуществляется при помощи собственных коннекторов StreamMyData от агентства MediaNation. Данный этап подробно расписан в кейсе по сквозной аналитике для сервиса ЛитРес.
Анализ данных — интеллектуальный анализ данных, который включает в себя исследование данных на наличие ошибок и аномалий, выдвижение гипотез и их проверку, поиск и конструирование потенциально полезных параметров для моделей. В ходе разработки системы предсказаний для ЛитРес мы изучили и обработали сотни миллионов действий пользователей.
Обучение (разработка) моделей машинного обучения — создание ансамбля моделей машинного обучения, которые работают с данными разного характера и направлены на выявление собственных признаков, обучение и валидация результатов. Для вычислений мы используем выделенные сервера с конфигурациями по восемьдесят ядер CPU и 128 ГБ оперативной памяти на каждом.
Создание предсказаний и сегментирование результатов — использование обученных моделей для создания предсказаний и разбивка пользователей на группы.
Выгрузка — отправка полученных предсказаний и групп пользователей в CRM-системы, рекламные системы и тому подобные. У некоторых систем есть ограничения на размеры сегментов. Например, Яндекс.Аудитории не позволяют создавать сегменты, в которых меньше 100 человек.

Рисунок1.png Рисунок 1. Предиктивная аналитика

Процесс цикличный: данные постоянно загружаются, анализируются, используются для обучения и предсказания, а затем выгружаются для применения в различных сторонних системах. В статье мы частично затронем этап сегментирования и проанализируем результаты.

Рисунок2.png Рисунок 2. Сбор данных

Сегментация пользователей на основе вероятности покупки

Итак, для каждого пользователя было сделано предсказание и сопоставлена группа в зависимости от предполагаемой вероятности покупки. Всего таких групп пять:

Очень высокая вероятность покупки
Высокая вероятность покупки
Средняя вероятность покупки
Низкая вероятность покупки
Околонулевая вероятность покупки

Именно такое количество групп обусловлено двумя факторами:

Удобство работы и размер отдельно взятой группы: с одной стороны, такие системы, как Яндекс.Аудитории, имеют ограничение на минимальное количество людей в одной группе, а с другой — там, где с созданными сегментами нужно работать вручную, будет проблематично оперировать, например, сразу пятьюдесятью группами.
Наилучшее разбиение пользователей по группам: чем меньше вероятность каждого из пользователей в группе отклоняется от среднего значения вероятности в группе, тем более однородны пользователи в группе, тем лучше выполнено разбиение.

Намерение каждого отдельно взятого человека совершить покупку определяется по его поведенческим факторам. Помимо очевидных признаков, вроде глубины просмотра или количестве визитов за месяц, существуют сотни параметров, которые помогают выявить реальные намерения пользователя, даже, если он еще сам о них не знает. Какие действия совершает пользователь, в каком порядке и с какой скоростью он их делает, а также насколько регулярно — всё это позволяет нам определить паттерн или шаблон его поведения. Поведение пользователя будет представлено как последовательность чисел в огромном пространстве признаков, каждый из которых будет влиять на конечную оценку готовности пользователя совершить интересующее нас действие.

Сегментирование позволит нам посмотреть, как средняя вероятность покупки внутри каждой группы соотносится с фактическим процентом людей, совершивших покупку в этой группе.

Оценка качества предсказаний для каждого сегмента

Диаграмма 1 дает ответ на вопрос о точности предсказаний в каждом из пяти сегментов пользователей. Мы можем посмотреть, выше или ниже реальный процент людей, совершивших покупку за первую неделю, по сравнению с тем, что предсказала наша система. По оси X отложены группы пользователей, по оси Y — вероятность покупки, выраженная в процентах. Эта диаграмма подтверждает нашу гипотезу — пользователи из группы с высокой вероятностью покупки, в самом деле, совершают покупки значительно чаще, чем пользователи из группы с низкой вероятностью покупки.

В среднем наши предсказания ошибаются в группах всего на 3,6 процентных пункта, что говорит о высокой точности прогноза. Такой результат обеспечивается в том числе тем, что система постоянно обучается, используя новые данные, которые поступают в нее ежедневно.

Рисунок3.png Диаграмма 1. Сравнение предсказания и факта о покупке в группах за первую неделю

Корреляция между фактом и предсказаниями видна невооруженным глазом. Также стоит отметить, что между каждой из групп есть значительная разница в относительном количестве купивших людей. Сегментирование пользователей — это опция, которая позволяет нам работать единым образом сразу с большим количеством клиентов. Однако к каждому клиенту, будь их тысяча или миллиард, можно подходить индивидуально, например, варьируя величину скидки в зависимости от величины предсказания. В данном случае мы пошли по пути сегментации, поэтому и оценка эффективности происходит в группах.

Анализ консистентности данных

Выше были рассмотрены сходства и различия пользователей, настало время анализа консистентности данных во времени. Мы уже убедились в согласованности данных на целевом горизонте предсказания, одной неделе, но что происходит с фактическим процентом купивших пользователей внутри групп дальше? Ниже представлена диаграмма 2, на которой отражено изменение доли пользователей, которые совершили покупку, начиная с первой недели и заканчивая четвертой. Данный показатель является накопительным. Например, формулировка вопроса относительно второй недели будет звучать следующим образом: «Какая доля пользователей совершила покупку к концу второй недели?» То есть учитываются люди, которые совершили покупку и первую неделю, и во вторую. Аналогичным образом задаются вопросы для третьей и четвертой недели.

Диаграмма 2. Изменение процента купивших в течение месяца по группам

Мы можем сделать несколько выводов из полученных данных:

В группах «Средняя», «Высокая», «Очень высокая» общая доля купивших к концу четвертой недели становится больше половины.
Наибольший рост процентных пунктов показывают «Высокая» и «Средняя» группы, 20,9% и 21,3% соответственно.
Относительный рост распределен в обратном порядке от исходной вероятности — доля купивших в околонулевой группе за три последующие недели итого выросла на 127%, а в очень высокой на 20%.
В отличие от группы «Околонулевая», остальные сегменты пользователей демонстрируют значительное увеличение доли купивших пользователей со временем. Это означает, что люди в этих группах действительно намерены совершать покупку.
Шаблон увеличения относительной доли купивших во всех группах одинаковый — сильный скачок во вторую неделю, затем рост сильно замедляется.
Обладая большим пространством для увеличения доли купивших, по итогу прошествия четырех недель, менее конверсионные группы (кроме «Околонулевая») приращивают процентные пункты сильнее, чем наиболее конверсионная группа.

Ниже представлены две диаграммы, которые иллюстрируют абсолютное (диаграмма 3) и относительное (диаграмма 4) изменение доли купивших пользователей по группам неделя к неделе.

Рисунок5.png Диаграмма 3. Динамика абсолютного увеличения доли купивших по группам после первой недели

Тот факт, что абсолютный процент пользователей так стремительно увеличивается во всех группах, кроме околонулевой, говорит о том, что алгоритм смог корректно распознать ту аудиторию, которая на самом деле будет совершать покупки. И наоборот, отсутствие увеличения доли в околонулевой группе говорит о том, что мы смогли корректно выявить тех людей, которые пока что покупку совершать не планируют.

Рисунок6.png Диаграмма 4. Динамика относительного увеличения доли купивших по группам после первой недели

То, что относительное увеличение доли купивших обратно пропорционально средней вероятности конверсии в группе — неудивительно. Чем меньший процент купивших был в группе изначально, тем проще наращивать относительное увеличение в будущем. Интереснее дела обстоят с абсолютным увеличением. Видно, что «Высокая» и «Средняя» группы, обладая высоким потенциалом для покупки, больше других не смогли в полной мере реализовать его в первую неделю. То есть, на момент предсказания, люди в этих категориях были уже «горячие» для покупки, но в среднем по 12% пользователей из каждой группы совершили покупку в первую же неделю после целевого горизонта предсказаний. Учитывая, что результаты работы алгоритма обновляются ежедневно, эти люди несомненно попали бы в более «горячую» группу в новом предсказании.

Заключение

Бизнесу важно знать, кто из его пользователей и с какой вероятностью совершит покупку. Описанная система способна автономно выгружать данные, анализировать их, создавать предсказания и выгружать их в CRM клиента, рекламные кабинеты или просто базы данных. По результатам исследования можно сделать вывод о том, что система корректно распознает намерения пользователя, а её предсказания являются верными. Гипотеза о распределении пользователей на сегменты подтверждается фактическими данными о совершении ими покупок. С одной стороны, в каждом сегменте можно выделить особый шаблон поведения пользователей, с другой стороны, сегменты схожи динамикой роста доли конверсии. В следующей статье, мы расскажем, как работа системы значительно увеличила долю конверсий, при этом сильно снизив их стоимость.

Коллеги из MediaNation в очередной раз нестандартно подошли к решению нашей задачи по увеличению эффективности рекламных активностей. Дальнейшие шаги — это работа с аудиторией во всех доступных системах, не только с существующими клиентами, но и с новыми пользователями. В этом случае предиктивная аналитика позволит значительно оптимизировать расходы и увеличить конверсию как в перфоманс, так и в охватных рекламных кампаниях.

Алексей Каландаев

директор департамента цифрового маркетинга и B2C-продаж группы компаний ЛитРес

На сегодняшний день мы продолжаем разрабатывать систему StreamMyData, которая должна стать решением, позволяющим любым интернет-магазинам на территории России и за ее пределами максимально быстро выкачивать все необходимые данные в единую базу и использовать их для построения прогнозов о поведении клиентов. Это позволит бизнесу увеличить эффективность вложений в маркетинг и продажи. Мы искренне рады, что наши разработки уже активно применяют лидеры рынка, такие как ЛитРес, и они разделяют нашу веру в то, что будущее маркетинга — это предсказание поведения потребителя и направление потребителя через сбор, подготовку и изучение больших объемов данных при помощи математических моделей.

Иван Барченков

Партнер и коммерческий директор агентства MediaNation