Каждый владелец бизнеса ищет способы увеличения прибыли. Идти к этой цели можно разными путями, каждый из которых сложен в реализации, по-своему эффективен и трудозатратен. Наша цель — создать волшебную кнопку, которая автоматически и на постоянной основе будет увеличивать эффективность вашей компании. Александр Вахтин, аналитик больших данных в MediaNation, рассказывает про нее в статье на примере построения предиктивной аналитики для компании ЛитРес.
В рамках проекта StreamMyData мы разработали систему, которая способна достоверно предсказать вероятность совершения покупки в будущем каждым из посетителей интернет-ресурса. При этом горизонт предсказания будет связан со сроком принятия решения о покупке, который характерен для конкретного бизнеса. Например, клиенту на рынке недвижимости требуется значительно больше времени, чтобы решиться на покупку, чем покупателю книг.
Данная статья является логическим продолжением рассказа о построении сквозной аналитики для ЛитРес, лидера рынка цифровых книг в России и странах СНГ, и обогащает её новой главой о предиктивной аналитике.
Первым шагом было построение системы сквозной аналитики, которая детально описана в кейсе «Объединили экосистему сайта и приложений с многочисленными рекламными каналами и системами аналитики» на нашем сайте.
Система с предсказаниями была необходима для разработки индивидуальных стратегий в отношении каждой группы целевой аудитории и увеличения общей эффективности маркетинга.
Существует множество вариантов использования этих данных — ремаркетинг на поиске и рекламных системах, push-уведомления, email-рассылки, специальные предложения на веб-сайте или в приложении, персональные скидки и обзвоны и другое специфическое для каждого бизнеса применение.
Например, мы можем использовать предсказания в реальном времени и корректировать стоимость товара или услуги в зависимости от вероятности покупки, или создать аудитории в Яндекс.Аудитории, Google Analytics или VK и использовать их в таргетированной рекламе, варьируя величину корректирующей ставки таким образом, чтобы добиться поставленных целей, которыми могут быть:
Во время работы с ЛитРес мы использовали предсказания для ремаркетинга в Яндекс.Директе. Для каждого из сегментов использовалась своя корректирующая ставка, которая позволяла эффективно расходовать бюджет и увеличивать процент конверсии.
В данной статье мы рассмотрим фактическое качество работы системы и сегментацию на основе поведенческих факторов на примере аудитории сайта крупнейшего книжного сервиса в России и странах СНГ ЛитРес . Модели обучались на данных о действиях пользователей за два месяца. Тестовая выборка состоит из двух миллионов уникальных пользователей, которые посещали сайт в течение последней недели. Мы предсказали вероятность совершения покупки на семь дней в будущем для каждого из них, наблюдали в течение месяца и теперь готовы поделиться результатами.
Силами StreamMyData можно реализовать методы предиктивной аналитики. Мы собираем данные, анализируем их и делаем какие-то предположения для каждого пользователя или для групп пользователей. В процессе работы системы можно выделить пять главных этапов (рис. 1):
Рисунок 1. Предиктивная аналитика
Процесс цикличный: данные постоянно загружаются, анализируются, используются для обучения и предсказания, а затем выгружаются для применения в различных сторонних системах. В статье мы частично затронем этап сегментирования и проанализируем результаты.
Рисунок 2. Сбор данных
Итак, для каждого пользователя было сделано предсказание и сопоставлена группа в зависимости от предполагаемой вероятности покупки. Всего таких групп пять:
Именно такое количество групп обусловлено двумя факторами:
Намерение каждого отдельно взятого человека совершить покупку определяется по его поведенческим факторам. Помимо очевидных признаков, вроде глубины просмотра или количестве визитов за месяц, существуют сотни параметров, которые помогают выявить реальные намерения пользователя, даже, если он еще сам о них не знает. Какие действия совершает пользователь, в каком порядке и с какой скоростью он их делает, а также насколько регулярно — всё это позволяет нам определить паттерн или шаблон его поведения. Поведение пользователя будет представлено как последовательность чисел в огромном пространстве признаков, каждый из которых будет влиять на конечную оценку готовности пользователя совершить интересующее нас действие.
Сегментирование позволит нам посмотреть, как средняя вероятность покупки внутри каждой группы соотносится с фактическим процентом людей, совершивших покупку в этой группе.
Диаграмма 1 дает ответ на вопрос о точности предсказаний в каждом из пяти сегментов пользователей. Мы можем посмотреть, выше или ниже реальный процент людей, совершивших покупку за первую неделю, по сравнению с тем, что предсказала наша система. По оси X отложены группы пользователей, по оси Y — вероятность покупки, выраженная в процентах. Эта диаграмма подтверждает нашу гипотезу — пользователи из группы с высокой вероятностью покупки, в самом деле, совершают покупки значительно чаще, чем пользователи из группы с низкой вероятностью покупки.
В среднем наши предсказания ошибаются в группах всего на 3,6 процентных пункта, что говорит о высокой точности прогноза. Такой результат обеспечивается в том числе тем, что система постоянно обучается, используя новые данные, которые поступают в нее ежедневно.
Диаграмма 1. Сравнение предсказания и факта о покупке в группах за первую неделю
Корреляция между фактом и предсказаниями видна невооруженным глазом. Также стоит отметить, что между каждой из групп есть значительная разница в относительном количестве купивших людей. Сегментирование пользователей — это опция, которая позволяет нам работать единым образом сразу с большим количеством клиентов. Однако к каждому клиенту, будь их тысяча или миллиард, можно подходить индивидуально, например, варьируя величину скидки в зависимости от величины предсказания. В данном случае мы пошли по пути сегментации, поэтому и оценка эффективности происходит в группах.
Выше были рассмотрены сходства и различия пользователей, настало время анализа консистентности данных во времени. Мы уже убедились в согласованности данных на целевом горизонте предсказания, одной неделе, но что происходит с фактическим процентом купивших пользователей внутри групп дальше? Ниже представлена диаграмма 2, на которой отражено изменение доли пользователей, которые совершили покупку, начиная с первой недели и заканчивая четвертой. Данный показатель является накопительным. Например, формулировка вопроса относительно второй недели будет звучать следующим образом: «Какая доля пользователей совершила покупку к концу второй недели?» То есть учитываются люди, которые совершили покупку и первую неделю, и во вторую. Аналогичным образом задаются вопросы для третьей и четвертой недели.
Диаграмма 2. Изменение процента купивших в течение месяца по группамМы можем сделать несколько выводов из полученных данных:
Ниже представлены две диаграммы, которые иллюстрируют абсолютное (диаграмма 3) и относительное (диаграмма 4) изменение доли купивших пользователей по группам неделя к неделе.
Диаграмма 3. Динамика абсолютного увеличения доли купивших по группам после первой недели
Тот факт, что абсолютный процент пользователей так стремительно увеличивается во всех группах, кроме околонулевой, говорит о том, что алгоритм смог корректно распознать ту аудиторию, которая на самом деле будет совершать покупки. И наоборот, отсутствие увеличения доли в околонулевой группе говорит о том, что мы смогли корректно выявить тех людей, которые пока что покупку совершать не планируют.
Диаграмма 4. Динамика относительного увеличения доли купивших по группам после первой недели
То, что относительное увеличение доли купивших обратно пропорционально средней вероятности конверсии в группе — неудивительно. Чем меньший процент купивших был в группе изначально, тем проще наращивать относительное увеличение в будущем. Интереснее дела обстоят с абсолютным увеличением. Видно, что «Высокая» и «Средняя» группы, обладая высоким потенциалом для покупки, больше других не смогли в полной мере реализовать его в первую неделю. То есть, на момент предсказания, люди в этих категориях были уже «горячие» для покупки, но в среднем по 12% пользователей из каждой группы совершили покупку в первую же неделю после целевого горизонта предсказаний. Учитывая, что результаты работы алгоритма обновляются ежедневно, эти люди несомненно попали бы в более «горячую» группу в новом предсказании.
Бизнесу важно знать, кто из его пользователей и с какой вероятностью совершит покупку. Описанная система способна автономно выгружать данные, анализировать их, создавать предсказания и выгружать их в CRM клиента, рекламные кабинеты или просто базы данных. По результатам исследования можно сделать вывод о том, что система корректно распознает намерения пользователя, а её предсказания являются верными. Гипотеза о распределении пользователей на сегменты подтверждается фактическими данными о совершении ими покупок. С одной стороны, в каждом сегменте можно выделить особый шаблон поведения пользователей, с другой стороны, сегменты схожи динамикой роста доли конверсии. В следующей статье, мы расскажем, как работа системы значительно увеличила долю конверсий, при этом сильно снизив их стоимость.
Коллеги из MediaNation в очередной раз нестандартно подошли к решению нашей задачи по увеличению эффективности рекламных активностей. Дальнейшие шаги — это работа с аудиторией во всех доступных системах, не только с существующими клиентами, но и с новыми пользователями. В этом случае предиктивная аналитика позволит значительно оптимизировать расходы и увеличить конверсию как в перфоманс, так и в охватных рекламных кампаниях.
На сегодняшний день мы продолжаем разрабатывать систему StreamMyData, которая должна стать решением, позволяющим любым интернет-магазинам на территории России и за ее пределами максимально быстро выкачивать все необходимые данные в единую базу и использовать их для построения прогнозов о поведении клиентов. Это позволит бизнесу увеличить эффективность вложений в маркетинг и продажи. Мы искренне рады, что наши разработки уже активно применяют лидеры рынка, такие как ЛитРес, и они разделяют нашу веру в то, что будущее маркетинга — это предсказание поведения потребителя и направление потребителя через сбор, подготовку и изучение больших объемов данных при помощи математических моделей.