О использовании прогнозной аналитики обычно говорят большие компании, такие как «Yandex» и «Сбербанк». Но это не означает, что ее недозволено применить для наименее масштабных задач. Как это создать? Разъясняет аналитик Наталья Мишина из агентства Convergent.
Статья будет полезна аналитикам всех компаний, также всем, кому любопытно, как по сути работает аналитика и как может посодействовать бизнесу в проверке гипотез.
Прогнозная аналитика на охране KPI: как проверить, выполнима ли бизнес-задача
Наталья Мишина
Представим ситуацию: есть FMCG-компания, которая занимается винами. Это накладывает определенные трудности на вербование трафика: вся категория dark market ограничена в инструментах.
У компании есть веб-сайт и постоянные email-рассылки с призами, акциями и предложениями. Юзеры на эти письма реагируют отлично, гости на веб-сайте постоянные, чего же еще желать? Но приходит новейший квартал, а с ним — новейшие KPI и новейшие задачки: избавляться от безграничных призов и призов.
Что будет, если употреблять в письмах лишь органический контент? Можно в таком случае выполнить KPI? Скажет регрессионная модель.
Что такое регрессионная модель
Это что-то схожее на уравнение, которое обрисовывает определенную ситуацию. Модель указывает, как изменяется некий из характеристик в динамике — зависимая переменная.
Влияют на нее наружные причины, другими словами регрессоры. Влиять они могут по-разному, и быть их может весьма много. Чем больше, тем поточнее обычно модель.
Если разглядывать нашу ситуацию, зависимой переменной будет наш KPI, а конкретно количество сессий на веб-сайте.
Подразумевай и инспектируй
Любая модель обосновывает либо опровергает догадку. В нашем случае она могла звучать как «а для чего нам эти письма с промо, они ж никчемные», но можно ее сконструировать наиболее буквально: «упоминание призов в письмах незначимо влияют на популярность веб-сайта».
Для этого нам нужно оценить всеохватывающее воздействие email-стратегии на посещаемость, а не только лишь переходы из писем с призами: мы считаем, что частота и содержание писем влияют и на энтузиазм к веб-сайту совершенно, и на коэффициент удержания (retention rate), который вот так просто не измерить.
Самое ценное — данные
Выстроить модель просто так недозволено: это все-же аналитика. Для хоть какого прогноза необходимы данные за прошедший период.
У нас есть последующие:
популярность веб-сайта по денькам;
даты отправки email и их содержание;
план рассылок на квартал и их содержание;
остальные случайные источники трафика.
Мы свои взяли из Гугл Analytics, но можно, естественно, и руками их собрать в Excel.
В нашем массиве разрез данных идет по денькам. Проанализировав его, мы выделили последующие регрессоры:
Sessions — сессии либо популярность веб-сайта;
Letter — наличие письма: 0 — нет, 1 — есть;
Prize — упоминание приза либо приза: 0 — нет, 1 — да;
Prize as CTA — упоминание приза либо приза с клавишей призыва к действию: 0 — нет, 1 — да;
Header — упоминание приза в теме письма: 0 — нет, 1 — да.
Total email impact — сумма Letter + Prize + Prize as CTA. Тут наибольшее значение будет у дней, когда письмо было и с призом, и с призывом. Нам это необходимо, так как наша догадка зависит от содержимого писем.
Days since last letter — число дней, прошедших с прошедшего письма. Попробуем включить этот фактор, чтоб выяснить, есть ли связь с частотой рассылок.
Для точности модели убираем из показателя sessions причины, которые влияли на трафик, к примеру, размещение ссылки на веб-сайт в соцсетях либо промо, которые не анонсировались в email.
Чем воспользоваться
Есть много различных программ. Наша модель довольно обычная, потому ради таковой задачки брать доступ к, к примеру, BigQuery смысла нет. Мы избрали gretl — он обычный, понятный и бесплатный.
Что нам стоит модель выстроить
Есть единый метод, которого мы будем придерживаться.
Загрузить данные в программку.
Создать предположение о форме модели.
Выстроить модель.
Оценить свойство модели. Если что-то не удовлетворит, поменять модель и выстроить снова.
Выстроить прогноз.
Прийти к выводу.
С первым заморочек появиться не обязано: просто грузим файл Excel в программку.
Модель мы будем строить по данным за прошедший год, а прогноз — на будущий квартал (мы уже знаем даты рассылки на это время).
Данные разбиты по денькам, где любая строчка соответствует одному деньку. Означает, наша модель относится к временным рядам (они разрешают найти конфигурации зависимой переменной во времени).
Мы избираем модель ARMAXARMA (autoregressive moving-average model) – одна из математических моделей, использующихся для анализа и прогнозирования стационарных временных рядов в статистике. Она обобщает две наиболее обыкновенные модели временных рядов — модель авторегрессии (AR) и модель скользящего среднего (MA).
В традиционные ARMA-модели можно добавить некие экзогенные причины x., она дозволяет учесть не только лишь регрессоры, да и прошлые значения самой переменной.
Избираем, что у нас — переменная, а что — регрессоры, опции оставляем по дефлоту (шаг 1). Запускаем построение и смотрим на итог (шаг 2).
Тут видно, что header влияет на сессии посильнее всего, total email impact — слабее, чем header, но тоже весьма приметно. На данный момент не стоит проводить наиболее детализированный анализ: модель не финишная, а означает, выводы могут поменяться.
Смотрим на график наблюдаемых и расчетных значений.
На 1-ый взор, все непревзойденно, но так это по сути? На данный момент узнаем!
Проводим кропотливый анализ
Сравним настоящие данные и модель, чтоб осознать ее свойство.
В p-значенииP-значение — величина для тестирования статистических гипотез. Она показывает на возможность ошибки при отклонении догадки. (либо p-value, столбик рядом с переменными) результаты должны быть ниже 0.05. Почему таковая цифра? При таком уровне значимости нормально распределяются опасности неверного вывода в итоге проверки догадки. Если значение больше, означает, переменная для модели не значима.
Графики рассчитанных и настоящих значений должны быть близки (в недосягаемом эталоне они совпадают) — фактический показатель не должен резко различаться от моделируемого.
Обращаем внимание на коррелограммуКоррелограмма — график зависимости автокорреляции подборки от временной задержки (лага). Помогает найти, как данные за определенный период зависят друг от друга. остатков. Они не должны выходить за границы, рассчитанные программкой. Если они выходят за рамки, смотрим, на каком лаге (они пронумерованы) и пробуем включить этот номер поначалу в AR, потом MA (шаг 1).
Лаги (задержки): понятно, что почаще всего величина какого-то регрессора сейчас влияет на зависимую переменную сейчас. А что, если влияют к тому же значения прошлых дней? К примеру, вчерашняя рассылка влияет на нынешние сессии. Лаги можно «включить» (шаг 2).
Для сопоставления моделей нужен еще логарифм правдоподобия. Чем меньше его значение, тем лучше.
Аспекты Акаике, Шварца, Хеннана-КуиннаЭто информационные аспекты: они употребляются для проверки относительного свойства модели. Они учитывают «подгонку» модели под данные с поправкой на количество оцениваемых характеристик.: эта масса поможет создать модель еще поточнее. В их формулы логарифм правдоподобия заходит с минусом, потому чем выше значения критериев, тем лучше.
Нормальность остатков. Остатки модели — это разница меж фактическим значением зависимой переменной и смоделированным. Чем меньше разница — тем лучше. Обращаем внимание на их распределение: оно обязано быть обычным.
Темная линия на рисунке — «эталон» обычного распределения, на нормальность проверяем столбцы: они должны быть очень похожи. В различных программках есть различные испытания на нормальность.
Если p-value теста >= 0.05, то остатки распределены нормально. И все непревзойденно.
Проверяем отсутствие автокорреляции остатков при помощи теста Льюинга-БоксаЭтот тест предназначен для нахождений автокорреляций, другими словами анализирует все данные на случайность.. Автокорреляция — это связь остатков модели; если модель построена верно, ее быть не обязано. Если p-value теста >= 0.05, то автокорреляции нет, и все отлично.
Финишная модель
В конце концов мы учли все аспекты свойства и выстроили финишную модель.
Расшифровываем все эти знаки.
Sessions(t) — сессии в определенный денек, где t — переменная времени. 809,899 — константа: это означает, что если убрать все причины, которые влияют на посещаемость, то в среднем будет 809 гостей в денек.
Header(t) — тема письма сейчас. Если она была с указанием приза, то сейчас +1815 гостей (в среднем).
Header(t–1) — тема письма вчера. Если она была с указанием приза, то сейчас +794 гостей (в среднем).
Header(t–2) — тема письма позавчера. Если она была с указанием приза, то сейчас +372 гостя (в среднем).
Воздействие давности письма выразилось в переменных header(t…), а вот days_since_last_letter оказалась незначимой.
Total_email_impact(t) — вклад «внутреннего содержимого письма» сейчас. Значение данной для нас переменной (0,1,2) умножаем на 566, чтоб выяснить, сколько в среднем сейчас гостей получим за счет содержимого.
Total_email_impact(t–1) — этот же вклад вчерашнего письма. Значение данной для нас переменной указывает, сколько в среднем сейчас гостей получим за счет содержимого вчерашнего письма.
Phi1 на скрине либо sessions(t–1) отражает, как значение вчерашней посещаемости влияет на нынешнюю. Кажется, что очень, так что у нас обязана повсевременно расти посещаемость, но деньки без писем возместят этот эффект.
Theta 1, theta 11 — коэффициенты скользящего среднего. Эти коэффициенты необходимы были, чтоб модель прошла по характеристикам свойства.
На модели видно, что на популярность веб-сайта очень влияет отправка писем с призами, которые упоминаются в теме либо теле письма. Есть воздействие характеристик и за прошлые деньки, потому что воздействие рассылок не мгновенное (обычно открывают и читают 1–2 денька).
Естественно, в модели есть расхождения — они есть и в сложных научных моделях. Наша же цель состоит в том, чтоб подсчитать примерный KPI и оценить креатив в письмах, а это не весьма «математическая величина».
Настало время заглянуть в будущее
Строим прогноз. Рассылки планируются постоянные, с схожим содержанием, так что график смотрится циклично. Сероватая область указывает тот предел, в каком будет лежать фактическое значение посещаемости. Невзирая на мощный разброс, это все равно поможет нам прийти к выводу.
Есть различные характеристики свойства прогнозов: MPE, MAPE и остальные, но они имеют смысл лишь если прогнозов несколько. Мы тут приводим довольно обычный пример, так что ими воспользоваться не будем.
В нашей догадке необходимо было узнать, выполним ли мы KPI по посещениям за квартал, так что складываем все значения по денькам. Как досадно бы это не звучало, итог неутешительный: с таковыми данными мы выполним лишь 65% от наших планов.
Делаем выводы
Регрессионная модель показала, что наше предположение оказалось неправильным и отрешаться от промо-писем пока рановато. Тому есть весомые подтверждения — к тому же на графиках. Обидно, зато правдиво. Придется разрабатывать другую стратегию. Но это уже иная история!
Как достигнуть максимума
Сконструировать догадку. Неважно какая модель строится, чтоб ее подтвердить либо отклонить, так что с этого начинается хоть какой прогноз.
Собрать данные. Без четких данных за долгий период модель получится не соответственной реальности и будет содержать много ошибок.
Выстроить модель. Загружаем данные в избранную программку, определяем форму модели и строим.
Оцениваем свойство модели. 1-ая построенная модель изредка соответствует всем аспектам свойства. Необходимо направить на такие характеристики, как p-значение, коррелограмма остатков, логарифм правдоподобия и информационные аспекты.
Выстроить прогноз. Если свойство модели нас удовлетворит, то по ней уже можно создать прогноз. Для обычных прогнозов можно не употреблять аспекты свойства.
Делаем вывод. Проанализировав прогноз и саму модель, мы сможем осознать, верна ли наша догадка.
Источник: