3 posts tagged

аналитика

Тестовое задание в Welltory

…или как я нашёл пользователя по данным фитнес-трекера

В январе 2020 я активно искал работу по новой специальности аналитика данных, которую не за долго до этого получил в Яндекс.Практикуме. Среди ~30 компаний, с кем мне пришлось пообщаться в процессе поиска работы, больше всего мне запомнились Welltory.

Welltory делают мобильное приложение, где с помощью камеры можно измерить вариабельность сердечного ритма. Это небольшие изменения временно́го интервала между соседними сердечными сокращениями. На основе этих данных приложение делаeт выводы об общем самочувствии.

Ребята искали нового сотрудника, кто бы помог работать с данными. Для начала нужно было выполнить тестовое задание: проанализировать данные по количеству пройденных шагов одного пользователя.

Рассказажу про одну особенность задания — как я вышел на конкретного пользователя, с чьего трекера были выгружены эти данные. Эта история до сих пор греет меня каждый раз когда её вспоминаю.

По результатам этого тестового меня выбрали для «следующего тура» среди «гораздо больше 100»© соискателей. Не знаю, за счёт ли самого́ анализа или за моё «открытие» или ещё почему-то: предположу, что за совокупность факторов.

Анализ

В качестве тестового задания дали выгрузку с фитнес-трекера одного пользователя и надо было разметить дни как обычные и необычные (выше или ниже нормы). В признаках ничего необычного: начало и конец «сессии», ID пользователя и, собственно, количество шагов. Время дополнительно дублировалось в едином часовом поясе.

Поскольку данные по шагам были разбиты по «сессиям», надо было их сагригировать по дням. Дело нехитрое: просто взять сумму шагов за каждый день.

Но что делать с колонкой с часовым поясом? не складывать же их так же по дням. Я решил проверить, в какие дни часовой пояс отличался от предыдущего дня. Получилась четыре таких дня: один день 29 июня и недельная поездка с 1 по 7 июля. И это показалось мне очень интересным.

Цепочка умозаключений

Welltory скорее всего предоставили реальные данные — ведь зачем париться и синтезировать стерильные данные. Хорошо бы взять реальные, чтобы в них действительно что-то можно было бы найти.

Раз данные реальные, значит — и человек реальный. Но персональные данные — дело щепетильное; нельзя просто так раздавать данные клиентов. Проще взять данные одного из сотрудников.

И часовой пояс подходит: как раз в Питере есть офис компании, значит, там живёт сколько-то сотрудников. Шанс повышается.

Как можно это подтвердить? Скольких сотрудников надо «проверить»?

Я не какой-то там частный детектив из фильма — я не умею находить людей по фото или работодателю. Из Welltory я знал только тех, кто был связан с тестовым заданием:

  1. Павел Правдин, на Твитер которого была ссылка в вакансии.
  2. Евгения Смородникова, кому надо было прислать результат тестового.

Повезло, что Евгения активно ведёт Фейсбук. Зашёл на её страницу и просто отмотал на период предполагаемой поездки — и вуаля! — там был пост про поездку в Хельсинки.

В том же фесбуке можно найти подсказки по названию файлов и личных качествах

Всё сошлось: поездка из московского часового пояса на один часовой пояс на запад. Ха! Почувствовал себя настоящим data-детективом.

Сопроводительное письмо

Итоги анализа надо было оформить в удобном виде. Так, чтобы заинтересовать человека на той стороне, чтобы ему было интересно продолжить разговор. Поскольку результат тестового надо было отправить в Телеграм, пришлось оформить всё в виде отдельных сообщений.

Потратил какое-то время, формулирую и отсылая сообщения самому себе, чтобы представить, как их будут читать. Важное вперёд, повыше; последний график и кратко вывод достать из тетради и поставить прямо тут.

в черновиках Телеграма подбираю нужные слова и их порядок

В конце добавить «вишенку»: почему именно я — в моём случае это тяга к quantified-self. К тому же не за долго до этого слушал подкаст с Евгенией и даже сделал конспект.

кстати, ещё слушал подкасты с одним из фаундеров; очень понравилось и это послужило ещё один фактором, почему я захотел там работать.

Нежданчик в конце

Свой отточенный отчёт по тестовому я отправил вечером. На следующее утро в 06:02 (!) пишет Евгения «ну нифига себе» (!!) первым (!!!) же сообщением, чем сражу неимоверно располагает к себе.

Она сходу указывает на недостаток моей работы — решение не будет адаптироваться, если данных будет больше, ведь я размечал кластеры вручную. Но тем не менее, они хотели бы со мной поговорить. Прохожу, так сказать, в следующий тур.

Мне уже приходилось назначать такие встречи с другими компаниями. По отлаженному сценарию я предлагаю на выбор несколько дней на предстоящей неделе, в каждом дне несколько удобных мне часов. Всё, чтобы им было удобнее найти подходящее для себя время.

Ответ Евгении меня удивил: «а можешь вот прямо сейчас?» — то есть полседьмого утра :-) вот это скорость! Вот что значит, общаться с небольшим продвинутым стартапом, а не огромной корпорацией. Как будет «бюрократия» наоборот?

Финальные титры

Саша прошёл собеседование — много волновался, каждое предложение из него вытаскивали клещами с нескольких попыток, но всё же минут за 30 он смог назвать все необходимые термины и рассказать порядок применения статистических критерирев. Потом, правда, интервьюер подвёл итог беседы и повторил всю логическую без запинок: у него на это ушло 30 секунд :-)

После собеседования был второй тур. Там был датасет покруче. Одних только признаков — 45. У меня ушёл день только на то, чтобы это переварить. А поскольку, у меня нигде не появилось значка «proud junior data engineer at Welltory», можно сделать вывод, что дальше второго тура я не прошёл.

По результатам ребята дали подробную обратную связь: сильные стороны и что ещё подкачать. Отдаю честь ребятам — обратная связь была открытой, полной и оперативной. До сих пор это был самый приятный опыт общения с другой компанией.

Выводы, которые я сделал для себя

  1. Незначительная второстепенная деталь может вывести на интересные выводы.
  2. Данные для анализа не ограничиваются датасетом, который тебе прислали.
  3. Хорошие компании и приятные люди существуют, надо только их найти.
 2 comments    2591   20 d   аналитика

Доклад Светланы Аюповой из Skyeng про А/Б тесты

В IT-Agency прошла «стратегическая пицца» — мероприятие, где собираются люди послушать доклад и потом обсудить его за пиццей и вином. На доклад о сплит-тестах заявок было большое, чем мест в зале, поэтому ребята выложили запись выступления.

Я был среди тех, кому место не досталось, поэтому посмотрел запись и сделал заметки.

Светлана Аюпова из Skyeng на стратпицце в IT-Agency 12 сентября 2019

Анкетирование и интервью помогает в поиске гипотез. Сейчас в беклоге сто гипотез.

Автор гипотеза обычно очень в ней уверен. В среднем на 8 из 10. По факту выстреливает только одна из десяти. Чтобы проверить реальность идеи, проводят коридорные тесты и опросы людей. К методам опросов следует подходить внимательно — если сделать неправильно, можно внести в результаты искажения.

Все крупные изменения на десятки процентов были раньше. Сейчас идёт бой за очень маленькие изменения.

Чтобы добиться статистической значимости в таких изменениях, нужно много трафика. Поэтому если ты не Яндекс, можно успеть за месяц проверить две гипотезы. И желательно быть в них уверенными.

Надо понимать что изменения может занять недели и месяцы работы команды. Потому каждую гипотезу хорошо бы проверить до этого всеми возможными способами, чтобы повысить уверенность (confidence).

Стоимость гипотезы может достигать миллион(ы?) рублей. Поэтому лучше не мелочиться с изменениями — не менять шрифт и его размер, не двигать блоки туда-сюда.

Изменения дальше второго экрана вообще не трогают. Туда большая часть пользователей не долистывает.

Опережающая метрика. У Фейсбука это 7 друзей за 10 дней для новых клиентов.
У Скайенг это вторая продажа. Они играют вдолгую и главная метрика это LTV. Ученик должен много вкладывать усилий в обучение иначе быстро забьёт. Вторая продажа лучше других метрик коррелирует с LTV. Поэтому все тексты меряют до второй продажи.

Если тест не подтвердил гипотезу это хороший повод провести анализ как к ней пришли. Почему ее не отменили раньше. Это помогает с анализом будущих гипотез.

Любую гипотезу можно очень грубо прикинуть на коленке. Какой охват, какая конверсия, сколько займет разработка и какие будут расходы. Сравнить предполагаемую выручку и затраты. Иногда разница на порядок даже после простых расчётов. Например, как было с разработкой механики классного репоста в соцсети.

Есть база на 100к человек. Как активировать? Рассылка? Если посчитать открытие на холодной, то цифры не сойдутся. А если позвонить, то конверсия точно будет выше. и стоить будет не сильно больше. Вывод: иногда стоит сменить инструмент.

Большая ошибка не учитывать в расчетах похолодание трафика.

Ухудшающий эксперимент, чтобы изменить горячий трафик. Волатильность трафика. Горячий, теплый и холодный. Если на странице вообще не будет ничего стимулирующего к покупке, то сколько людей заполнят заявку?

Оффтоп: в Skyeng машинное обучение советует кому и когда звонить. В разработке маски и улучшатель голоса для учителей. В будущем общаться будет уже неотличимая от человека машина.

Вопросы из зала.

 10   10 mon   IT-Agency   Skyeng   аналитика

Экстраполяция данных

На уроках по аналитике рассказали о методе прогнозирования — экстраполяции данных.

Когда запускаешь новый канал рекламы и по плану он окупается за год. Но окупится он или нет надо знать сейчас. Иначе есть шанс целый год платить за убыточный канал.

Экстраполяция позволяет делать выводы на основе данных за прошлые периоды. Берем данные , которым уже больше года. Сравниваем два показателя: за неделю и за год. Строим формулу и получаем результат с некоторой точностью.

Например, каналы с показателем за первую неделю в 6% за год не окупаются. А вот в 8% — окупаются.

На основе этих результатов уже можно с некоторой вероятностью прогнозировать окупаемость новых каналов через год по данным за первую неделю.

 1   2017   аналитика   школа менеджеров