5 posts tagged

аналитика

Курсы для начинающего аналитика

Собрал курсы, которые мне дополнили знания по аналитике после Практикума.

SQL

«Сиквел» — основа работы всех сортов аналитиков. И даже видел рекомендации осваивать сиквел продакт-менеджерам. Задачи на SQL мне встречались почти во всех тестовых.

Простота SQL обманчива. Помню как радовался, когда наконец «изучил SQL», пройдя курс по базовым запросам; и как потом «прозрел», когда неделю делал тестовое в SkyEng с оконными функциями и вложенными запросами.

Навык никогда не будет лишним и «перекачать» его сложно. По-моему стоит его делать каждый день по небольшому подходу — мне тут помогает поставить на повтор в трекере задач.

  • Продвинутый уровень — понимание работы запросов в контексте баз данных:
    курс «Расширенные возможности SQL» — транзакции, ACID, процедуры, триггеры, представления

курс «Введение в статистику» Анатолия Карпова

Обязательный курс, чтобы понимать распределения и отличать среднее от медианы.

Статистические методы пригодятся в разведывательном анализе данных (EDA)
и в АБ тестировании. Ну и вообще полезно для общего понимания и критического мышления.

Введение в дата инжиниринг и аналитику

Дмитрий Аношин уже несколько лет работает в Амазоне, а до этого работал в Сбербанке, Ламоде и Терадате.

Дмитрий работал в разных больших компаниях и рассказывает только то, что действительно используется в работе. Типа «так, здесь у нас constraints, но по факту это никогда не используется — вычёркиваем» или «на собеседовании в Амазон спрашивали про схему звезды, но я сказал что обычно никто с этим не заморачивается… и прошёл»

В курсе есть обзор общей картины по работе с данными в компании: от источника до дешборда. И рассказ, какой специалист занимается каким участком

Курс бесплатный, выложен на Ютуб. Есть плейлисты с модулями: пока записано 3 (из 8?)

Ещё в рамках курса бывают вебинары с крутанами, например, вот Роман Бунин про дешборды в Tableau.

Data Yoga — марафон про работу с Tableau

Если надо разобраться с визуализацией и дашбордами: на примере лучшей в отрасли — Tableau.

В курсе 42 урока. Удобно проходить по одному в день. Опять пригодится повтор задачи в личном трекере.

==[====>

больше такого — в Телеграм-канале data будни

 43   27 d   аналитика

Книга Moneyball: бейсбол, основанный на данных

Книга о том, как в 2002 году менеджер бейсбольной команды Билли Бин (Billy Bean) изменил всю спортивную индустрию: он полностью убрал субъективную оценку игроков по их внешним качествам и выстроил стратегию на их статистике и метриках.

It began, really, with an innocent question: how did one of the poorest teams in baseball, the Oakland Athletics, win so many games?
But when you looked at what actually had happened over the past few years, you had to wonder. The bottom of each division was littered with teams—the Rangers, the Orioles, the Dodgers, the Mets—that had spent huge sums and failed spectacularly. On the other end of the spectrum was Oakland. For the past several years, working with either the lowest or next to lowest payroll in the game, the Oakland A’s had won more regular season games than any other team, except the Atlanta Braves. They’d been to the play-offs three years in a row and in the previous two taken the richest team in baseball, the Yankees, to within a few outs of elimination. How on earth had they done that? The Yankees, after all, were the most egregious example of financial determinism.

После выхода книги эти методы применили сначала другие бейсбольные команды, а затем и команды в других видах спорта.

Как работал бейсбол

Каждый год бейсбольные команды набирают молодых игроков среди школьников и студентов. У команд есть специальные люди — скауты — они ездят по всем местечковым играм и оценивают молодых игроков.

За долгую историю в бейсболе сложился определённый подход. Скауты смотрят, как ребята отбивают мяч, насколько быстро бегают между базами, как хорошо ловят мяч. По итогам наблюдений скауты внутри команды обсуждают и составляют списки желаемых игроков.

Билли Бин скаутам, почему они не правы (кадр из фильма по книге). На фоне списки игроков для драфта.

В молодости Билли Бин сам стал жертвой подобной субъективной оценки: в юности он хорошо играл в бейсбол и все прочили ему звёздное будущее. Он повёлся на уговоры тренеров и подписал свой первый бейсбольный контракт в ущерб колледжу. Однако, бейсбольная карьера у него не сложилась.

...Just like that, a life changed. One day Billy Beane could have been anything; the next he was just another minor league baseball player, and not even a rich one. On the advice of a family friend, Billy’s parents invested on their son’s behalf his entire $ 125,000 bonus in a real estate partnership that promptly went bust.
...YEARS LATER he would say that when he’d decided to become a professional baseball player, it was the only time he’d done something just for the money, and that he’d never do something just for the money ever again. He would never again let the market dictate the direction of his life.

10 лет он пытался показать ту самую игру, которую от него ждали; но так и не получилось: его меняли и продавали в клубы попроще, где уже от него никто ничего не ждал. Так он в итоге оказался в Oakland Athletics, где окончательно понял, что нормально играть он не может и в 1990 году перевёлся в офисную работу.

КАК НАДО БЫЛО

В 1997 году Билли занял пост генерального менеджера команды. Sandy Alderson — предшественник Билли на посту менеджера — познакомил его со подходом, основанным на статистике, и показал нужные книги.

When Alderson entered the game he wanted to get his mind around it, and he did. He concluded that everything from on-field strategies to player evaluation was better conducted by scientific investigation—hypotheses tested by analysis of historical statistical baseball data—than by reference to the collective wisdom of old baseball men.
By analyzing baseball statistics you could see through a lot of baseball nonsense. For instance, when baseball managers talked about scoring runs, they tended to focus on team batting average, but if you ran the analysis you could see that the number of runs a team scored bore little relation to that team’s batting average. It correlated much more exactly with a team’s on-base and slugging percentages.
A lot of the offensive tactics that made baseball managers famous—the bunt, the steal, the hit and run—could be proven to have been, in most situations, either pointless or self-defeating. «I figured out that managers do all this shit because it is safe,» said Alderson. «They don’t get criticized for it.» He wasn’t particularly facile with numbers, but he could understand them well enough to use their conclusions. «I couldn’t do a regressions analysis,» he said, «but I knew what one was. And the results of them made sense to me.»

...Alderson pointed to a row of well-thumbed paperbacks by a writer named Bill James, who had opened Alderson’s eyes to a new way of thinking about baseball. Alderson had collected pretty much everything Bill James had written, including four books self-published by James between 1977 and 1980 that still existed only as cheap mimeographs.
By the time he became the general manager of the Oakland A’s, in 1997, Billy Beane had read all twelve of Bill James’s Abstracts. James had something to say specifically to Billy: you were on the receiving end of a false idea of what makes a successful baseball player. James also had something general to say to Billy, or any other general manager of a baseball team who had the guts, or the need, to listen: if you challenge the conventional wisdom, you will find ways to do things much better than they are currently done.
The whole point of James was: don’t be an ape! Think for yourself along rational lines. Hypothesize, test against the evidence, never accept that a question has been answered as well as it ever will be. Don’t believe a thing is true just because some famous baseball player says that it is true.

Через два года — в 1999 — Билли пригласил выпускника Гарварда Пола ДеПодеста, чтобы тот помог ему с формулами и подсчётами. Билли и Пол декомпозировали игру: начали с общих целей и пришли к конкретным действиям каждого члена команды, которые приводят к набору очков и, соответственно, к победе.

Paul DePodesta had been hired by Billy Beane before the 1999 season, but well before that he had studied the question of why teams win. Not long after he’d graduated from Harvard, in the mid-nineties, he’d plugged the statistics of every baseball team from the twentieth century into an equation and tested which of them correlated most closely with winning percentage. He’d found only two, both offensive statistics, inextricably linked to baseball success: on-base percentage and slugging percentage. Everything else was far less important.
Before his thought experiment Paul had felt uneasy with this crude assumption; now he saw that the assumption was absurd. An extra point of on-base percentage was clearly more valuable than an extra point of slugging percentage—but by how much?
... A player’s ability to get on base—especially when he got on base in unspectacular ways—tended to be dramatically underpriced in relation to other abilities.
The ability to get on base—to avoid making outs—was underpriced compared to the ability to hit with power. The one attribute most critical to the success of a baseball team was an attribute they could afford to buy.
Runs were the money of baseball, the common denominator of everything that occurred on a field. How much each tiny event on a baseball field was worth was a more complicated issue. AVM dealt with it by collecting ten years of data from major league baseball games, of every ball that was put into play. Every event that followed a ball being put into play was compared by the system to what had typically happened during the previous ten years.

За три года они вместе разработали и отладили систему, которая позволяла им подбирать игроков в команду, ни разу их не видев вживую. И к 2002 году они запустили её в боевом режиме — в начале сезона проигнорировали рекомендации скаутов и полностью переписали списки для драфта.

The draft has never been anything but a fucking crapshoot,” Billy had taken to saying, “We take fifty guys and we celebrate if two of them make it. In what other business is two for fifty a success? If you did that in the stock market, you’d go broke.

You have $ 40 million to spend on twenty-five baseball players. Your opponent has already spent $ 126 million on its own twenty-five players, and holds perhaps another $ 100 million in reserve. What do you do with your forty million to avoid humiliating defeat? “What you don’t do,” said Billy, “is what the Yankees do. If we do what the Yankees do, we lose every time, because they’re doing it with three times more money than we are.”

С помощью этой системы они научились находить перспективных игроков среди молодых игроков, игроков из низших лиг и даже среди в запасниках других команд. При чём эти игроки были ниже радаров других команд, поэтому цены на них был очень низкими — только поэтому команда Бина могла их купить.

Billy had his own idea about where to find future major league baseball players: inside Paul’s computer. He’d flirted with the idea of firing all the scouts and just drafting the kids straight from Paul’s laptop. The Internet now served up just about every statistic you could want about every college player in the country, and Paul knew them all. Paul’s laptop didn’t have a tiny red bell on top that whirled and whistled whenever a college player’s on-base percentage climbed above .450, but it might as well have. From Paul’s point of view, that was the great thing about college players: they had meaningful stats.

The statistics enabled you to find your way past all sorts of sight-based scouting prejudices: the scouting dislike of short right-handed pitchers, for instance, or the scouting distrust of skinny little guys who get on base. Or the scouting distaste for fat catchers.

Эффект второго порядка этой системы. Когда ты знаешь действительно работающие метрики игроков, а все остальные смотрят на какие-то другие метрики (в аналитике такие метрики ещё называют «метриками тщеславия»), то можно сделать из своих обычных игроков суперзвёзд: искусственно «надувая» их метрики тщеславия. Это повышает их рыночную стоимость и можно их удачно продать. И без какого-либо ущерба для успеха команды: место этиъ «звёзд» освобождается для более продуктивных игроков — с более высокими реальными метриками.

They had lost to free agency—and thus, to richer teams—three of their proven stars: Jason Isringhausen, Johnny Damon, and Giambi.
Jason Isringhausen’s departure wasn’t a loss to the Oakland A’s but a happy consequence of a money machine known as “Selling the Closer.” In return for losing Isringhausen to the St. Louis Cardinals, the A’s had received two new assets: the Cardinals’ first-round draft pick, along with a first-round compensation pick. The former they’d used to draft Benjamin Fritz, a pitcher they judged to have a brighter and cheaper future than Isringhausen; the latter, to acquire Jeremy Brown.

Игра вдолгую

У такой системы горизонт планирования не отдельная игра, а весь сезон. Когда метрика двух игроков отличается на несколько процентов, то в реальном мире у зрителя есть большой шанс увидеть как хучший по статистике игрок отбивает лучше за те несколько игр за сезон, что этот зритель посмотрит.

One absolutely cannot tell, by watching, the difference between a .300 hitter and a .275 hitter. The difference is one hit every two weeks. It might be that a reporter, seeing every game that the team plays, could sense that difference over the course of the year if no records were kept, but I doubt it. Certainly the average fan, seeing perhaps a tenth of the team’s games, could never gauge two performances that accurately—in fact if you see both 15 games a year, there is a 40% chance that the .275 hitter will have more hits than the .300 hitter in the games that you see. The difference between a good hitter and an average hitter is simply not visible—it is a matter of record.

Наверное поэтому Билли не смотрел игры своей команды — это была мука.

During the first couple of innings he’d run a few miles and lift a few weights and generally remind whichever pitchers and bench players who had sneaked out of the dugout to get in their workouts that they played for the only team in the history of baseball on which the general manager was also the best athlete. After that, what he did depended on the situation. What he didn’t do was watch the games. When he watched his team live, he became so upset he’d become a danger to baseball science. He’d become, as he put it, «subjective.» His anger might lead him to do something unconsidered.

Billy couldn’t bear to watch; on the other hand, he couldn’t bear not to watch. He carried around in his pocket a little white box, resembling a pager, that received a satellite feed of live baseball scores. The white box was his chief source of real time information about the team he ran. He’d get into his SUV and drive in circles around the Coliseum, peeking every few minutes at the tiny white box. Or he’d set himself up in a place inside the clubhouse, white box in hand. He was like some tragic figure in Greek mythology whose offenses against the gods had caused them to design for him this exquisite torture: you must desperately need to see what you cannot bear to see.

К тому же в начале сезона дела шли неважно. Билли испытывал огромное давление со всех торон: от тренера команды, от её владельца, от болельщиков и прессы, и даже самих игроков. Все они принимали во внимание только сиюминутные результаты.

Основа для книги

Майкл Льюис понял, что надо писать книгу, когда увидел команду Oakland Athletics в раздевалке. Без одежды было ясно видно, насколько игроки Athletics отличаются от общего представления об идеальных бейсболистах. И тем не менее, они показывали результат за гораздо меньшие деньги, чем топовые команды.

Налицо разрыв между реальным миром и его моделью в головах людей; насколько принятые на рынке суждения оказываются неверными с точки зрения статистики. Этот разрыв хорошо описывают исследования Даниеля Канемана и Амоса Тверски, собранные в книге «Thinking Fast and Slow» (в русском перевода «Думай медленно, решай быстро»).

There was, for starters, the tendency of everyone who actually played the game to generalize wildly from his own experience. People always thought their own experience was typical when it wasn’t. There was also a tendency to be overly influenced by a guy’s most recent performance: what he did last was not necessarily what he would do next. Thirdly—but not lastly—there was the bias toward what people saw with their own eyes, or thought they had seen. The human mind played tricks on itself when it relied exclusively on what it saw, and every trick it played was a financial opportunity for someone who saw through the illusion to the reality. There was a lot you couldn’t see when you watched a baseball game.

Льюис написал одну из следующих своих книг о дружбе и работе Канемана и Тверски The Undoing Project: A Friendship That Changed Our Minds.

 35   1 mon   аналитика

Тестовое задание в Welltory

…или как я нашёл пользователя по данным фитнес-трекера

В январе 2020 я активно искал работу по новой специальности аналитика данных, которую не за долго до этого получил в Яндекс.Практикуме. Среди ~30 компаний, с кем мне пришлось пообщаться в процессе поиска работы, больше всего мне запомнились Welltory.

Welltory делают мобильное приложение, где с помощью камеры можно измерить вариабельность сердечного ритма. Это небольшие изменения временно́го интервала между соседними сердечными сокращениями. На основе этих данных приложение делаeт выводы об общем самочувствии.

Ребята искали нового сотрудника, кто бы помог работать с данными. Для начала нужно было выполнить тестовое задание: проанализировать данные по количеству пройденных шагов одного пользователя.

Рассказажу про одну особенность задания — как я вышел на конкретного пользователя, с чьего трекера были выгружены эти данные. Эта история до сих пор греет меня каждый раз когда её вспоминаю.

По результатам этого тестового меня выбрали для «следующего тура» среди «гораздо больше 100»© соискателей. Не знаю, за счёт ли самого́ анализа или за моё «открытие» или ещё почему-то: предположу, что за совокупность факторов.

Анализ

В качестве тестового задания дали выгрузку с фитнес-трекера одного пользователя и надо было разметить дни как обычные и необычные (выше или ниже нормы). В признаках ничего необычного: начало и конец «сессии», ID пользователя и, собственно, количество шагов. Время дополнительно дублировалось в едином часовом поясе.

Поскольку данные по шагам были разбиты по «сессиям», надо было их сагригировать по дням. Дело нехитрое: просто взять сумму шагов за каждый день.

Но что делать с колонкой с часовым поясом? не складывать же их так же по дням. Я решил проверить, в какие дни часовой пояс отличался от предыдущего дня. Получилась четыре таких дня: один день 29 июня и недельная поездка с 1 по 7 июля. И это показалось мне очень интересным.

Цепочка умозаключений

Welltory скорее всего предоставили реальные данные — ведь зачем париться и синтезировать стерильные данные. Хорошо бы взять реальные, чтобы в них действительно что-то можно было бы найти.

Раз данные реальные, значит — и человек реальный. Но персональные данные — дело щепетильное; нельзя просто так раздавать данные клиентов. Проще взять данные одного из сотрудников.

И часовой пояс подходит: как раз в Питере есть офис компании, значит, там живёт сколько-то сотрудников. Шанс повышается.

Как можно это подтвердить? Скольких сотрудников надо «проверить»?

Я не какой-то там частный детектив из фильма — я не умею находить людей по фото или работодателю. Из Welltory я знал только тех, кто был связан с тестовым заданием:

  1. Павел Правдин, на Твитер которого была ссылка в вакансии.
  2. Евгения Смородникова, кому надо было прислать результат тестового.

Повезло, что Евгения активно ведёт Фейсбук. Зашёл на её страницу и просто отмотал на период предполагаемой поездки — и вуаля! — там был пост про поездку в Хельсинки.

В том же фесбуке можно найти подсказки по названию файлов и личных качествах

Всё сошлось: поездка из московского часового пояса на один часовой пояс на запад. Ха! Почувствовал себя настоящим data-детективом.

Сопроводительное письмо

Итоги анализа надо было оформить в удобном виде. Так, чтобы заинтересовать человека на той стороне, чтобы ему было интересно продолжить разговор. Поскольку результат тестового надо было отправить в Телеграм, пришлось оформить всё в виде отдельных сообщений.

Потратил какое-то время, формулирую и отсылая сообщения самому себе, чтобы представить, как их будут читать. Важное вперёд, повыше; последний график и кратко вывод достать из тетради и поставить прямо тут.

в черновиках Телеграма подбираю нужные слова и их порядок

В конце добавить «вишенку»: почему именно я — в моём случае это тяга к quantified-self. К тому же не за долго до этого слушал подкаст с Евгенией и даже сделал конспект.

кстати, ещё слушал подкасты с одним из фаундеров; очень понравилось и это послужило ещё один фактором, почему я захотел там работать.

Нежданчик в конце

Свой отточенный отчёт по тестовому я отправил вечером. На следующее утро в 06:02 (!) пишет Евгения «ну нифига себе» (!!) первым (!!!) же сообщением, чем сражу неимоверно располагает к себе.

Она сходу указывает на недостаток моей работы — решение не будет адаптироваться, если данных будет больше, ведь я размечал кластеры вручную. Но тем не менее, они хотели бы со мной поговорить. Прохожу, так сказать, в следующий тур.

Мне уже приходилось назначать такие встречи с другими компаниями. По отлаженному сценарию я предлагаю на выбор несколько дней на предстоящей неделе, в каждом дне несколько удобных мне часов. Всё, чтобы им было удобнее найти подходящее для себя время.

Ответ Евгении меня удивил: «а можешь вот прямо сейчас?» — то есть полседьмого утра :-) вот это скорость! Вот что значит, общаться с небольшим продвинутым стартапом, а не огромной корпорацией. Как будет «бюрократия» наоборот?

Финальные титры

Саша прошёл собеседование — много волновался, каждое предложение из него вытаскивали клещами с нескольких попыток, но всё же минут за 30 он смог назвать все необходимые термины и рассказать порядок применения статистических критерирев. Потом, правда, интервьюер подвёл итог беседы и повторил всю логическую без запинок: у него на это ушло 30 секунд :-)

После собеседования был второй тур. Там был датасет покруче. Одних только признаков — 45. У меня ушёл день только на то, чтобы это переварить. А поскольку, у меня нигде не появилось значка «proud junior data engineer at Welltory», можно сделать вывод, что дальше второго тура я не прошёл.

По результатам ребята дали подробную обратную связь: сильные стороны и что ещё подкачать. Отдаю честь ребятам — обратная связь была открытой, полной и оперативной. До сих пор это был самый приятный опыт общения с другой компанией.

Выводы, которые я сделал для себя

  1. Незначительная второстепенная деталь может вывести на интересные выводы.
  2. Данные для анализа не ограничиваются датасетом, который тебе прислали.
  3. Хорошие компании и приятные люди существуют, надо только их найти.

P.S.: работу в итоге нашёл: в роли единственного дата-инженера в небольшой компании пишу ETL-пайплайны на Python.

==[====>

больше такого — в моём Телеграм-канале data будни

 2 comments    118   2 mon   аналитика

Доклад Светланы Аюповой из Skyeng про А/Б тесты

В IT-Agency прошла «стратегическая пицца» — мероприятие, где собираются люди послушать доклад и потом обсудить его за пиццей и вином. На доклад о сплит-тестах заявок было большое, чем мест в зале, поэтому ребята выложили запись выступления.

Я был среди тех, кому место не досталось, поэтому посмотрел запись и сделал заметки.

Светлана Аюпова из Skyeng на стратпицце в IT-Agency 12 сентября 2019

Анкетирование и интервью помогает в поиске гипотез. Сейчас в беклоге сто гипотез.

Автор гипотеза обычно очень в ней уверен. В среднем на 8 из 10. По факту выстреливает только одна из десяти. Чтобы проверить реальность идеи, проводят коридорные тесты и опросы людей. К методам опросов следует подходить внимательно — если сделать неправильно, можно внести в результаты искажения.

Все крупные изменения на десятки процентов были раньше. Сейчас идёт бой за очень маленькие изменения.

Чтобы добиться статистической значимости в таких изменениях, нужно много трафика. Поэтому если ты не Яндекс, можно успеть за месяц проверить две гипотезы. И желательно быть в них уверенными.

Надо понимать что изменения может занять недели и месяцы работы команды. Потому каждую гипотезу хорошо бы проверить до этого всеми возможными способами, чтобы повысить уверенность (confidence).

Стоимость гипотезы может достигать миллион(ы?) рублей. Поэтому лучше не мелочиться с изменениями — не менять шрифт и его размер, не двигать блоки туда-сюда.

Изменения дальше второго экрана вообще не трогают. Туда большая часть пользователей не долистывает.

Опережающая метрика. У Фейсбука это 7 друзей за 10 дней для новых клиентов.
У Скайенг это вторая продажа. Они играют вдолгую и главная метрика это LTV. Ученик должен много вкладывать усилий в обучение иначе быстро забьёт. Вторая продажа лучше других метрик коррелирует с LTV. Поэтому все тексты меряют до второй продажи.

Если тест не подтвердил гипотезу это хороший повод провести анализ как к ней пришли. Почему ее не отменили раньше. Это помогает с анализом будущих гипотез.

Любую гипотезу можно очень грубо прикинуть на коленке. Какой охват, какая конверсия, сколько займет разработка и какие будут расходы. Сравнить предполагаемую выручку и затраты. Иногда разница на порядок даже после простых расчётов. Например, как было с разработкой механики классного репоста в соцсети.

Есть база на 100к человек. Как активировать? Рассылка? Если посчитать открытие на холодной, то цифры не сойдутся. А если позвонить, то конверсия точно будет выше. и стоить будет не сильно больше. Вывод: иногда стоит сменить инструмент.

Большая ошибка не учитывать в расчетах похолодание трафика.

Ухудшающий эксперимент, чтобы изменить горячий трафик. Волатильность трафика. Горячий, теплый и холодный. Если на странице вообще не будет ничего стимулирующего к покупке, то сколько людей заполнят заявку?

Оффтоп: в Skyeng машинное обучение советует кому и когда звонить. В разработке маски и улучшатель голоса для учителей. В будущем общаться будет уже неотличимая от человека машина.

Вопросы из зала.

 7   12 mon   IT-Agency   Skyeng   аналитика

Экстраполяция данных

На уроках по аналитике рассказали о методе прогнозирования — экстраполяции данных.

Когда запускаешь новый канал рекламы и по плану он окупается за год. Но окупится он или нет надо знать сейчас. Иначе есть шанс целый год платить за убыточный канал.

Экстраполяция позволяет делать выводы на основе данных за прошлые периоды. Берем данные , которым уже больше года. Сравниваем два показателя: за неделю и за год. Строим формулу и получаем результат с некоторой точностью.

Например, каналы с показателем за первую неделю в 6% за год не окупаются. А вот в 8% — окупаются.

На основе этих результатов уже можно с некоторой вероятностью прогнозировать окупаемость новых каналов через год по данным за первую неделю.

 1   2017   аналитика   школа менеджеров