A/B testy a Weldonove kostky

Kostky

Drtivá většina uživatelů vašich webů má nadprůměrný počet prstů. Tato informace je pravdivá (pokud nejste provozovatelem webu pro lidi po amputaci). Pro její ověření můžete udělat rozsáhlý průzkum a pak výsledky vyhodnocovat statistickým softwarem a analytickými nástroji. Dá se na to přijít i bez toho výzkumu. Ale zajímá to někoho?

Statistika je krásná věda, které toho umí hodně. Statistika se používá i na vyhodnocování A/B testování (a to je jenom dobře).

Málo dat

Provedení A/B testu je hezky popsáno v tomto článku. Interpretace výsledků je ale špatná (viz diskuse pod článkem). Tohle je příklad, jak se to dělat, nebo spíše vyhodnocovat, nemá. Problémem v tomto případu je malá četnost dat na to, jaký typ testu byl použit. Z malé množiny dat budete možná schopni vybrat lepší z 2 možností (tj. tu nejlepší). U 6 možností (tolik se uvažuje v článku) je ale situace výrazně komplikovanější a jenom ukázat, že tyto možnosti nejsou stejné (viz testy dobré shody), vyžaduje víc dat než v případu 2 možností. A pokud budete chtít vybrat z 6 možností tu nejlepší, vzorek bude muset být ještě větší.

Hodně dat

Dalším extrémem je velký objem reálných dat. Je to extrém, nikoliv problém. Nicméně statistika a testy jsou výrazně starší než IT technika. Například T-test začal používat pracovník pivovaru Guinness na začátku 20. století. V tom období nebyl k dispozici tak velký objem dat k analýze jako v současnosti. A v tabulkách pro kritické hodnoty vidíme, že „nekonečno začíná hodně brzo“ (už u vzorku s četností 100 se kritická hodnota liší o méně než 2 procenta oproti „nekonečnému vzorku“). Taky v učebnicích statistiky většinou narazíte na příklady, kde je četnost vzorku v jednotkách, maximálně v desítkách.

Při velkém množství údajů bude mít statistika tendenci zamítnout hypotézu o rovnosti (tj. pomocí statistiky ukážeme, že uvažované varianty nejsou shodné). Důvodem je, že každé dvě reálné věci jsou rozdílné (ok, protony nejsou, atomy plyny taky nejsou, ale ty nebudeme testovat) a taky, že se při velkém vzorku výrazně projeví nesplnění teoretických předpokladů (tj. že náhodné veličiny mají být nezávislé a stejně rozdělené). Například předpokládejme, že máte online obchod s obrovskou návštěvností (statisíce přístupů za týden – uvažujeme i přístupy bez nákupu). Testem chceme zjistit, zda má uvažovaná změna dopad na počet kupovaných položek, které zákazníci nakupují a na celkovou sumu peněz, které zákazníci utratí. Testem zjistíme, že zákazníci po změně nakupují o 0,3 % více položek a je to statisticky významné a současně utratí o 0,4 % méně, ale statisticky významné to není (díky větší směrodatné odchylce vzhledem ke střední hodnotě). Co s takovým výsledkem?

Walter Frank Raphael Weldon v 19. století házel 26 306 krát 12 kostkami a sledoval četnost pětek a šestek. Z výsledků experimentu plyne, že kostky nebyly symetrické. Stejný závěr zjistili i vědci, když experiment zopakovali (na házení kostek a počítaní výsledků už použili automat).

Dokonalou kostku, minci nebo ruletu prostě neuděláte. Taky dvě rozdílné marketingové kampaně se stejným výsledkem neuděláte (pokud alespoň jedna kampaň bude mít dopad). Ale dokázat to pomocí statistiky dá zabrat.

Generátory náhodných čísel fungují ale i pro obrovské četnosti dle teoretických předpokladů. Ani při generování 2 000 000 000 hodů imaginární mincí jsem neukázal, že by algoritmus fungoval špatně (Oracle 11, dbms_random). Panna padla 1 000 003 718 krát.

Co je dobré pro A/B testy?

Dělejte test správně. Nenáhodné rozdělení na skupiny může mít překvapující závěry. Na muže funguje lépe kampaň A, na ženy funguje lépe kampaň A, ale na lidi – sjednocení mužů a žen – funguje lépe kampaň B. Viz Simpsonův paradox. Raději méně kvalitních dat, než hodně špatných dat.

Víc dat. Platí, že pro dokázání malého rozdílu potřebujeme výrazně více dat než pro dokázaní velkého rozdílu (zjednodušeně pro n-krát přesnější odhad potřebujete n2-krát více dat). Taky lépe odhalíte případné chyby v metodice měření a případné extrémy budou mít na výsledek menší dopad. Nicméně i pro obrovské vzorky je nutné dodržovat metodiku. Například průzkum s 2,4 miliony respondenty špatně vybral budoucího prezidenta USA.

Využívejte data, které máte, co nejlépe. Například když máte pro účastníky testu historická data, je možné využít bayesovskou statistiku pro další a lepší analýzu. Když test děláte pro klienty, u kterých máte historii, tak ty data z historie využijte.

A hlavně předtím, než začnete testovat si uvědomte, co vaše data znamenají a co chcete dosáhnout. Množství zakoupeného piva a pohlaví klienta jsou závislé. Množství zakoupeného kondicionéru na vlasy a pohlaví klienta jsou závislé. Závislé jsou i množství zakoupeného piva a kondicionéru. Která z těchto závislostí se dá marketingově využít?

Vystudoval matematickou statistiku na MFF UK, Pracuje jako matematik pro vyhledávač hotelů trivago

Čtení na léto

Jaké knihy z oboru plánujete přečíst během léta? Pochlubte se ostatním ve čtenářské skupině Zdrojak.cz na Goodreads.com.

Komentáře: 8

Přehled komentářů

jinxcz Super
none_ Začátek a konec?
Martin Hassman Re: Začátek a konec?
tdvorak Re: Začátek a konec?
Martin Hassman Re: Začátek a konec?
tdvorak Re: Začátek a konec?
kahi hezké
Martin Hassman Re: hezké
Zdroj: http://www.zdrojak.cz/?p=3650