A/B testování je způsob, jak zjistit, která varianta obsahu (A, nebo B) funguje lépe. Díky tomu můžete optimalizovat web, e-shop, CTA kartu, nebo třeba znění předmětů newsletterů.
Abyste mohli výsledek testu prohlásit za dostatečně průkazný, musí funkčnost každé z verzí prověřit dostatek uživatelů. Kolik jich má být? To se naučíte spočítat v tomto článku.
Spočítejte si parametry A/B testu pro dostatečnou průkaznost výsledků
Představte si situaci: Máte webovou stránku s formulářem a napadne vás, že ho možná vyplní víc lidí, když změníte… třeba… jeho barvu. To je vaše hypotéza.
Jenže: Jak ji ověřit? Právě k tomu slouží A/B testování.
Během něj necháváte návštěvníkům, tak jak přicházejí, střídavě (či nahodile) zobrazovat obě testované verze dané stránky s formulářem. A sledujete, která verze vykáže lepší metriky.
Hodně zjednodušeně: Každý lichý návštěvník vidí verzi A, každý sudý verzi B.
Začnou se vám hromadit výsledky a vy si položíte otázku: Která verze vyhrála?
A také: Kdy už jsou získané údaje dostatečně průkazné? Stačí mi 100 výsledků z verze A a 100 z verze B?
Optimizely, Dynamic Yield, AB Testguide: Nástroje pro výpočet velikosti testované skupiny
Velikostí testované skupiny se myslí počet návštěvníků (resp. page views), kteří si danou variantu obsahu zobrazí a případně na ni reagují. A tady přichází kámen úrazu:
Aby byl test dostatečně průkazný, často potřebujete desetitisíce výsledků. V případě webové stránky tedy desetitisíce návštěvníků. Co o velikosti testované skupiny rozhoduje?
- výchozí konverze (VK)
- nejmenší požadovaná odchylka od VK (zvaná též MDE, minimální detekovatelný efekt)
- požadovaná statistická jistota (obvykle alespoň 95 %)
Co je MDE
Hodnota MDE odkazuje k nejmenšímu možnému zlepšení výsledku, které vám stojí za to detekovat.
Jinými slovy, jde o nejmenší rozdíl mezi výsledkem A a B, který ještě považujete za smysluplné identifikovat.
Vypovídá o tom, jak je váš test „citlivý“. Respektive jaká změna se už hodnotí jako významná.
Ukažme si to na příkladu:
Máte stránku s formulářem, jehož míra konverze je například 1 %. Vymyslíte, jak ho vylepšit, a chcete změřit, jestli nová verze bude úspěšnější.
Za přínos budete považovat, když se konverze zlepší alespoň na 1,1 % (MDE tedy bude 10 %). Statistickou jistotu necháte standardní (95 %).
K výpočtu potřebné velikosti testované skupiny využijte například kalkulátor od Optimizely. Nebo ten od AB Testguide.
Výsledek? Pro tento test potřebujete 200 000 návštěv na jednu verzi. (viz obr. níže)
Pokud ovšem formulář konvertuje každého desátého návštěvníka (a vy ponecháte i tentokrát MDE na 10 %), A/B test vykáže 95% statistickou jistotu už při 14 000 návštěvách.
Zmenšíte-li nejmenší požadovanou odchylku od VK na 5 % (tj. zvýšíte citlivost testu), potřebný počet zobrazení se zněkolikanásobí.
Jak dlouho A/B test potrvá?
Jakmile znáte potřebný počet zobrazení, snadno si uděláte představu, jak dlouho musíte nechat A/B test běžet. Závisí to totiž na návštěvnosti příslušné stránky.
Nechce se vám to počítat? Využijte kalkulátor od Dynamic Yield. Po zadání denní návštěvnosti se dozvíte, jak dlouho váš test poběží, než nasbírá dostatečný počet dat.
Vyjdeme-li z úvodního příkladu s mírou konverze 1 % a s 10% MDE, pak pro stránky s různým počtem unikátních návštěvníků (UV) za den získáme následující data:
- 100 UV/den > test poběží roky. Jeho realizace nemá smysl.
- 1000 UV/den > test poběží 315 dní. Jeho realizace rovněž nedává moc smysl.
- 10 000 UV/den > 4 týdny.
- 100 000 UV/den > 3 dny.
Všechny údaje vám přehledně spočítá i kalkulátor na AB Tasty.
Čísla se samozřejmě změní ve chvíli, kdy bude výchozí konverze vyšší. Třeba: Míra okamžitého opuštění stránky je 80 % a já ji chci úpravou srazit alespoň na 72 %. Tedy minimálně o 10 %.
Podle kalkulátoru na Dynamic Yield bych měl při průměrné denní návštěvnosti dané stránky 1000 UV získat dostatečná data už za 1 den.
Kolik dní už je příliš?
Tak třeba Convertize uvádí, že test by neměl trvat déle než 30 dnů. Jako úplné maximum udává 60 dní, zejména s ohledem na průměrnou periodicitu promazávání cookies.
Na příkladu A/B testu stránky s 2% konverzí ilustruje vztah mezi návštěvností (početností testovaného publika) a statistickou jistotou a rozlišuje 4 jistotní zóny: zónu obav, napětí, vzrušení a bezpečí:
Zóna obav (Fear factor)
V této zóně je hypotéza ověřena příliš malým vzorkem testovaných (zde do 10 000 UV/měsíc). Aby bylo dosaženo dostatečné statistické jistoty, muselo by dojít ke změně konverze v řádu desítek procent.
U stránky s 2% konverzí by muselo jít o alespoň 30% změnu. (viz graf)
Zóna napětí (Thrilling)
V této fázi je hypotéza ověřena už 10 až 100 tisíci UV/měsíc. Podmínkou pro dosažení vysoké statistické jistoty je ale i nadále výrazná změna konverze, konkrétně alespoň 9% rozdíl mezi A a B. V případě nižšího rozdílu je statistická jistota nedostatečná.
Zóna vzrušení (Exciting)
Hypotézu ověřilo 100 000 až 1 000 000 UV. Na alespoň 95 % statistickou jistotu stačí 2–9% změna (podle toho, v jaké části intervalu počtu ověření zrovna jsme).
Zóna bezpečí (Safe)
Hypotézu ověřilo nejméně 1 000 000 UV/měsíc. Dostatečnou statistickou jistotu vykážou i výsledky, v nichž vyjde najevo jen nepatrný rozdíl výkonu mezi A a B.
Je můj A/B test už dostatečně průkazný?
Můžete na to jít i opačně. Ptát se, jestli aktuálně nasbíraná data z testu již s dostatečnou statistickou jistotou ukazují, která z testovaných verzí je lepší. K tomu se vám hodí tenhle kalkulátor od Neila Patela. Spočítá vám aktuální hodnotu statistické jistoty.
Zkusme to u našeho příkladu s formulářem:
Stránka A po 500 návštěvách vykázala konverzi 1 % (5 registrací). Stránka B po 500 návštěvách vykázala konverzi 2 % (10 registrací). Existuje 91% statistická jistota, že verze B zlepšuje konverzi o 100 %.
Bude-li trend stejný i po 1000 návštěvách, statistická jistota vzroste:
Stránka A po 1000 návštěvách vykázala konverzi 1 % (10 registrací). Stránka B po 1000 návštěvách vykázala konverzi 2 % (20 registrací). Existuje 97% statistická jistota, že verze B zlepšuje konverzi o 100 %.
Tento nástroj oceníte zejména při těsných výsledcích obou variant nebo když se chcete vyvarovat zbrklého závěru (tj. když test zatím signalizuje nízkou statistickou jistotu).
Pokud je totiž testovací publikum příliš malé, hrozí, že výsledky testu ukazují spíše na náhodu než na statisticky významný trend.
Nástroje, které vám pomůžou
Závěrem ještě jednou připomeňme šikovné kalkulátory, které vám se stanovením parametrů při A/B testování pomůžou:
Kalkulátory Optimizely, Dynamic Yield či AB Tasty vám spočítají potřebnou velikost publika. Stačí zadat výchozí hodnotu míry konverze a MDE.
Kalkulátor na webu Neila Patela vám řekne, jakou statistickou jistotu vykazují dosavadní výsledky vašeho A/B testu.
Hodně štěstí při testování!
Zajímají vás A/B testy? Přečtěte si i tyto články
Copywriting a A/B testování: Headline na landing page
Co vám na školení copywritingu neřeknou: A/B testování copy s ukázkami
A/B testování předmětu e-mailu – 10 testů, které potřebujete znát