Архив за категорията 'Интернет маркетинг'

Онлайн Маркетинг – от Магически Ритуали към Данни

19.05.2014

или „Защо всеки специалист по онлайн маркетинг трябва да бъде и статистик“.

Нека започна директно с основното твърдение в статията:

Интернет маркетингът в огромната си част не се базира на факти.

Ето, казах го, при това с удебелен наклонен шрифт, така че трябва да е вярно. Интернет маркетингът не се базира на данни и не се основава на факти толкова, колкото си мислите и, за съжаление, повечето специалисти не знаят това. Уви, това не е голословно твърдение. В следващите редове ще го докажа и ще демонстрирам как това пречи на работата на всеки, занимаващ се с онлайн маркетинг .

В маркетинга не се ли използват солидни данни?

Накратко – не. И това не е само моят опит през всичките тези години. Изследване на „CEB“ цитирано от Harvard Business Review, базирано на анкета сред около 800 специалисти по интернет маркетинг, работещи в компании от Fortune 1000, установява, че огромен брой маркетолози все още разчитат основно на интуицията си. И, за да станат нещата още по зле – малкото, които активно използват данни, в по-голямата си част го правят неправилно.

 

Кристална топка

Ето две от основните заключения на изследването:

Повечето маркетолози разчитат твърде много на интуицията си – усреднено те използват данни само за 11% от всички решения, отнасящи се до клиентите. Когато биват запитани за данните, на чиято база взимат решения, свързани с работата си, се оказва, че повече от половината от информацията идва от предишен техен опит или от интуицията им за клиентите. Те поставят данните на последно място в списъка, като пред тях са: разговори с мениджъри и колеги, експертни съвети и еднократни разговори с клиенти.

Огромната част от маркетолозите имат трудности със статистиката – изследователите се опитват да измерят запознатостта на специалистите по онлайн маркетинг със статистиката с помощта на кратък тест от пет въпроса, с ниво на трудност от „начинаещ“ до „напреднал“. Почти половината (44%) се провалят, отговаряйки грешно на 4 или повече въпроса. Само 6% отговарят правилно и на петте. На този фон фактът, че едва 5% от тях притежават книга по статистика вероятно не изненадва никого.

„Маркетолозите не са по-различни от шамани“ – този извод определено трябва да привлече внимание през 21-ви век, нали? Очаквах такава новина да разтърси индустрията и мениджърските кръгове. За съжаление, сгреших – интересът към статията е незначителен. По-страшното е, че много от хората, коментиращи по подобни теми призовават за някакво „единение“ на интуицията и данните. Това може да означава само едно нещо – те нямат никакво концептуално разбиране за това какво е „факт“ и как се установява.

Наистина ли е толкова зле положението?

Да, а вероятно и по-зле, отколкото си мислите.

Опитайте се да си спомните кога за последно сте срещнали съвсем елементарното понятие „статистическа значимост“ (ниво на значимост) споменато в проучвание, изследване, публикация в блог или форум на тема интернет маркетинг (SEO, реклама в търсачки, оптимизация на конверсии и т.н.)? Колко инструменти за уеб анализи, табла за управление или спомагателни инструменти ви дават такава информация? А какво ще кажете за не по-малко важното понятие „статистическа мощ“ (мощност на критерия)? А за „Проблема на любопитния маркетолог“? „Проблем на множеството тестове“ извиква ли нещо в съзнанието ви?

Ако никога не сте чували тези термини, е добра идея преди да продължите да се хванете здраво за стола, тъй като тези концепции влияят на всички ваши процеси на взимане на решения, без значение дали се занимавате с SEO, платена реклама в търсачки, оптимизация на конверсиите или уеб анализи с някаква друга цел.

Преди да се гмурнем в дълбокото обаче, да си припомним някои по-елементарни и фундаментални неща.

Как придобиваме знания за света?

Научен метод

Методът, на който се базира всяко знание се нарича индукция. Наблюдаваме извадка от дадено явление чрез сетивата и ума си, и на база на тези наблюдения установяваме факти за цялата концепция, част от която е явлението. Елементарен пример: наблюдаваме множество обекти, които, след като се пуснат от определена височина над земята, падат по дадена траектория с дадена скорост и установяваме гравитацията.

От друга страна можем да наблюдаваме няколко пияни, високи, червенокоси мъже да грабят и убиват и погрешно да заключим, че всички червенокоси мъже грабят и убиват.

Как да се предпазим от подобни погрешни заключения?

Отговорът е: правилен дизайн на експериментите за проверка на хипотеза и правилна употреба на статистиката. Пример за правилен дизайн на експеримент би било да имаме произволност в извадката и да се опитаме да я направим представителна за цялото население. В горния пример това би означавало да включим произволно избрани червенокоси мъже. Това ще повиши вероятността да включим трезвени и ниски червенокоси мъже, правейки нашите заключения много по-реалистични. Ако сме по-напреднали, ще искаме да запазим пропорциите на важни характеристики на наблюдаваната извадка възможно най-близки до пропорциите им в цялото население.

Пример за добра употреба на статистика e да изчислим статистическата значимост на наблюдаваните данни спрямо това, което очакваме да видим.Нивото на значимост не премахва несигурността в нашите индукции, а ѝ дава количествена измеримост. Това ни позволява да имаме различни степени на сигурност, че наблюдаваните резултати не се дължат на случайност (като например наблюдението ни над червенокосите мъже). Имайки такава измеримост, можем да сравним ситуацията с игра на покер: колкото по-сигурни сме, че имаме по-добрата ръка, толкова по-склонни сме да заложим на нея.

Защо онлайн маркетинга трябва да бъде наука

Трябва да се разбере, че в маркетинга се опитваме да достигнем определени истини (обикновено за миналото, но и предсказващи бъдещето) и на тяхна база да направим препоръки или да извършим определени действия за подобряване на бизнес резултатите. Нещото, което повечето хора без научно или философско образование не разбират е, че в момента, в който се заговори за „истина“, веднага се навлиза в полето на науката, на рационалния емпиризъм, където научният метод е задължителният инструмент.

Речниковото определение за научният метод е „сбор от техники за изследване на различни обекти, придобиване на ново знание или коригиране и интегриране на предишно знание“. По-просто казано това към момента е единствения доказан подход, който ни позволява да различим реалните факти от игрите на нашите сетива и ум. Съществена част от този подход към обективната реалност са: добрата статистика – за установяване на емпирични факти и здравата логика – за да правим изводи и да свързваме тези факти. Примера с индукцията по-горе е научният метод в действие.

Ако не използваме научния метод, реално извършваме магически ритуали. Дори и да имаме най-добри намерения и да сме абсолютно непредубедени, ако ни липсва добро разбиране за статистиката често ще се окажем в ситуация да преследваме статистически „призраци“ и да вървим с километри към статистически „миражи“. Казано иначе, има съвсем реална възможност да похарчим много пари и да вложим много усилия, мислейки си, че постигаме резултати, а в действителност да стоим на едно място.

В следващите абзаци ще разгледам  3 основни концепции от статистиката, които всеки специалист по интернет маркетинг трябва да познава отлично за да може да избягва горната ситуация. Това са: Статистическа значимост, Статистическа мощ и Проблемът на множеството сравнения.

Статистическа Значимост

Статистическата значимост (срещана още като „ниво на значимост“) е важна концепция в тестването на нулева хипотеза – инструментът с главно „И“ за анализ на данни и извличането на информация от тях. Най-често в онлайн маркетинга искаме да тестваме дали един или повече варианти се представят по-добре от досегашния (напр. рекламни текстове, ключови думи, целеви страници и т.н.). Хипотезата по подразбиране е, че това, което наблюдаваме няма да предизвика подобрение. Ето защо при всеки един тест или наблюдение ние търсим доказателства, че можем да отхвърлим хипотезата по подразбиране.

Когато видим подобрение в даден параметър, който измерваме (CTR, CPC, ниво на конверсия, степен на отпадане и др.) не можем просто да заявим, че вариантът е по-добър. Това се дължи на факта, че наблюденията ни винаги са върху малка част от хората, които ни интересуват. Правенето на извод за всички хора на базата на само част от тях неизбежно води до грешки. Ето защо трябва да имаме идея за възможността данните, които виждаме, да са грешни.

Having a certain level of statistical significance expresses the likelihood that the difference we observe (or a bigger difference) would not be observed if there was no actual difference. To take a textbook example – having a statistical significant result at the 95% level means that there is only a 1 in 20 chance that improvement as big, or bigger than the observed, could have been encountered by chance alone.

Тук се намесва статистическата значимост. Достигането на дадено ниво на статистическа значимост изразява вероятността разлика, равна или по-голяма на тази, която наблюдаваме, да не бъде наблюдавана ако няма разлика. Елементарен пример: ако имаме статистически значим резултат с ниво 95% означава, че има само 1 към 19 шанс разлика равна или по-голяма от наблюдаваната да бъде регистрирана по чиста случайност.

Колкото по-голяма е наблюдаваната разлика, толкова по-малко данни ни трябват, за да потвърдим по статистически значим начин, че има подобрение. Колкото повече данни имаме, толкова по-лесно е да засечем по статистически значим начин дори малки разлики в представянето.

Ето и по-конкретна демонстрация на концепцията:

Статистическа значимост за онлайн маркетолози

 

Дискутиране на „статистическа значимост“ в индустрията

Исках да разбера колко внимание се обръща в индустрията на тази важна концепция, затова се поразрових.

Avinash Kaushik е един от първите, който е писал за важността на статистическата значимост в уеб анализите през 2006-та година. LunaMetrics, наложен източник за ноу-хау в уеб анализите, споменава нивото на значимост едва няколко пъти и има една кратка статия, посветена на темата. Дори в блога на Google Analytics има само три споменавания на термина през всичките години, откакто съществува. Техния водещ евангелист Justin Cutroni споменава термина само веднъж в своя блог. KISSMetrics, иноватори в уеб анализите, обявиха скоро, че вграждат нива на значимост в своите отчети.

В SEO сферата SearchEngineWatch, сериозен източник за SEO и PPC публикации за повече от 7 години има само 20 статии, в които се споменава статистическата значимост. В SearchEngineLand пък терминът се среща в едва няколко статии, най-добрата от които е от 2010-та.

Най-добро покритие на темата има при фирмите за оптимизация на конверсиите: VisualWebsiteOptimizer, Optimizely, а също и Google Website Optimizer винаги са имали изчисляване на нива на значимост в софтуера си и са публикували и статии за това.

Това в общи линии е всичко, което може да се намери по темата сред публикациите на лидерите в индустрията – спорадични споменавания, без особено задълбочаване, с малки изключения. Защо това да е лошо и до какво води пренебрегването на статистическата значимост? Да видим най-често допусканите грешки по отношение на нивата на значимост.

Често срещани грешки относно статистическата значимост

Първата и най-банална грешка е въобще да не се провери статистическата значимост на данните. Повечето хора се провалят още на тази стъпка. Според източници от индустрията специалистите масово не изчакват достигането на добри нива на значимост дори при контролирани A/B тестове. Други ситуации, в които се пропуска да се провери статистическата значимост са при анализ на: представянето на рекламни криейтиви, CTR и нива на конверсия на ключови думи, конверсии при CPC кампании, SEO и други. Това ни оставя без какъвто и да е обективен измерител за данните, с които работим.

За съжаление такива случаи се срещат и в литературата, а и в сериозни блогове за онлайн маркетинг. Този пример е от скорошна публикация в блога на VisualWebsiteOptimizer. Примерът е взаимстван от бестселър по въпросите за тестването:

 

2014-04-26 VWO-Fail

 

Виждате ли проблемите?

За начало, числата в таблицата не кореспондират на процентните стойности. Но дори и да оставим това настрана, разликите в степените на конверсия между сценариите и базата са далеч от каквито и да е приемливи нива на значимост! Между 2% и 2.2% не може да бъде направена никаква разлика от статистическа гледна точка. Това не е малка грешка, а огромен провал в опит да се ползват най-елементарни данни.

Да не се измерват нивата на значимост означава, че има голяма вероятност да инвестирате ресурси в сриването на собствения си бизнес, без дори да разберете това! От бизнес перспектива на нивото на значимост може да се гледа като на измерител на риска, който съпътства взимането на дадено решение. Колкото по-високо е нивото на значимост, толкова по-малък е рискът. Съответно колкото е по-голям е очакваният ефект от решението, толкова повече трябва да разчитате на статистиката (и към толкова по-голямо ниво на значимост ще трябва да се стремите).

Втората често срещана грешка е да се бърка статистическата значимост с практическата значимост на резултатите (големината на ефекта). Тя се допуска от хората, които правят изчисления за нивата на значимост на резултатите си и приемат статистическата значимост за практическа такава. Статистическата значимост ни казва колко сигурни можем да сме, че има разлика между два параметъра, но не ни казва нищо за това колко голяма е разликата! Статистически значим резултат може да има реално подобрение от 0.01%, дори ако нашия експеримент показва 50% подобрение.

Ето един бърз пример:

Интервали на сигурност

Нивото на постигната значимост е много високо, но забележете сините числа в колонката „% Change“. Те ни казват, че въпреки, че отчетеното от теста подобрение е 60%, реалното подобрение, което можем да предскажем с 95% увереност, с тези данни, е между 15% и 105%, като всички стойности са еднакво вероятни!

Много известен случай за такава грешка е изключително популярното и цитирано проучване на SEOMoz за факторите за класиране в търсачките. Изследването твърди, че са достигнати значими резултати, които показват как различните SEO фактори корелират с класирането в резултатите на търсачките. Те обаче пропускат да ни информират, че техните статистически значими резултати всъщност имат нищожна практическа значимост и съответно не подкрепят твърденията им за сериозна корелация на различните сигнали. В това изследване няма откритие, тъй като нивото на корелация е нищожно! Подробна дискусия по темата може да бъде намерена на блога на Dr. Garcia тук и тук, а също и на блога на Sean Golliher за компютърни науки и изкуствен интелект тук.

Този тип грешни заключения водят до преувеличени очаквания към резултатите и съответно – за потенциалните печалби. Анализ на приходите и разходите, който почива на такава фундаментална грешка може да има ужасни последици.

Третия тип грешка е да се интерпретират резултатите с ниски нива на значимост като подкрепящи тезата за липса на разлика/ефект. В този момент е редно да поговорим за

Мощ на Статистически Тест

Статистическата мощ зависи от размер на извадката (броя посещения, импресии и т.н.), от която си вадим заключенията и от минималното подобрение, което има смисъл за нас. От една страна мощта на теста определя вероятността да отчетем коректно ефект с практическа значимост. Колкото е по-голяма тя, толкова по-голям е шансът за това. От друга страна, мощта има и огромен ефект върху изчисленията на статистическата значимост, като може да се стигне дотам, че да ги направи абсолютно безполезни.

Има два начина да се сгреши по отношение на статистическата мощ: да се проведе експеримент с твърде малка или твърде голяма мощ. Един тест има твърде малка мощ, ако броя наблюдения е твърде малък, за да засечем наблюдаваното подобрение с желаното от нас ниво на значимост. Тест с твърде голяма мощ пък има излишно голям брой наблюдения спрямо търсените резултати.

Грешка със статистическата мощ #1

Първото, което може да се случи, ако мощта на теста е недостатъчна, е възможността да не успеем да отчетем реално съществуваща, практически значима разлика. Използвайки такъв тест ще заключим, че промените ни не са довели до ефект, когато в действителност такъв има. Тази често срещана грешка води до пропиляване на бюджети за тестове, които така и не получават достатъчно трафик, за да се види ефекта от различните варианти. Какъв е смисълът да правим тест след тест, ако боравим с недостатъчно данни, за да засечем желаното подобрение?

Печален е резултатът от неправилната употреба на статистическата мощ  през 70-те години в САЩ, когато на шофьорите е позволено да правят десен завой на червен светофар. Това се е случило след серия от пилотни тестове, при които не са забелязани увеличения в броя произшествията. Проблемът е, че тези тестове са били с твърде малки извадки, за да се засече какъвто и да е значим ефект. По-късно изследвания с достатъчно големи извадки демонстрират, че това решение е коствало много животи, да не говорим за травмите и имуществените щети.

Грешка със статистическата мощ #2

Другият проблем, свързан с недостатъчната мощ, се появява когато проверяваме междинни резултати от теста, преди неговото планирано приключване. Тогава е възможно видим статистически значими резултати (и често практически значими), когато в действителност такива няма. Проверката на нивото на значимост само след като теста е събрал необходимите данни ви предпазва напълно от тази грешка.

Ако не го направите и спрете даден тест предварително (преди достигане на определения брой импресии/посещения и т.н.), това увеличава многократно вероятността за фалшиви нива на значимост. Това най-често се случва при непрекъснато следене данните и спиране при достигане на желаното ниво на значимост. Правейки това, можем да достигнем и до 100% вероятност да регистрираме статистически значим резултат, правейки всякакви изчисления на значимост безполезни. Ето защо избързването и вземането на решение да се спре теста веднага, щом се регистрира статистически значим резултат е непродуктивно.

Ето реален пример от първите опити на CrazyEgg с А/Б тестовете:

„Когато започнах да правя А/Б тестове върху сайта на Crazy Egg преди три години, направихме седем теста за пет месеца. Софтуера за А/Б тестове показваше, че сме подобрили конверсиите си с 41%. Не виждахме, обаче, никакво повишаване в приходите си. Защо? Защото не пускахме тестовете да вървят достатъчно дълго…“

Четейки по-нататък в блог поста на Neil Patel става пределно ясно, че проблема, който е изпитвал се е дължал именно на стратегията „спиране, базирано на значимост“, описана по-горе  (неговите обяснения за избягването на проблема не е коректно). Ако допуснем горната грешка, можем да правим тест след тест и да си мислим, че имаме голям успех, а в същото време да не постигаме нищо, или да вредим. Вероятно много от нас са били в подобна ситуация – действаме според успешен, статистически значим тест, а след няколко седмици или месеци откриваме, че ефектът върху бизнес резултатите далеч не е този, който сме очаквали.

Както Проф. Allen Downey казва в тази отлична публикация: „Повтарянето на един тест много пъти е добра практика, ако дългосрочните ви амбиции са да грешите 100% от времето.“

Ето илюстрация на втората грешка при употребата на статистическа мощ:

Статистическа мощност

Ако имаме данни за конверсиите от първите 16 дни като посочените по-горе и имаме 95.9% статистическа значимост за разликата между базата и вариант Б в края на 16-тия ден, следва ли да се обяви вариант Б за успешен и да се спре теста?

Ето пълните данни от експеримента – 61 дни. Оранжевата линия е нивото на значимост (дясна скала) за вариант Б спрямо базата. Двете сиви хоризонтални линии представляват нива на значимост – 90% и 95%.

Статистическа мощност

Търсейки значимост от 95% и действайки щом я достигнем, без да изчакаме да имате съответната мощ за засичане на наблюдаваната разлика, то погрешно ще изберем вариант Б, ако вземем решение между 16-тия и 22-рия ден. Ако целта ни е ниво на значимост 90%, ще имаме фалшиви положителни резултати още на 3-тия и 4-тия ден, а също и между 11-тия и 23-тия ден.

Ето как в този случай нашия експеримент не успява да посочи по-добър вариант, тъй като всички те се връщат към нормата (получавате бонус точки, ако сте забелязали, че първите две графики не започват от нулево ниво). Ранното определяне на „победител“ базирано само на статистическа значимост щеше да бъде още по-голяма грешка, ако резултатите на вариант Б след 16-тия ден бяха по-лоши от показаните.

Този пример демонстрира защо е важно да изчакваме докато тестът получи достатъчно сила. Тъй като проблемът тук е „надничането“ в данните и реално е извършване на тест за значимост всеки един ден, това е и частен случай на „Проблемът с многото сравнения“ , който ще дискутирам в детайл по-долу.

За съжаление такива грешки бяха и продължават да се окуражават от някои инструменти за A/Б тестове, така че ще завърша частта за избирателното спиране този цитат от Evan Miller:

Ако пишете софтуер за A/B експерименти: Не показвайте нива на значимост преди да приключи експеримента и престанете да ги използвате, за да решавате дали даден експеримент трябва да спре или да продължи. Вместо да показвате нива на значимост за текущи експерименти, показвайте колко голям ефект може да бъде засечен с текущия размер на извадката. Колкото и болезнено да звучи, може дори да се наложи да не показвате “текущо изчисление” за големината на наблюдавания ефект, докато експеримента не приключи. Ако тази информация се използва за спиране на експерименти, тогава показваните от вас нива на значимост не стават за нищо.

Грешка със статистическата мощ #3

Последната грешка по отношение на мощта е да се направи изследване с твърде голяма мощ. В този случай най-вероятно ще бъдат пропилени пари и други ресурси, тъй като тестването ще продължи след като вече имаме резултати със сигурността, която ни удовлетворява. Повече по въпроса вероятно ще пиша в последваща публикация.

Имайки всичко това предвид, очаквах статистическата мощ да бъде дискутирана поне колкото статистическата значимост. Реално, обаче, броят споменавания на статистическата мощ клонят към нула в повечето известни блогове и сайтове за интернет маркетинг. Evan Miller е от първите, които предизвикват някакво внимание към проблема в рамките на оптимизацията за конверсии със своята публикация от 2010-та година How Not to run an A/B test.

VisualWebsiteOptimizer са другите, които пишат по въпроса. Имат немалко споменавания в рамките на техния сайт и блог, като тази публикация заслужава специално внимание. От друга страна обаче, на сайта си имат огромен брой „case studies“, само половината от които споменават статистическата значимост на резултатите, а в нито едно не се споменава статистическата мощ.

Тази публикация на Noah от 7signals – determining sample size for A/B tests е друг пример за добра информация, който успях да намеря. От Optimizely споменават статистическата мощ на забутано място в рамките на дълга страница за „chance to beat original“, част от тяхната помощна информация.

KISSMetrics, както споменах по-горе, скоро започнаха да предоставят изчисления на нивото на значимост в своя инструмент, което само по себе си е сериозна стъпка напред за уеб анализите. Те обаче не споменават „статистическа мощ“ при пускането на тази функционалност. И това се случва само дни след като публикуваха тази статия на същата тема (за момента не съм съгласен с някои от заключенията в нея). KISSMetrics подхващат темата, вдъхновени от една добра публикация на Qubit – Most winning A/B test are illusory (pdf) , която се появи  по-рано тази година.

Забележка относно използването на безплатни калкулатори за размер на извадката. Внимавайте за следните особености, когато ги използвате:

На първо място, повечето от тях изчисляват размер на извадката за двустранна хипотеза. По този начин те препоръчват по-голям от необходимото размер на извадката по отношение на масовия случай в онлайн маркетинга. Обикновено ни интересува само дали и колко голямо е подобрението, но не и точността на резултатите, които се представят по-зле от контролната група. Ако се ръководите от техните изчисления, ще харчите излишно бюджети за генериране на трафик или импресии.

Второ, някои от тях калкулират само за базов процент на конверсия 50% , което е безполезно в онлайн маркетинга, където се работи с най-различни базови проценти. Трето, други (например безплатния калкулатор на CardinalPath) изчисляват при фиксирана статистическа мощ от 50%. Това означава, че шанса да се пропусне статистически значим резултат с желаната степен на подобрение е 1 към 2.

С калкулатора в Analytics-Toolkit.com сме се постарали да отговорим на тези проблеми.

Продължаваме с най-трудния за разбиране проблем…

Проблемът с многото сравнения

Проблемът с многото сравнения се появява всеки път, когато имаме резултати от експеримент с повече от един вариант, сравнен спрямо базата. Просто казано: колкото повече тестваме за дадено нещо, толкова по-вероятно е да регистрираме положителен резултат, без да имаме такъв. Колкото повече вариации създаваме, толкова по-вероятно е някои от тях да покажат статистически значими резултати при положение, че реално такива няма. Това е една от причините маркетолозите, които тестват с повече варианти, погрешно да докладват много по-добри резултати от нормалните.

Например, имаме базова степен на конверсия за ключови думи в AdWords и се опитваме да идентифицираме една или повече ключови думи, които се представят по-добре от базата по статистически значим начин (и с достатъчно мощ). За да направим това, решаваме, че искаме ниво на значимост от 95% и започваме да сравняваме степените на конверсия за всяка от 13-те ни ключови думи с базата, търсейки такива, които ще покажат подобрение при това ниво на значимост.

Ако има само една ключова дума и искаме да проверим само нея спрямо базата, няма да има проблем. Ако има 13 ключови думи и сравним всяка от тях с базата, нещата се променят. Ако открием един значим резултат при ниво 95% и решим да насочим по-голяма част от бюджета към тази ключова дума, това ще бъде грешка.

Да видим защо. Изборът на ниво на значимост от 95% означава, че сме склонни да приемем шанс 1 към 20, че наблюдаваното подобрение в степента на конверсия се дължи на случайност, а не на реален ефект. Сравнението на всяка една от тези 13 ключови думи с базата ще доведе до това, че ще има около 50% шанс едно от тези сравнения да бъде статистически значимо при положение, че не е. Това означава, че ще има грешен положителен резултат при сравнение на 13-те ключови думи всеки втори път, когато го правим.

В крайна сметка нивото на значимост от 95%, което ще отчетем за тази ключова дума, всъщност няма да е 95%, а много по-ниско. Желанието да се избегнат фалшивите положителни резултати е нещо, което предполага корекция на нивата на значимост при множество сравнения. Можем да направим това на база броя експерименти или варианти, и на значимостта на резултатите им.

Има един  чудесен комикс в xckd по тази тема.

Според мен за практически приложения в сферата на интернет маркетинга методът за корекция False Discovery Rate е най-подходящият. С него се коригират нивата на значимост  на всеки вариант/група с цел да се изчисли реалната значимост, когато имаме сценарий с множество сравнения.

Ето един елементарен пример със с 3 варианта (увеличаването на броя варианти увеличава проблема):

2014-05-05 MultipleComparisonsCorrection

 

Разликите в нивата на значимост с и без корекция са очевидни. Получавате бонус, ако сте забелязали, че горните изчисления за значимост са с недостатъчна мощ на теста 😉

Реално всички инструменти, показващи статистическа значимост, които съм разгледал, НЕ коригират нивата на значимост, когато имаме ситуация с множество сравнения

Дори в иначе добрата публикация на Qubit, която споменах по-горе, авторите не успяват да обяснят проблема с множеството тестове коректно. В нея се споменава, че донякъде е проблем, но не се споменават методи за корекция на нивата на значимост. Вместо това се препоръчва да се експериментира с минимален брой варианти и да се придържаме към онези, от които се очаква значителен ефект.

Тестването на много варианти е напълно защитим подход, когато се прави както трябва (със сигурност не препоръчвам произволното правене на експерименти). Също така, ако при оптимизация на конверсиите обикновено можете да ограничите броя варианти, когато се правят изследвания на различни източници на трафик и тяхното представяне, често е невъзможно да се ограничи броя варианти или групи, които се анализират. Фундаментална грешка е работата само с част от наличните данни по даден въпрос, избрана по непроизволен начин.

Повечето калкулатори за статистическа значимост са безполезни или грешат

Имайки предвид горния проблем смятам, че всички безплатни онлайн калкулатори на нива на значимост, които са ми известни, са или практически безполезни, или с фундаментални проблеми. Повечето от тях изчисляват статистическа значимост само за един вариант спрямо базата. Това ги прави неподходящи за реална употреба, тъй като най-често ни се налага да сравняваме няколко рекламни текста, целеви страници, източници на трафик, ключови думи и др., когато търсим начини да подобрим тяхното представяне. Както обясних по-горе, използването на такъв калкулатор и правенето на множество сравнения по двойки, означава допускането на много по-голяма несигурност от тази, която той ни показва.

Други калкулатори позволяват сравнението на база с няколко варианта. Това е по-добре, но повечето дори не се опитват да коригират резултатите, отчитайки проблема на многото сравнения. Това може да има видими ефекти дори само при три варианта, както демонстрирам по-горе. Известен ми е един опит да се направи добър калкулатор за статистическа значимост, който работи с множество варианти и коригира за грешките, причинени от многото сравнения. Той обаче използва метода за корекция на Dunnett, който е излишно стриктен, когато се отнася за практически приложения.

Към момента единственият известен ми калкулатор, поддържащ множество сравнения и коригиращ за грешки по практичен начин, е изработеният от мен statistical significance calculator. Него използвам и за примера по-горе.

OK! Но какво да ПРАВЯ с всичко това?

Разбирам, че вероятно е било трудно на повечето от вас да стигнат до тази част от публикацията, но ако сте успели – поздравления, вие сте един корав специалист по маркетинг!

Ето и какво мисля, че можете да направите, ако искате да подобрите качеството на работата си чрез истински подход, базиран на данни:

#1 Научете се как се прави експеримент и как се тества хипотеза. Приложете наученото в ежедневните си задачи.

#2 Учете статистика и прилагайте знанието в ежедневните си задачи. Неща за избягване: Баезианския подход към статистиката (нищо против правилото на Баез).

#3 Настоявайте за по-добри статистики от компаниите, правещи инструменти за онлайн маркетинг. Свържете се с тях и им кажете, че ви е грижа за добрите данни и за добрите решения. Те ще ви чуят.

#4 Образовайте своя ръководител, клиентите си и всички останали, които имат полза от работата ви за вашата новооткрита суперсила и за това как тя може да работи за тях.

За случая е подходящ този страхотен цитат на Evan Miller: „Да можеш да работиш със статистика е като да имаш тайна суперсила. Там, където повечето хора виждат средни стойности, ти виждаш интервали на сигурност. Когато някой ти каже “7 е по-голямо от 5,” ти заявяваш, че всъщност са едно и също. В какафония от звуци чуваш вик за помощ.“

В блога на Analytics-Toolkit.com ще се опитаме да помогнем по отношение на точки #1, #2 и най-вероятно индиректно за точка #4, като публикуваме още статии като тази за парадокса на Симпсън в онлайн маркетинга. Те ще покрият някои от концепциите в настоящата статия по-пълно, а ще има и практични съвети за това как правилно да проведем даден тест, как да анализираме данни от Google Analytics или Google Adwords и изобщо всичко, което има връзка със статистиката в онлайн маркетинга. Първите ми публикации ще разглеждат въпроса как да изберем подходящо ниво на значимост и мощ на теста, така че е добра идея да ни следите.

Послеслов

Започнах да пиша тази статия с голямо вълнение, защото имам истинска страст към добрия маркетинг за добри продукти и услуги и искам да постигам реални резултати в това, което правя.

Целта на тази публикация е да предизвика внимание към проблеми, които считам за критично важни за цялата онлайн маркетинг индустрия и за всеки, разчитащ на нашата експертиза. Смятам, че успешно доказах съществуването на тези проблеми, колко широко разпространени и дълбоко проникващи са и колко опасен е ефектът от тяхното пренебрегване. Надявам се  вече е ясно защо считам, че всеки специалист по онлайн маркетинг трябва да започне да прилага по-научен подход в работата си.

Бих искал да завърша с една мисъл на Evan Miller:

Една гледна точка към историята на бизнеса през 20-ти век е като към серия от трансформации, при които индустриите, на които „математиката не им трябва“ изведнъж се оказват в критична зависимост от нея. Статистическия контрол на качеството преоткрива фабричното производство; икономиката на земеделието преобразява земеделското производство; дисперсионния анализ революционира химическата и фармацевтичната индустрии; линейното програмиране променя лицето на управлението на доставките и логистиката; уравнението на Black-Scholes създава индустрия от нищото. Още по-скорошно “Moneyball” техниките превзеха спортния мениджмънт…

Ако искате да помогнете да повишим вниманието към тези проблеми и така превърнем интернет маркетинга в по-добра и базирана на факти дисциплина, популяризирайте идеите в тази статия по какъвто начин и в каквато форма смятате за удобни. Приключвам с кратък апел към всички, правещи инструменти за онлайн маркетинг – моля, опитайте се да улесните вашите потребители във взимането на решения, базирани на факти. Те без съмнение ще са ви благодарни, тъй като който има по-точните факти има по-голям шанс да успее.

 

Георги Георгиев

Основател на Analytics-Toolkit.com

Full disclosure: Не съм дипломиран/сертифициран статистик. Статията съдържа сравнително свободна употреба на статистически термини, особено що се отнася до „вероятност“, с цел да направи материала по-достъпен за масовата аудитория.

Сегментиране в Уеб Анализите – Парадоксът на Симпсън

19.05.2014

Парадоксът на Симпсън е интересен за всеки, който се занимава с анализ на данни, включително специалисти по уеб анализи в интернет маркетинга. Независимо в каква сфера работите – оптимизация на конверсиите, оптимизация за търсачки, управление на AdWords кампании и др., парадоксът на Сипмсън може да ви даде храна за размисъл.

Той има връзка с правилния дизайн на експеримента, когато става дума за контролиран тест, и е изключително важен, когато изследваме вече събрани данни (в Google AdWords, Google Analytics и т.н.). Той е екстремен пример за това до какво може да доведе липсата на смислена сегментация. „Сегментирайте, сегментирайте, сегментирайте!“ е това, на което ни учи този парадокс.

Парадоксът на Симпсън – Пример

Нека видим практически пример: сравняваме степените на конверсия за Целева страница А и Целева Страница Б в рамките на няколко седмици. Ето данните:

 

Парадокс на Симпсън - 1

 

Гледайки средните стойности изглежда, че Б побеждава А с добро ниво на значимост и в тест с достатъчно мощ. Изглежда сигурно, че имаме победител, нали? Само че, ако сегментираме данните по източник на трафик виждаме, че страница А се представя по-добре от страница Б са всеки отделен източник на трафик!

 

Парадокс на Симпсън - 2

 

Как е възможно това?

Този странен ефект е причинен от претеглените средни стойности. В случая обема на трафик от всеки източник се явява „confounding variable“ (ако някой статистик знае термина на български, ще го напиша) или на жаргон „скрита лимонка“. Трафикът е разпределен неравно по двойките „източник на трафик/целева страница“ и в действителност заради това наблюдаваме тези резултати. Подобен пропуск може да доведе до това да сравняваме несравними неща.

Какво да правим в такъв случай, кой вариант на целева страница да изберем?

За начало трябва да се опитаме изобщо да не попадаме в подобна ситуация чрез използването на силно произволен тест (properly randomized). Друга, по-добра опция е да ползваме stratified sampling, но доколкото ми е известно повечето инструменти не поддържат такива опции, така че това може да не е осъществимо. Невъзможно ще бъде да коригираме това и при наблюдение на вече събрани данни, върху които нямаме контрол, например органичен трафик от търсачки.

Ако така или иначе вече сме в подобна ситуация, решението дали да действаме според средните данни или според данните по сегменти следва да се базира не толкова на числата, колкото на смисъла зад тях.

Моето разбиране за конкретния пример е, че трябва да се въздържим от вземане на решение с данните в таблицата. Бих препоръчал да разглеждане на всяка двойка „източник на трафик/целева страница“ от качествена гледна точка. Според това какъв е характерът на всеки източник на трафик (еднократен, сезонен, постоянен) може да се достигне до различно решение. Например можем да решим да запазим и двете целеви страници, но за различни източници на трафик.

За да направим това на база факти, трябва да се третира всяка двойка „източник на трафик/целева страница“  като отделен вариант и да се извършат допълнителни тестове докато получим добри нива на значимост при добра статистическа мощ (в текущите данни те не са налични).

Заключение

Задължително сегментирайте данните си по различни величини. В случай, че имате контрол върху сегментирането – например в контролиран тест за оптимизация на конверсиите, се опитайте да разпределите трафика произволно или ползвайте стратифицирано сегментиране. В случай, че просто анализирате данни в AdWords или Analytics, сегментирайте задълбочено, преди да достигнете до решение за действие.

България на 6 място в света по качество на интернет

19.04.2012

България и преди е цитирана от различни източници като една от страните с най-добра интернет свързаност. Повечето проучвания обаче бяха само за някои показатели на връзката (например скорост на сваляне и (bandwidth), но не и latency). Сега Google Analytics екипа публикува уникално проучване на данни за скоростта на отваряне на сайтове по целия свят. Измерванията са на база милионите сайтове, ползващи софтуера Google Analytics, който от няколко месеца насам по подразбиране засича и скоростта на зареждане на страницата при крайния потребител.

Карта на скоростта на интернет по света

Това означава, че се измерва не един изолиран показател, а цялостното зареждане на най-различни по тип интернет страници – от първия рикуест към сървъра, до зареждането на последния елемент от страницата на машината на потребителя. Това реално измерва сборно и по най-добър начин качеството както на интернет връзката, така и на машините, с които се ползва.

В тази толкова яка класация заемаме престижното 6 място! Ето и кои са пред нас:

#1 Южна Кореа – Медиана 1.5 сек., ср. – 3.4 сек. & Словакия – Медиана 1.5 сек., ср. – 3.4 сек.

#2 Чехия – Медиана 1.8 сек., ср. 3.7 сек.

#3 Япония – Медиана 1.9 сек., ср. – 4 сек.

#4 Швеция – Медиана 2.1 сек, ср. – 4.3 сек.

#5 Холандия – Медиана 2.0 сек, ср. – 3.8 сек.

#6 България – Медиана 2.2 сек, ср. – 4.4 сек.

Нарочно разглеждам медианата, тъй като средната стойност не е представителна за средностатистическия потребител (няколко процента много лоши връзки могат да накарат средната стойност да се отклони с 30-40%, а медианата ще се отклони само с 2-3%)

След нас съответно са страни, които са много по-близо до основните интернет трасета и колокейшън центрове – Германия, Великобритания, САЩ и т.н. Разбира се, трябва да отчетем, че българския потребител прекарва грубо 50-60% от онлайн времето си в български сайтове (Alexa Top), но реално това не е толкова сериозен фактор, тъй като много от българските сайтове зареждат реклами и други елементи (widget-и, шрифтове и пр.) от сървъри на другия край на света, които влизат в това изчисление.

Мисля, че всички дължим известна благодарност на всички български компании, осигуряващи интернет достъп в страната и на стотиците мрежови специалисти, работещи в тях, за интернета, който ползваме.

EDIT (11.2013) – България на първо място по качество и цена на интернет в света, според ново проучване – статия в Дневник.

Семинар „Ефективната реклама в Google AdWords“

06.03.2012

Дигитална агенция Interactive Share, в партньорство с Web Focus и две други агенции за интернет маркетинг и реклама, организираме семинар за ефективна реклама в платформата Google AdWords. Много бизнеси в България вече използват платформата, но много често – по неефективен начин и в следствие губят много пари, било като излишно високи цени на клик, било като пропуснати ползи. Други пък тепърва им предстои да открият какво AdWords може да направи за тях.

Семинарът е организиран с цел да запознаем всички тези бизнеси с най-ефективните начини да присъстват в Google AdWords. Ще се проведе на 3 Април 2012 година в Интерпред. Специално за семинара от страна на Google ще изнесе лекция Норберт Симионеску. Ако желаете да научите повече за семинара, за програмата и лекторите, кликнете тук.

Онлайн търговията в България

14.01.2012

В блога на търсачката за цени Izgodnobg.com публикувахме серия публикации за електронната търговия в България. Те са базирани на току-що излязло проучване на Civic Consulting по поръчка на ЕС. Ако ви интересува:

Каква е общата на картина на е-търговията у нас?

Какво кара хората да паразуват онлайн?

Какво спира хората да пазаруват онлайн?

Какви действия предприемат купувачите, преди да направят покупка?

Как купувачите избират магазина, от който да пазаруват?

Как и защо се ползват търсачките за цени и каква е ползата от тях?

Четете тук:

Е-Търговия в България – обзор

Как пазаруват българите онлайн? Мотивация и проблеми.

Как пазаруват българите онлайн? Как избират продукт и онлайн търговец (онлайн магазин).

Използване и полза от търсачките за сравнение на цени в България и в ЕС.

 

Google AdWords или SEO оптимизация?

23.11.2011

За много незапознати, а и за част от по-запознатите с рекламата в интернет все още не са ясни основните разлики между рекламата в Google AdWords и SEO оптимизацията. Не са ясни предимствата и недостатъците на двата метода и това кой метод за кои ситуации е подходящ. Кратък преглед на българските сайтове не откри нищо смислено по темата, а прегледа на „чуждата преса“ даде доста резултати, но с ниско качество на информацията.

Съставихме таблица, която позволява с един поглед да се видят разликите между двата подхода за реклама в търсещи машини и да се прецени кой подход за коя ситуация (клиент/проект) е подходящ.

AdWords SEO
Максимален Reach 10-20% 90-95%
Време до първи ефект 1-5 дена 15-90 дена
Достигане на “пълна” ефективност 1-3 месеца 6-12 месеца
Краткосрочно ROI (t < 2м) Добро Отрицателно
Средносрочно ROI (2м < t < 1г) Забележимо по-малко от SEO Много добро
Дългосрочно ROI (t > 1г) Слабо спрямо SEO Отлично
Предвидимост Много добра (85%)*
Добра (70%)*

* 0% – имаме нищожен контрол, резултатите са почти непредвидим, 100% – имаме пълен контрол на резултатите и 100% предвидимост

Горната таблица следва да се интерпретира с уговорката, че говорим за професионално изпълнени кампании с ясно поставени цели и достатъчен бюджет.

Накратко – когато искате бързи резултати и/или срокът на кампанията е кратък, или бюджетът е силно ограничен – заложете на AdWords.

Ако сте склонни да инвестирате малко повече, но с по-дългосрочна перспектива и да достигнете до максимално голямо количество клиенти – изберете SEO.

Ако искате да вземете най-доброто от двата подхода – започнете с AdWords и SEO и постепенно останете основно на SEO. Това е подход, който препоръчвам на много клиенти. Също така препоръчах използването на AdWords като инструмент за ROI анализ на ключови думи преди започване на сериозни SEO кампании на презентацията си на SEO конференция 2010 и продължавам да го препоръчвам в това му качество.