Druhy statistických testů

Statistické testy lze dělit podle různých kritérií, včetně typu dat, která se testují, počtu souborů dat nebo skupin, které se porovnávají, a předpokladů, které test vyžaduje.

  • Podle typu dat: existují statistické testy pro kvantitativní (numerická) data, kvalitativní (kategoriální) data nebo mix obou. Například t-test je vhodný pro porovnání průměrů dvou skupin s kvantitativními daty, zatímco chi-kvadrát test se používá pro porovnání distribucí kategoriálních dat.
  • Podle počtu skupin nebo souborů dat: některé statistické testy jsou určeny pro porovnání dvou skupin (např. t-test pro nezávislé vzorky), zatímco jiné mohou porovnávat tři nebo více skupin (např. jednosměrná analýza rozptylu, ANOVA).
  • Podle předpokladů testu: Většina statistických testů má určité předpoklady, které musí být splněny, aby byly výsledky testu platné. Například t-test předpokládá, že data jsou normálně rozdělena a mají podobnou variabilitu v různých skupinách. Pokud tyto předpoklady nejsou splněny, mohou být výsledky testu zkreslené. V takovém případě by bylo vhodnější použít některý z neparametrických testů, které tyto předpoklady nevyžadují (např. Mann-Whitneyho U test).

Rozhodování o tom, který statistický test zvolit, vyžaduje dobrou znalost vašich dat a předpokladů různých testů. To zahrnuje pochopení, jak jsou vaše data distribuována, jak jsou váš soubor dat strukturovány, a jaký je vaš cíl při testování hypotézy.

My se nyní podíváme na tradiční dělení testů na jednovýběrové, dvouvýběrové a vícevýběrové. Je to jedna zmožností, jak se na testy dívat.

1   Jednovýběrový test

Jednovýběrové testy jsou typem statistického testu, který se používá k porovnání hodnot z jednoho datového souboru s určitým očekávaným hodnotovým cílem nebo standardem. Například, můžeme chtít zjistit, zda se průměrný věk studentů na nějaké škole, kterou třeba v diplomce zkoumáme, liší od průměrného věku studentů ve všech školách v celé České republice. Ovšem, tyto testy se nemusí týkat jen střední hodnoty, mohou být použity pro porovnání proporcí, distribucí dat, mediánů a dalších statistických parametrů s nějakými předpokládanými hodnotami. Jednovýběrových testů je samozřejmě celá řada. Nejznámějším je t-test. S tím se v diplomkách setkáte nejčastěji.


1.1   T-test

Jednovýběrový t-test je statistická metoda, která se používá k zjištění, zda se střední hodnota vzorku dat statisticky významně liší od předpokládané hodnoty.

Abychom lépe pochopili, jak jednovýběrový t-test funguje, je důležité se seznámit s některými základními statistickými pojmy, které jsou součástí této metody.

  • Střední hodnota (průměr): střední hodnota je jedním ze základních pojmů statistiky. Když mluvíme o střední hodnotě, myslíme průměr datové sady. Například střední hodnota sady čísel 1, 2, 3, 4, 5 je (1+2+3+4+5)/5 = 3.
  • Hypotéza: Statistická hypotéza je nějaké tvrzení o populaci, které testujeme. Například můžeme testovat hypotézu, že střední hodnota naší vzorkové sady je rovna 3.
  • Nulová hypotéza a alternativní hypotéza: Nulová hypotéza (H0) je hypotéza, kterou chceme vyvrátit. Alternativní hypotéza (H1 nebo Ha) je hypotéza, kterou chceme prokázat, pokud nulovou hypotézu zamítneme. Pro jednovýběrový t-test by mohla nulová hypotéza tvrdit, že střední hodnota naší vzorkové sady je rovna nějaké konkrétní hodnotě, zatímco alternativní hypotéza by tvrdila, že střední hodnota je různá.
  • P-hodnota: P-hodnota je pravděpodobnost, že bychom získali naše data (nebo data ještě extrémnější) za předpokladu, že je nulová hypotéza pravdivá. Pokud je p-hodnota menší než určitá předem stanovená hladina významnosti (obvykle 0,05), pak nulovou hypotézu zamítáme.

Příklad 1: Představte si, že potřebujete v diplomce provést studii, ve které zkoumáte, zda nový lék na snížení hladiny cukru v krvi skutečně funguje. Máte skupinu 30 pacientů, kterým byl lék podán a máte naměřené hodnoty hladiny cukru po týdnu léčby. Tyto hodnoty jsou (v mmol/l):

6.1, 5.8, 5.9, 6.2, 6.0, 5.7, 5.8, 6.2, 5.9, 6.0, 6.2, 5.7, 6.1, 5.8, 6.0, 6.1, 5.8, 5.9, 6.2, 6.0, 5.7, 6.1, 5.8, 5.9, 6.2, 6.0, 5.7, 6.1, 5.8, 5.9

Předpokládáme, že normální hladina cukru v krvi by měla být 6.0 mmol/l. Chceme zjistit, zda je střední hodnota hladiny cukru v krvi u našich pacientů statisticky významně různá od normální hodnoty. Použijeme k tomu právě náš jednovýběrový t-test.

1. stanovení hypotéz

  • Nulová hypotéza (H0): Střední hodnota hladiny cukru v krvi je rovna 6.0 mmol/l.
  • Alternativní hypotéza (H1): Střední hodnota hladiny cukru v krvi je různá od 6.0 mmol/l.

2. provedení testu

Budu používat statistický software RStudio, který pracuje s jazykem R. Můžeme použít funkci t.test() v jazyce R k provedení testu:

Takto vypadá náš t-test napsaný v Rstudio. Klidně můžete použít jiný software, třeba Statisticu nebo NCSS. Tento kód dává následující výsledek

Chápejme výstup následovně:

  • t = -0.1587: toto je hodnota t statistiky. Je to hodnota, kterou porovnáváme s kritickou hodnotou t (kterou bychom našli v tabulce t distribuce), abychom viděli, zda je náš výsledek statisticky významný. Zde je t blízko nule, což naznačuje, že střední hodnota našeho vzorku je velmi blízká předpokládané hodnotě 6.0 mmol/l.

  • df = 29: jde o počet stupňů volnosti. Ve vzorkovém t-testu je to rovno počtu datových bodů minus 1.

  • p-value = 0.8751: Je to hodnota, která představuje pravděpodobnost, že bychom získali naše data (nebo data ještě extrémnější) za předpokladu, že je nulová hypotéza pravdivá. P-hodnota je větší než obvyklá hladina významnosti 0.05, což znamená, že nemáme dostatek důkazů k zamítnutí nulové hypotézy. Můžeme tedy přijmout nulovou hypotézu a říci, že střední hodnota hladiny cukru v krvi je statisticky rovna 6.0 mmol/l.

  • 95 percent confidence interval: 5.912618 6.053048: tohle znamená 95% interval spolehlivosti pro střední hodnotu. Říká nám, že se 95% jistotou domníváme, že skutečná střední hladina cukru v krvi leží někde mezi 5.912618 a 6.053048 mmol/l.

  • mean of x = 5.982833: Toto je vypočítaná střední hodnota naší vzorkové sady. Je velmi blízko předpokládané hodnotě 6.0 mmol/l.

Nyní se podívejme na chyby prvního a druhého druhu (popisoval jsem je v části....). 

Chyba prvního druhu by nastala, kdybychom prohlásili, že lék mění hladinu cukru v krvi, i když ve skutečnosti žádnou změnu neprovádí. Pravděpodobnost chyby prvního druhu je obvykle stanovena předem a označuje se jako hladina významnosti (α). V našem příkladu jsme α nastavili na 0,05, což znamená, že jsme ochotni přijmout 5% riziko, že nesprávně zamítneme nulovou hypotézu, takže chyba prvního druhu je 0,005. 

Chyba druhého druhu by nastala, kdybychom prohlásili, že lék nemění hladinu cukru v krvi, i když ve skutečnosti nějakou změnu provádí. 

Pravděpodobnost chyby druhého druhu je obtížnější spočítat, protože závisí na skutečné hodnotě parametru, který je neznámý - my nevíme, jaký je skutečná střední hodnota pro tento test, to se totiž snažíme zjistit. K odhadu pravděpodobnosti chyby druhého druhu (β) se často používá pojem "síla testu" (popisoval jsem to v části...), což je pravděpodobnost, že správně zamítneme nulovou hypotézu, pokud je skutečně nesprávná. Síla testu je 1 - β.

Jak jsem uvedl výše, pro naši situaci je třeba si uvědomit, že nemáme dostatek informací k výpočtu chyby druhého druhu. Pro její výpočet bychom potřebovali znát skutečnou střední hodnotu hladiny cukru v krvi, kterou ale neznáme - přesně to je totiž to, co se snažíme zjistit. Možná by někdo mohl namítat, že je to 6.0 mmol/l. Ale pozor! To není pravda. Tato hodnota je pouze lékařský/biologický identifikátor. Když máme více cukru, může jít o hyperglykémii, pokud méně, pak o hypoglykémii. 

Ještě to objasním. Teď to pochopíte. Kdybychom nahlédli někde do lékařské databáze a zjistili bychom, že se takový test již prováděl a bude tam zaznamenáno, jaký má efekt na hladinu cukru v krvi, myslím tím, jaká je střední hodnota toho účinku, pak už dokážeme chybu druhého druhu určit. Tento odhad by pak mohl být použit k výpočtu pravděpodobnosti chyby druhého druhu (β) v našem statistickém testu. Pokud bychom znali skutečnou střední hodnotu, mohli bychom vypočítat mocnost testu pro daný vzorek a velikost efektu. Avšak pravděpodobnost chyby druhého druhu, β, není jednoduše 1 minus skutečná střední hodnota. Mocnost testu jsem vysvětloval v části ....

Pokud je mocnost testu například 0,8 (nebo 80 %), znamená to, že máme 80% šanci, že správně zamítneme nulovou hypotézu, pokud je skutečně nesprávná. To zároveň znamená, že existuje 20% (1-β) pravděpodobnost, že nesprávně nezamítneme nulovou hypotézu, když je skutečně nesprávná - to je chyba druhého druhu.

Příklad 2: představme si, že máme v diplomové práci za úkol prozkoumat, zda nová zemědělská technika zvyšuje průměrný výnos z obilí na hektar. Z předchozích studií víte, že průměrný výnos z obilí je 2 tuny na hektar.

Nejdříve si definujeme nulovou a alternativní hypotézu:

    • Nulová hypotéza (H0): Nová zemědělská technika nemá vliv na průměrný výnos obilí - průměrný výnos je stále 2 tuny na hektar.
    • Alternativní hypotéza (HA): Nová zemědělská technika zvyšuje průměrný výnos obilí - průměrný výnos je větší než 2 tuny na hektar 

Potom provedeme experiment. Použijeme novou zemědělskou techniku na 30 hektarů půdy a zaznamenáme výnosy z obilí na každém hektaru.

Představme si, že v našem experimentu jsme dostali následující výnosy z obilí na hektar (v tunách): 2.1, 2.4, 2.3, 2.1, 2.2, 2.3, 2.3, 2.4, 2.2, 2.5, 2.2, 2.3, 2.4, 2.5, 2.3, 2.4, 2.2, 2.4, 2.5, 2.3, 2.3, 2.4, 2.5, 2.3, 2.4, 2.2, 2.4, 2.5, 2.3, 2.4.

Nyní provedeme jednovýběrový t-test v R, kde naše nulová hypotéza je, že průměrný výnos je 2 tuny na hektar. Dejme tomu, že jsme obdrželi následující výstup

V tomto případě je p-hodnota menší než 0,05, takže zamítáme nulovou hypotézu a přijímáme alternativní hypotézu, že průměrný výnos obilí je větší než 2 tuny na hektar.

Nyní, co se týče chyby druhého druhu. Představme si, že víme, že skutečná střední hodnota výnosu obilí za použití nové techniky je 2,35 tun na hektar. Třeba byla vytvořena nějaká pilotní studie a někdo to prostě už spočítal. V tomto případě je naším úkolem zjistit pravděpodobnost, že nesprávně nezamítneme nulovou hypotézu, pokud je skutečná hodnota 2,35 tun na hektar.

K tomu budeme potřebovat několik dalších informací. Budeme potřebovat standardní odchylku výnosů obilí a velikost naší vzorky. Standardní odchylku můžeme vypočítat z našich dat a velikost vzorky již známe (30 hektarů). Výsledky by mohly být následující:

[1] "Standardní odchylka: 0.15" [2] "Velikost vzorky: 30" [3] "Síla testu: 0.95" 

Síla testu je 0,95, což znamená, že máme 95% šanci správně zamítnout nulovou hypotézu (že průměrný výnos je 2 tuny na hektar), pokud je skutečný průměrný výnos 2,35 tuny na hektar. To je velmi silný výsledek, což nám dává velkou důvěru v naše závěry. 

Bystrý čtenář si ale může říct: no dobře, ale tak kdosi dělal už tento test a přišel na to, že střední hodnota je 2,35. O co se tedy snažíme my? Přiblížit se tomu testu? Proč to teda testujeme my? Není náš test zbytečný, když bychom mohli pouze odkázat na předchozí výsledky? K čemu je nám náš vlastní test, který se může jevit jako reduntantní?

To jsou samozřejmě skvělé úvahy, ale je třeba si uvědomit, že co se týče síly/moci testu a chyby druhého druhu, nejde úplně o tom, jak se tyto hodnoty podobají. To by potom nebylo zapotřebí dělat další studie na toto téma. Jde spíše o okolnosti testu. Můžeme si uvědomit, že náš test není moc vhodný, protože máme malý vzorek apod. Když se statistici zaměřují na chybu druhého druhu a sílu testu, opravdu to není o porovnávání konkrétních hodnot mezi různými studiemi nebo testy. Místo toho jde o zhodnocení, jak dobře naše studie nebo test může detekovat efekt, pokud existuje. Malé vzorky, vysoká variabilita dat nebo malý skutečný efekt mohou všechny zvýšit pravděpodobnost chyby druhého druhu (tj. neschopnost detekovat skutečný efekt). Na druhé straně velké vzorky, malá variabilita dat nebo velký skutečný efekt mohou zvýšit sílu testu (tj. schopnost detekovat skutečný efekt).

Takže závěrem, jedná se o hodnocení kvality a spolehlivosti našeho testu nebo studie, ne nutně o porovnávání konkrétních výsledků s výsledky jiných studií. To bychom se nikdy nedostali k žádným novým poznatkům.


1.2   Chí-kvadrát test

Obecně, použití chí-kvadrát testů může být pro mnoho studentů poměrně neintuitivní. Zaměřme se tedy na jednovýběrový chí-kvadrát test. Nejdříve se podívejme na příklady použití, bude nám to pak jasnější:

  1. Pravděpodobnost kostky: Máte podezření, že kostka, kterou používáte pro hraní her, není férová a že některé číslice padají častěji než jiné. Abyste to ověřili, hodíte kostkou mnohokrát a zaznamenáte, kolikrát padne každé číslo. Poté použijete jednovýběrový chí-kvadrát test, abyste zjistili, zda se distribuce vašich výsledků liší od očekávané rovnoměrné distribuce (tj. že každé číslo by mělo padnout stejně často).

  2. Předpověď počasí: Meteorologická stanice tvrdí, že jejich předpověď počasí je správná v 80 % případů. Abyste to ověřili, sledujete jejich předpovědi a porovnáváte je s aktuálním počasím po dobu několika měsíců. Poté použijete jednovýběrový chí-kvadrát test, abyste zjistili, zda se skutečná úspěšnost liší od tvrzené 80 % úspěšnosti.

  3. Marketingové preference: Jako marketér máte několik různých designů pro reklamní banner a chcete zjistit, zda má některý z nich vyšší úspěšnost než ostatní. Rozdělíte svůj vzorek náhodně mezi různé designy a zaznamenáte, kolik kliknutí dostane každý design. Poté použijete jednovýběrový chí-kvadrát test, abyste zjistili, zda se distribuce kliknutí liší od očekávané rovnoměrné distribuce (předpokládáte, že kdyby nebyl mezi designy žádný rozdíl, měl by každý získat stejný počet kliknutí).

V podstatě jde pořád o stejný princip, nějaké ověřování a porovnávání s očekávanou hodnotu. Ano. Jednoduše, jednovýběrový chí-kvadrát test je statistický nástroj, který se používá k porovnání toho, co pozorujeme ve skutečnosti,
s tím, co bychom očekávali na základě nějaké teorie nebo hypotézy. Pojďme se toho podívat konkrétněji na našich příkladech.

U hodu kostkou máme 6 možných výsledků - čísla od 1 do 6. Pokud je kostka férová, očekáváme, že každé číslo by mělo padnout se stejnou pravděpodobností, tj. přibližně jednou šestinou celkového počtu hodů. Pokud tedy provedeme 600 hodů, očekávali bychom, že každé číslo by mělo padnout přibližně 100krát. Toto je naše "očekávaná" frekvence pro každé číslo. Pokud se skutečná frekvence (tj. kolikrát vlastně každé číslo padlo) výrazně liší od této očekávané frekvence, jednovýběrový chí-kvadrát test nám to řekne a my bychom mohli usoudit, že kostka není férová.

U předpovědi počasí očekáváme, že 80 % předpovědí počasí bude správných a 20 % nesprávných. Pokud tedy sledujeme 1000 předpovědí, očekáváme, že 800 z nich bude správných a 200 nesprávných. Skutečné počty správných a nesprávných předpovědí, které zaznamenáme, můžeme porovnat s těmito očekávanými hodnotami pomocí jednovýběrového chí-kvadrát testu. Pokud je rozdíl statisticky významný, mohli bychom usoudit, že tvrzení meteorologické stanice o 80% úspěšnosti je nesprávné.

Co se týče marketingových preferencí, zde máme několik designů banneru a očekáváme, že pokud je každý z nich stejně úspěšný, měly by dostat stejný počet kliknutí. Pokud máme například 4 designy a 1000 kliknutí, očekávali bychom, že každý design by měl dostat přibližně 250 kliknutí. Pokud skutečné počty kliknutí pro každý design výrazně odchylují od těchto očekávaných hodnot, mohli bychom pomocí jednovýběrového chí-kvadrát testu usoudit, že některé designy jsou úspěšnější než ostatní.

Super, ale teď si musíme vysvětlit, jak to dát do vzorečku, co tam uvést a jak vlastně dosáhnout nějakého výsledku. K tomuto použijeme příklad s předpovědí.

Příklad 3:

Představíme si tedy, že meteorologická stanice tvrdí, že má 80% přesnost předpovědi počasí. Takže očekáváme, že 80 % z jejich předpovědí bude správných, a 20 % nesprávných.

Za účelem našeho testu jsme sledovali 1000 předpovědí počasí z této stanice a zjistili jsme, že:

  • 850 předpovědí bylo správných,
  • 150 předpovědí bylo nesprávných.

Tyto hodnoty jsou naše pozorované (nebo "skutečné") frekvence.

Nyní si vypočítejme očekávané frekvence na základě tvrzení meteorologické stanice:

  • správné předpovědi: 0.80 * 1000 = 800,
  • nesprávné předpovědi: 0.20 * 1000 = 200.

Nyní můžeme použít jednovýběrový chí-kvadrát test, třeba v R, k porovnání našich pozorovaných a očekávaných frekvencí. Samozřejmě použijte libovolný test. Já to píšu v R.

1.3   Testy shody s normálním rozdělením

Testy shody s normálním rozdělením jsou nástroje, které statistici používají k ověření, zda jsou data, která mají k dispozici, rozdělena "normálně". Ale co to znamená, že jsou data "normálně rozdělena"?  Normální rozdělení můžeme popsat jako "zvonovou křivku". Pokud si data vizualizujeme, většina bodů by měla padnout do středu křivky a měla by postupně klesat směrem k oběma koncům. Právě tato křivka reprezentuje normální rozdělení (viz normální rozdělení).

Kdy ale takové testy vlastně potřebujeme použít? Pojďme se na to podívat.

Nyní Vám povím něco, co jste možná nevěděli (možná jo, o to lépe :)). Představte si, že jste učitel a vytváříte nějaký test/písemku. Určitě si s tím dáte nějakou práci a snažíte se volit otázky lehké, těžké, středně těžké... Jak byste si představoval/a, že by tato písemka měla dopadnout? Jako "správný" učitel si říkáte, že samozřejmě co nejlépe. Pokud budou samé jedničky, tak je to ideální. To je ale špatná úvaha. Zde narážíme na to, že většina učitelů nemá ponětí o populačních teoriích. Pokud vytváříte test, který má opravdu vypovídat o nějakých znalostech/vědomostech žáka, neměl by dopadnout tak, že mají žáci (téměř) samé jedničky (ale opět náhodou se to stát může). Dokonce nemůže dopadnout ani tak, že mají žáci (téměř) samé pětky. Zde jsou dvě možnosti, buď je to tedy náhoda, nebo učitel vytvořil špatný test. Asi si říkáte: co je špatného na tom, že budou mít všichni samé jedničky? Zde narážíme na problém. Učitelé si stěžují, že se učili na vysoké škole kraviny a potřebují spíše praxi. Nepopírám, že se na pedagogické škole učí spousta kravin, ale některé teorie jsou skutečně důležité pro praxi. Bez nich nebude učitel nikdy dobrým učitelem. Pojďme se na problematiku, kterou jsem nakousl, podívat podrobně "vědecky". Takže si uděláme malou odbočku. Jestli vás odbočky nebaví, tak to přeskočte :). 

Lidská populace podléhá normálnímu rozdělení téměř ve všech aspektech. Jednoduše, průměrných je vždy nejvíce. Princip normálního rozdělení, je nejen ve statistice základním konceptem  a představuje jednu z nejdůležitějších teoretických konstrukcí ve vědách o lidském chování. Tento princip, který postuluje, že většina lidí je "průměrná" a méně lidí je "extrémní" ve svých vlastnostech nebo schopnostech, je základním předpokladem mnoha teorií v psychologii, sociologii, ekonomii a dalších disciplínách. 

Pojďme se na to podívat nejprve z evolučního hlediska. Normální rozdělení charakteristik u biologických druhů hraje zásadní roli z hlediska přežití. Chápání tohoto fenoménu vyžaduje porozumění konceptu přírodního výběru a stabilizujícího výběru.

Přírodní výběr je proces, při kterém jedinci s příznivými vlastnostmi mají větší šanci na přežití a reprodukci. Tyto vlastnosti se pak častěji přenášejí na další generace. Stabilizující výběr je specifický typ přírodního výběru, kdy jsou preferovány průměrné hodnoty určitého znaku.

Uvažme například velikost těla u určitého druhu ptáků. Příliš malí jedinci mohou být více vystaveni predaci a mohou mít potíže s hledáním potravy. Na druhé straně, příliš velcí jedinci zase mohou mít vyšší energetické nároky a potíže s pohybem v určitých prostředích. Ptáci s průměrnou velikostí těla mají tedy největší šanci na přežití a reprodukci. Časem se tak populace posouvá k normálnímu rozdělení velikosti těla.

Je důležité poznamenat, že normální rozdělení charakteristik je také důsledkem genetické variability a sexuální reprodukce. Genetická variabilita a kombinace genů obou rodičů při sexuální reprodukci vedou k variabilitě vlastností v populaci, což pomáhá druhu přežít v měnícím se prostředí.

Tento mechanismus je důležitý, protože favorizuje diverzitu v populaci a umožňuje druhu přizpůsobit se změnám v prostředí. Pokud by všechny jedince charakterizovaly stejné nebo velmi podobné vlastnosti, populace by byla více vystavena riziku vyhynutí v případě náhlé změny prostředí, která by negativně ovlivnila tyto vlastnosti. To je jeden z důvodů, proč je genetická a fenotypová diverzita klíčová pro dlouhodobé přežití druhu.

Normální rozdělení je také klíčové pro sociální organizaci. Průměrné schopnosti a vlastnosti jsou často ideální pro většinu sociálních rolí, zatímco extrémní schopnosti mohou být výhodné pro specializované role. Toto rozdělení rolí a schopností může podporovat sociální soudržnost a efektivitu.

Teď se koukněme na zajímavou věc, které jsme si jistě všimli. Jistě znáte nějakou krásnou ženu, kterou potkáváte běžně s nádhernými muži. Každý měsíc jiný nádherný muž. Za rok ji potkáte s vzhledově naprosto průměrným, možná lehce podprůměrným mužem a už si tlačí kočárek s mimčem. Asi si říkáte, že si teda vybrala z těch krasavců toho nejškaredšího.. Neříkám, že to tak je vždy, ale na tohle existuje řada studií a jistě několik takových lidí známe. Tohle potvrzuje právě odstavce, které jsem uvedl výše. Tato problematika je celkově o dost složitější, hrají zde roli sociálně-psychologické, ekonomické, kulturní faktory atd. Ale u řady lidí je tento "tradiční" vzorec stále zachován. To je ovšem dobře. 

Dostáváme se postupně k inteligenci, která souvisí s naší písemkou. Rozdělení inteligence v lidské populaci, často měřené pomocí IQ testů, se obecně považuje za normální nebo gaussovské. Tento fenomén je v podstatě univerzální napříč kulturami a demografickými skupinami.

Sociálně a kulturně je normální rozdělení inteligence klíčové pro fungování naší společnosti. Většina rolí a povolání ve společnosti vyžaduje průměrnou úroveň inteligence, zatímco některé specializované role mohou vyžadovat vyšší inteligenci. Pokud by všichni měli extrémně vysokou inteligenci, mohlo by to způsobit sociální nerovnováhu, protože by bylo více lidí kvalifikovaných na specializované role, než je potřeba. Naopak, pokud by všichni měli extrémně nízkou inteligenci, mohla by být společnost jako celek méně produktivní a inovativní.

Z biologického a genetického hlediska je normální rozdělení inteligence výsledkem komplexní interakce řady genů, každý s malým individuálním účinkem, a různých environmentálních faktorů. Toto "polygenní dědění" a multifaktoriální povaha inteligence vede k vytvoření normálního rozdělení v populaci. Skutečně. Také evoluční perspektiva hraje u inteligence důležitou roli. Normální rozdělení inteligence zvyšuje přežití a úspěch druhu tím, že podporuje různorodost a adaptabilitu. Rozdílné úrovně inteligence mohou být výhodné v různých prostředích a situacích, a tak populace s širokým rozpětím inteligence může být lépe přizpůsobena změnám v prostředí.

A konečně, z psychologického a pedagogického hlediska je normální rozdělení inteligence základem pro vytváření a interpretaci IQ testů a dalších měřítek inteligence. IQ testy jsou kalibrovány tak, aby průměrná hodnota byla 100 a standardní odchylka 15. Toto rozdělení umožňuje psychologům a pedagogům porovnávat jednotlivce a skupiny, identifikovat nadané jedince nebo jedince s potřebou speciální podpory a výzkum v oblasti kognitivního vývoje a vzdělání.

Jestli jste četli to růžové pojednání, pak vám musí být jasné, že nelze, aby všichni žáci měli dobré známky. Jo, bylo by to určitě skvělé pro hloupého učitele, který si bude naivně myslet, že jsou žáci skvělí, ale přitom dává jen strašně snadné testy. Ať už učíte na libovolné škole - gymnázium, střední odborná, praktická - je třeba, aby z dlouhodobého hlediska bylo hodnocení žáků ve tŕídě aspoň nějak zhruba normálně rozděleno.

Přejděme nyní ke konkrétním statistickým testům. Je jich několik, projdeme si všechny.

         

1.3.1   Shapiro-Wilk test

Shapiro-Wilkův test je statistický test, který se používá k ověření, zda je soubor dat normálně rozdělen. Tento test je obecně citlivější na odchylky od normality než jiné testy, jako je například Kolmogorov-Smirnovův test, což je v mnoha případech velmi užitečné. Test je ale přesnější pro malé až střední soubory. Pokud budete mít většísoubor dat, třeba 2000 respondentů, nemusí být tento test přesný. 

Představme si, že jsme vědcem studujícím růst rostlin v určité oblasti. Nasbírali jsme data o výšce rostlin a chceme zjistit, zda růst rostlin v průběhu času sleduje normální distribuci. Shapiro-Wilkův test je jedním z vhodných nástrojů, které bychom mohli použít k tomuto účelu. Na začátku testu máme soubor hodnot, například výšky rostlin. Tyto hodnoty porovnáváme s očekávanými hodnotami z normální distribuce (ty zjistíme samozřejmě v tabulce nebo nějaké statistickém software). Pokud je soubor hodnot blízký očekávaným hodnotám, pak můžeme říci, že soubor hodnot je normálně rozdělen. Pokud je soubor hodnot daleko od očekávaných hodnot, lze naopak prohlásit, že soubor hodnot není normálně rozdělen. Právě tento test je často preferován pro malé až středně velké vzorky dat, což je běžný scénář v mnoha oblastech biologického výzkumu, včetně studia růstu rostlin. Tím pádem máme poměrně silný nástroj do biologie. 

Shapiro-Wilkův test vypočítává statistiku W, kterou je hodnota mezi 0 a 1. Hodnota W blízká 1 naznačuje, že data se podobají normální distribuci. Naopak, hodnota W daleko od 1 naznačuje, že data se od normální distribuce významně odchylují. Spolu se statistikou W vypočítává test také p-hodnotu. Už jsme si několikrát řekli, že p-hodnota je pravděpodobnost, že bychom pozorovali daný nebo ještě extrémnější výsledek, pokud by data byla skutečně normálně rozdělená. Pokud je p-hodnota menší než naše stanovená hladina významnosti (např. 0,05), pak můžeme zamítnout nulovou hypotézu o normalitě distribuce dat. To by znamenalo, že máme dostatek důkazů pro tvrzení, že naše data nejsou normálně rozdělená.

Je důležité si uvědomit, že Shapiro-Wilkův test, stejně jako jakýkoli statistický test, má své omezení. Jak jsem uváděl, test je citlivý na velikost vzorku a může být méně přesný pro velké vzorky. Také výsledky testu mohou být ovlivněny odlehlými hodnotami v datech. Proto je vždy důležité provést vizuální kontrolu dat pomocí histogramu nebo Q-Q grafu ().

Příklad 4.

Představme si tedy, že jsme učitelem a žákům ve třídě jsme dali test ze zeměpisu. Žáků je 38. To je ideální počet vzorků, použijeme tedy Shapiro-Wilk test.  Každý student získal bodové hodnocení v rozsahu 0 až 100:

85, 88, 90, 78, 92, 94, 80, 85, 91, 77, 80, 82, 88, 86, 90, 79, 82, 90, 91, 88, 85, 82, 79, 86, 84, 88, 90, 79, 82, 85, 81, 87, 88, 80, 83, 91, 87, 85 

Teď chceme zjistit, zda se známky studentů řídí normální distribucí neboli, jestli je náš test ze zeměpisu relevantní. Jestli jsme jej nevytvořili moc jednoduchý nebo těžký. Ale pozor. Bavíme se o statistice. Může se stát, že je test vytvořen přesně jak má být, ale i tak se většina žáku vybodla večer na učení. Proto by bylo ideální takto počítat všechny testy a na konci teprve určit na základě všech testů, jestli jsou dobře vytvářeny. Ale o tomto si budeme povídat až později. Teď máme modelovou situaci s naším jedním testem. Berte to ale pouze jako příklad. Jestli bude vedoucí vaší práce statistik, zřejmě by vám rozmluví vytvářet Shapiro-Wilk test z jedné písemky a usuzovat, jestli je test dobře vytvořen. Takže je to spíše modelový příklad.

Před provedením Shapiro-Wilkova testu bychom měli provést vizuální kontrolu dat pomocí histogramu nebo Q-Q grafu kvůli povaze dat, odlehlým hodnotám apod. Na to se teď ale vyprdneme :). 

Hodnoty testu jsme tedy dali do softwaru, třeba R, NCSS, Statistica atd. Výsledek z R je následující.

Ve výsledku testu je W statistika Shapiro-Wilko testu a p-value je pravděpodobnost, že bychom obdrželi takové nebo extrémnější data, pokud by byla skutečná populace normálně rozdělená. Jestliže je p-hodnota menší než 0,05, máme statisticky významný důkaz, že data nejsou normálně rozdělená.

V tomto příkladě p-hodnota je vyšší než 0,05, takže bychom mohli předpokládat, že bodové hodnocení studentů jsou normálně rozdělené.

Ale! Má to jeden háček. Koukněte na ty body, které žáci odbrželi. Dali byste někomu horší známku než 3? Nedali, že? Takže vlastně nejhorší student dostal trojku. Nebyly žádné čtyřky ani pětky. To není moc dobrý test. Ale i přesto nám vyšlo, že jsou data normálně rozdělena. To jsou věci, že? Co teď? Totiž, Shapiro-Wilkův test je nástroj pro posouzení, zda se vaše data "podobají" normálnímu rozdělení, ale je třeba mít na paměti, že "normální rozdělení" je teoretický koncept a v reálném světě data zřídka dokonale odpovídají této ideální křivce. Míra, do jaké data odpovídají normálnímu rozdělení, také neříká nic o tom, zda jsou data "správná" nebo "špatná" v jakémkoli smyslu. Je to jen jedna charakteristika dat.

V tomto případě bychom mohli převést body na známky a dát do Shapiro-Wilk testu soubor známek. Známky jsme na základě bodového ohodnocení dostali podle standardní škály, která se používá v ČR. Obdrželi jsme v R studiu následující výsledky testu.

A koukejte na ten výsledek. Statistika W je najednou nižší a p-hodnota je úplně malinká. Takže to znamená, že se naše data nepodobají normálnímu rozdělení. Vidíte, jaký je to rozdíl? A je to tím, že bodová škála je 0 až 100, tedy každý žák může mít 101 různých možností bodového ohodnocení. Ovšem známek je pouze 5. Při převedení bodových hodnot na známky dojde k významnému zjednodušení datové sady. Jakmile se body převedou na známky (1 až 5), ztratí se určitý stupeň detailu a nuance, který byl původně obsažen v bodovém ohodnocení.

Toto zjednodušení často vede k větší pravděpodobnosti odchylky od normálního rozdělení. Konkrétněji, pokud máme malý počet možných hodnot (jako u známek), je pravděpodobnější, že rozdělení těchto hodnot nebude přesně odpovídat křivce normálního rozdělení, což je přesně to, co test normálnosti měří. Na druhou stranu, pokud máme mnoho možných hodnot (jako u bodů), může být rozdělení těchto hodnot bližší k normálnímu rozdělení, i když skutečné bodové podklady písemky nejsou "normálně rozděleny". Na to si dávejte v praktické části diplomky pozor. Totiž, pokud budeme používat v testu bodové ohodnocení 0 až 100, může nám software vyhodnotit normální rozdělení v řadě případů. Většina z nich ale nebude odpovídat realitě, protože ten software neví, co přesně děláte. Pouze vezme čísla a porovná je s normálním rozdělení.


1.3.2   Kolmogorov-Smirnov test

Tento test je nástrojem pro ověřování, zda se soubor dat řídí určitým teoretickým rozdělením pravděpodobnosti. Nejčastěji se používá k testování shody s normálním rozdělením, ale lze jej použít i pro jiná rozdělení. Takže vidíme první zásadní rozdíl oproti Shapiro-Wilk testu. 

Základní myšlenkou tohoto testu je porovnání empirické distribuční funkce (EDF) dat s teoretickou distribuční funkcí (CDF) předpokládaného rozdělení (viz).

Testovací statistika D je definována jako maximální absolutní rozdíl mezi hodnotami EDF a CDF. Pokud je tento rozdíl velký, můžeme nulovou hypotézu, že data pocházejí z daného rozdělení, zamítnout.

Je důležité si uvědomit, že jednovýběrový Kolmogorov-Smirnovův test je méně citlivý na odchylky od normality v koncových částech (ocasech) distribuce než v centrální části. To je opravdu podstatné vědět. Z toho důvodu může test někdy selhat v detekci odchylek od normality, pokud jsou tyto odchylky lokalizovány hlavně v koncových částech distribuce. Tohle je třeba vědět a vizuálně zkontrolovat naše data před volbou tohoto testu.

Pokud jde o velikost vzorku, Kolmogorov-Smirnovův test je obecně považován za méně vhodný pro malé vzorky než Shapiro-Wilkův test. Může také mít menší "moc" při testování normality, pokud jsou data silně zkreslená nebo mají výrazné výstřední hodnoty (outliery). Jak to tak popisuji, vypadá to, jako by to byl otřesný test, že? :D Ale není. Potřebuje akorát vhodná data. 

Hlavní rozdíl mezi těmito dvěma testy spočívá v jejich citlivosti na různé typy odchylek od normality. Jak již bylo zmíněno, Kolmogorov-Smirnovův test je méně citlivý na odchylky v koncových částech distribuce, zatímco Shapiro-Wilkův test je obecně citlivější na takovéto odchylky. Proto je Shapiro-Wilkův test často považován za přísnější a přesnější test normality, obzvláště pokud jsou data silně zkreslená nebo mají výrazné výstředné hodnoty.

Volba mezi těmito dvěma testy tedy závisí na charakteristikách konkrétní datové sady a na typu odchylek od normality, které chceem detekovat. Pokud máme podezření na přítomnost odchylek v koncových částech distribuce, Shapiro-Wilkův test by mohl být vhodnější. Na druhou stranu, pokud jsou naše data relativně symetrická a bez výrazných výstředných hodnot, Kolmogorov-Smirnovův test může poskytnout dostatečnou míru přesnosti. Uveďme si příklady. 

Představme si, že jsme výzkumníkem studujícím roční příjem v populaci. Získáme data o příjmech od velkého počtu lidí, ale zjistíme, že někteří jednotlivci mají mimořádně vysoké příjmy, zatímco většina lidí má příjmy blíže průměru. Tento druh distribuce, který se někdy označuje jako distribuce "s těžkými ocasy", je často významně ovlivněn extrémními hodnotami na jednom konci distribuce. V tomto případě by Shapiro-Wilk test mohl být vhodnější volbou, protože je citlivější na přítomnost těchto extrémních hodnot. Kolmogorov-Smirnovův test by nemusel být schopný tak dobře detekovat odchylky od normality v těchto datech, protože je pro ně méně citlivý.

Nyní si představme, že jsme psychologem provádějícím výzkum úrovně stresu v populaci. Získáme data od velkého počtu jedinců a zjistíme, že úrovně stresu se zdají být relativně symetrické kolem průměru, s malým počtem lidí hlásících extrémně vysoké nebo nízké úrovně stresu V tomto případě by mohl být vhodnější Kolmogorov-Smirnovův test. Jelikož naše data nevykazují významné výstřední hodnoty nebo silné zkreslení, Kolmogorov-Smirnovův test by v tomto případě mohl poskytnout dostatečnou míru přesnosti při testování normality. Shapiro-Wilkův test by ovšem mohl také být vhodný, ale může být zbytečně striktní pro tuto konkrétní datovou sadu.

Ještě uvedu jeden. Představme si, že jsme biologem studujícím velikost zrna pylu určité rostliny. Získáme data od malého počtu rostlin a chceme ověřit, zda se velikost zrna pylu řídí normálním rozdělením. Pokud máme malý vzorek (například méně než 50 pozorování), může být vhodnější použít Shapiro-Wilkův test. Tento test je obecně považován za silnější než Kolmogorov-Smirnovův test při malých vzorcích.


1.3.3 Anderson-Darling test

Jednovýběrový Anderson-Darlingův test je statistický test, který se používá k ověření hypotézy, že daná vzorková data pocházejí z určitého populačního rozdělení. V případě normality se tedy používá k ověření, jestli data pocházejí z normálního rozdělení. Anderson-Darlingův test je, podobně jako testy Shapiro-Wilk a Kolmogorov-Smirnov, tzv. test shody (goodness of fit test). Testuje tedy, jak dobře se naše data "shodují" s teoretickým rozdělením, v tomto případě s normálním.

Za základ tohoto testu se považuje tzv. Anderson-Darlingova statistika (A²), která je závislá na velikosti vzorku a hodnotách ve vzorku. Tato statistika je speciální tím, že dává větší váhu ocasům distribuce, což znamená, že je citlivější na odchylky v koncových částech distribuce než některé jiné testy, například Kolmogorov-Smirnovův test. Pokud jde o velikost vzorku, Anderson-Darlingův test je obecně považován za robustní a má dobstatečnou "sílu" při detekci odchylek od normality v různě velkých vzorcích. Nicméně, jako u většiny statistických testů, s rostoucím vzorkem se zvyšuje jeho schopnost detekovat i menší odchylky od normality.