Jak je to v diplomkách či bakalářkách se statistikou? Jste namydlení?
Autor: Roman
Statistika je často nutnou součástí závěrečné práce, obzvláště když chcete něco analyzovat a vytvořit nějaký závěr. Týká se především kvantitativních metod. Studenti ale často nevědí, co mají měřit, co počítat, kde a jak... Sranda končí, když musíte testovat hypotézy, vytvářet korelační či regresní analýzu nebo odhady. Popíšeme si nějaké ty statistické metody, které byste zřejmě mohli použít. Nemůžete postavit výzkum diplomové práce na četnostech nebo aritmetickém průměru. Zjistit, kolik lidí děla to či tamto, to dokáže žák základní školy.
Ze základních statistických metod, které můžete použít, jsou už o ledasčem vypovídající třeba rozptyl, směrodatná odchylka a variační koeficient.
Pokud jste získali číselná data, např o výši nějaké dávky v daném krasji, můžete zjistit, že průměrná dávka je např. 2000 Kč. To vám ale nic moc neřekne. Teoreticky mohly být skutečné dávky ve výších 1 Kč a 3999 Kč. Pak je průměrná dávka 2000 Kč. Jenže průměrná dávka nabývá této částky i tehdy, pokud budou dávky 1999 Kč a 2001 Kč. Samotný průměr, jakožto charakteristika polohy, zde není úplně relevantní. Podívejte se na následující tabulku.
Zde jsem uvedl nějaké fiktivní průměry fiktivních dávek v různých krajích. Spočítal jsem samozřejmě průměrnou dávku v daném kraji, ale uvedl také směrodatnou odchylku. Co to znamená? Čím větší bude odchylka, tím jsou data více rozházená a vzdálená od průměru. Např. vidíme, že v Jihočeském kraji jsou všechny dávky vesměs podobné průměru, je u nich malá odchylka. Ve Středočeském kraji je odchylka vyšší, pak můžeme konstatovat, že data jsou od průměru více vzdálená. Mohli jsme někde v tomto kraji napočítat dávku třeba 3900, ale i 1200 Kč. Pak už můžeme učitnit závěr o tom, jaké jsou zhruba výše dávek v jednotlivých krajích. Tato hodnota zastupuje skutečnost, že jsou dávky nějak rozptýlené kolem průměru. V excelu ji spočítáte pomocí funkce SM.ODCH(). Jenže my nevíme, jestli je 86 malá hodnota, nebo je velká a ostatní jsou ještě větší. K tomuto můžete využít variační koeficient. Ten vztáhne odchylku k vašemu souboru a řekne vám, kolik procent průměru tvoří odchylka.
Nyní vidíme, že u Jihočeského kraje je variační koeficient skutečně malý a hodnota 86,7 tedy byla také poměrně nízká. Tyto základní charakteristiky mohou být pro vás důležité v tom, abyste věděli, jak jsou různá data rozptýlena
Užitečnou věcí je umět také vhodně použít aritmetický průměr a medián dohromady, resp. z grafu poznat, jaké tyto hodnoty mohou být a co to znamená. Uvedu vám příklad dvou tabulek dat.
Když se podíváte na dvě tabuly výše, zřejmě byste z nich takto okem moc nevyčetli. Když si ale spočítáte průměr a medián, pak se dá ledacos vyčíst. V první tabulce vidíme, že medián je o nějakých 300 vyšší než průměr. To znamená, že je průměr nižší než prostřední hodnota seřazeného výběru. Z toho můžeme usoudit, že jsou naše data spíše více zatížená extrémně nízkými hodnotami. Koukněte na graf níže.
Vytvořil jsem histogram (to vás pak taky naučím, užitečná věc). Všimněte si, že opravdu počet hodnot mezi 111 a 1030 je dost vysoký a četnosti našich dat jsou také vyšší v kategoriích blíže k levé straně grafu. Data jsou tedy zešikmena spíše vlevo (šikmost je charakteristika dat).
Kdežto data v tabulce vpravo mají průměr vyšší než medián, což znamená, že jsou zatížena spíše vyššími hodnotami. Koukněte na následující graf. Černou čarou jsem vám tam vyznačil průměr.
Všimněte si, že v histogramu máme spíše více vyšších hodnot, a dokonce několik velmi vysokých. Ale základní posouzení nám prostě poskytne průměr a medián. Což je krásné a jednoduché. Nyní můžeme použít ještě ty odchylky a variační koeficienty, abychom viděli, která z našich tabulek má více rozházená data kolem průměru. Sice si můžete říct, že to vidíte, ale to nestačí. Oko není dokonalé, musíte to spočítat. Podívejte se na dabulku níže.
Kdybyste si spočítali pouze směrodatné odchylky, řekli byste si, že tabulka vpravo má tedy více rozptýlené, rozházené, vzdálené hodnoty od průměru. Ale to je právě to úskalí směrodatné odchylky. Totiž ty dvě tabulky mají různá data a různé průměry. Nelze to posuzovat podle odchylky. Musíte si vytvořit variační koeficient. Ten vlastně standardizuje ty odchylky tak, že je můžeme porocvávat mezi různými soubory dat. Pak bohžel musíme tvrdit, že odchylky od průměru nejsou nijak výrazně odlišné mezi našimi dvěma soubory, dokonce v levé tabule je malinko vyšší. Ale uvědomte si, že to je bráno vzhledem v datům v té tabulce. Pro lepší pochopení si vezměme příklad těchto dvou souborů:
{1, 3, 4, 5, 6, 7} a {11000, 13000, 14000, 15000, 17000}
Je jasné, že odchylka bude vycházet ve vyšších číslech u souboru vpravo, ale to neznamená, že je vyšší poměrně k danému souboru. Porovnáváme řádově odlišná data. Variační koeficient právě tohle eliminuje a lze porovnat odchylky mezi rýznými soubory. Pro směrodatnou odchylku je v excelu funkce SM.ODCH(), to jsme si už řekli,ale pro variační koeficient žádná funkce není. Tu si musíte sami vytvořit. Ale není to nic těžkého, jen směrodatnou odchylku podělíte průměrem, čímž data standardizujete, takže =SM.ODCH(oblast)/PRŮMĚR(oblast).
Korelace
Častou statistickou metodou bakalářských či diplomových prací je korelace, resp. mohla by být. Ta nám dá informaci, jestli spolu mohou různé naměřené hodnoty nějak souviset, jestli mají podobný průběh. Jako elementární příklad si uveďme dva soubory:
{1, 3, 4, 6, 7, 8, 10, 14, 19} a {25, 13, 7, 9, 26, 8, 6, 4, 1}
Představte si, že ta data jsou nějaká časová řada, měříme je ve stejných okamžicích, takže naměříme v prvním souboru hodnotu 1 a ve druhém 25. Za chvilku naměříme v první souboru číslo 3 a ve druhém 13 atd. Takže v daném okamžiku vždycky změříme hodnotu první veličiny i druhé. Za nějaké období máme naměřeny hodnoty dvou veličin, třeba počet návštěvníků obchodu v časových úsecích a "míru" naštvanosti prodavače v daném okamžiku. To jsou samozřejmě veličiny, které spolu vůbec nesouvisí. Čirou náhodou mohou mít podobný průběh, ale to by byla opravdu náhoda. Když spočítáme Pearsonův korelační koeficient, zjistíme, jestli spolu veličiny korelují. Ten vyjde ─0,661, což znamená, že mají veličiny lehkou negativní korelaci. Co to ale znamená? Korelační koeficient vám vždy vyjde mezi ─1 a 1. Čím více se korelace blíží 1, tím více mají veličiny podobný průběh svých dat. Pokud se blíží nule, nemají spolu veličiny nic společného. Pokud se blíží ─1, pak jde o negativní korelaci, což znamená, že když jedna veličina stoupá, druhá klesá, samozřejmě také obráceně.
Sledujte grafy níže.
Na grafu vlevo vidíme, že dvě veličiny mají přibližně podobný průběh. Nejde ale o to, v jakých číslech jsou konkrétně, jestli je první v desítkéch a druhá stovkách, tisících. Je to jedno. Jde jen o průběh. Vezměte si, že váha a výška u malého dítěte také zhruba koreluje, ale jde o jiná čísla. Korelační koeficient je poměrně vysoký, a to 0,786. Samozřejmě to může být náhoda. Pořád jde o 28 hodnot, což není moc. Když se ale podíváte na graf vpravo, evidentně spolu ty průběhy vůbec nesouvisí. V některých místech jedna veličina roste a druhé klesá apod. Korelační koeficient je taky 0,02, což znamená, že spolu průběhy nijak nesouvisí. Tento korelační koeficient není problém spočítat v excelu. Jde o funkci CORREL().
napíšete =CORREL( označíte jednu oblast dat, dáte středník, pak druhou a enter. Korelační koeficient se vám spočítá. To je celkem v pohodě. Horší ale je, když budete musel spočítat, jestli je ta korelace statisticky významná. Totiž funkce vám vyplyvne nějaké číslo a vy nevíte, jestli je to moc, nebo málo. Záleží na konkrétních datech. Když dostaneme hodnotu 0,68, čert ví, jestli to je vysoká korelace, nebo ne. Musíte spočítat test statistické významnosti.
Pokračování brzy:)