Cookova vzdálenost

Cookova vzdálenost je statistický nástroj, který se používá k identifikaci "vlivných" pozorování v regresní analýze. Toto jsou pozorování, které mají zvlášť velký vliv na odhady regresních koeficientů.

Cookova vzdálenost je pojmenována po statistikovi R. Dennisi Cookovi a je definována jako míra, jak moc se odhady koeficientů změní, pokud je dané pozorování vynecháno. V praxi se pro každé pozorování vypočítá Cookova vzdálenost a pozorování s vysokou Cookovou vzdáleností jsou považována za potenciálně vlivná.

Cookova vzdálenost je vypočítána takto:

  1. Začneme s modelem regrese, který byl vyhodnocen na všech pozorováních.
  2. Poté vytvoříme nový model pro každé pozorování tak, že vynecháme toto pozorování a vypočítáme nové odhady koeficientů.
  3. Pro každé pozorování vypočítáme "vzdálenost" mezi původními odhady koeficientů a odhady koeficientů, které jsme získali, když jsme vynechali toto pozorování.
  4. Tyto vzdálenosti jsou pak normalizovány tak, že jejich průměr je roven 1. Když se řekne, že vzdálenosti jsou normalizovány tak, že jejich průměr je roven 1, znamená to, že všechny vzdálenosti jsou přeškálovány tak, že jejich průměrná hodnota je 1. Toto škálování zajistí, že vliv jednotlivých pozorování je vyjádřen v relativních jednotkách v porovnání s ostatními pozorováními. V praxi to znamená, že pozorování s Cookovou vzdáleností větší než 1 má větší vliv na odhady koeficientů, než je průměr, zatímco pozorování s Cookovou vzdáleností menší než 1 má menší vliv, než je průměr.

Je důležité si uvědomit, že Cookova vzdálenost je závislá na počtu prediktorů v modelu - obecně platí, že čím více prediktorů má model, tím větší je potenciální vliv jednotlivých pozorování na odhady koeficientů.

Cookova vzdálenost je užitečná, protože nám pomáhá identifikovat, která pozorování by mohla mít nadměrný vliv na naše závěry. Pokud zjistíme, že některá pozorování mají velkou Cookovu vzdálenost, můžeme se na tato data podívat podrobněji a zjistit, proč se tak liší od ostatních.

V konečném důsledku je cílem regresní analýzy zjistit, jaké vztahy existují mezi proměnnými ve vašich datech. Pokud některá pozorování výrazně ovlivňují vaše závěry, může to zkreslit váš obraz o těchto vztazích.

Příklad 1.

Nebudeme se teď zabývat vytvářením regresního modelu. Tím bychom to akorát zkomplikovali. Představíme si výsledky, které nám vyjdou z metody Cookovy vzdálenosti. Dejme tomu, že nám vyšly následující hodnoty.