T-test

T-test (Studentův t-test) je metodou matematické statistiky, která umožňuje ověřit některou z následujících hypotéz:

  1. zda normální rozdělení, z něhož pochází určitý náhodný výběr, má určitou konkrétní střední hodnotu, přičemž rozptyl je neznámý
  2. zda dvě normální rozdělení mající stejný (byť neznámý) rozptyl, z nichž pocházejí dva nezávislé náhodné výběry, mají stejné střední hodnoty (resp. rozdíl těchto středních hodnot je roven určitému danému číslu)

V prvním případě může být náhodný výběr tvořen buď jednotlivými hodnotami (pak se jedná o jednovýběrový t-test), anebo dvojicemi hodnot, u nichž se zkoumají jejich rozdíly (pak se jedná o párový t-test). Ve druhém případě jde o dvouvýběrový t-test.

V praxi se t-test často používá k porovnání, zda se výsledky měření na jedné skupině významně liší od výsledků měření na druhé skupině.

Princip t-testu

Pokud náhodný výběr pochází z normálního rozdělení, pak výběrový průměr má také normální rozdělení se stejnou střední hodnotou. Rozdíl výběrového průměru a střední hodnoty normovaný pomocí skutečného rozptylu by pak měl normální rozdělení s nulovou střední hodnotou a jednotkovým rozptylem. Skutečný rozptyl však není znám. Pokud je nahrazen odhadem pomocí výběrového rozptylu, vznikne T rozdělení, které s rostoucím počtem stupňů volnosti konverguje k normálnímu rozdělení.

Jednovýběrový t-test

Označme jednotlivé hodnoty náhodného výběru jako , výběrový průměr jako a výběrový rozptyl jako (výběrové verze jsou definovány jako ). Test testuje hypotézu, že střední hodnota normálního rozdělení, z něhož výběr pochází, se rovná .

Platí-li hypotéza, má náhodná veličina T rozdělení s n-1 stupni volnosti. Hypotézu zamítáme, je-li T příliš velké nebo příliš malé (výběrový průměr se příliš liší od očekávané střední hodnoty). Konkrétně se T porovná s kritickou hodnotou T rozdělení pro předem stanovenou hladinu významnosti.

Příklad jednovýběrového t-testu

Mužové (smyšleného) kmene Orlů mají podle literatury mít průměrnou výšku 175 cm. Antropolog, který kmen navštívil, změřil výšky deseti náhodně vybraných mužů kmene. V pořadí velikosti to byli muži vysocí 153, 156, 156, 161, 166, 167, 168, 174, 175 a 181 cm. Na hladině významnosti α = 0,05 máme testovat, zda údaj v literatuře odpovídá antropologovým měřením. Předpokládáme, že výšky členů nějaké skupiny lidí jsou přibližně normálně rozdělené.

Využijeme statistický software R a zadáme následující příkazy:

orlove <- c(153, 156, 156, 161, 166, 167, 168, 174, 175, 181)
t.test(orlove, mu = 175)

Výstup programu je:

	One Sample t-test
data:  orlove
t = -3.1834, df = 9, p-value = 0.01112
alternative hypothesis: true mean is not equal to 175
95 percent confidence interval:
 159.0914 172.3086
sample estimates:
mean of x 
    165.7

Testová statistika t tedy nabývá hodnoty -3,1834 při devíti stupních volnosti (počet stupňů volnosti je v tomto testu o jednu nižší než počet měření). Odpovídající p-hodnota je 0,01112, což je menší než 0,05, a tak můžeme nulovou hypotézu na zadané hladině významnosti zamítnout a říci, že střední hodnota výšky mužů kmene Orlů není 175 cm, ale zřejmě o něco menší: Program vypsal aritmetický průměr výšek měřené skupiny jako 165,7 cm a jeho 95% konfidenční interval přibližně 159,1 až 172,3 cm, takže skutečná střední hodnota výšek bude nejspíše někde v uvedeném intervalu.

Párový t-test

Párový t-test se od jednovýběrového liší pouze v tom, že náhodný výběr poskytuje dvojice hodnot , přičemž uvnitř každé dvojice nemusí jít o nezávislé veličiny. V párovém t-testu ověřujeme, zda rozdíl středních hodnot rozdělení pro veličiny y a rozdělení pro veličiny z je roven určitému číslu (často nule). Předpokladem je, že tento rozdíl (nikoli nutně samotné y a z) má normální rozdělení.

Položíme-li a označíme-li jako číslo, kterému se má rovnat rozdíl středních hodnot, můžeme párový test zcela převést na případ jednovýběrového t-testu.

Dvouvýběrový t-test

Označme jednotlivé hodnoty prvního náhodného výběru jako , výběrový průměr jako a výběrový rozptyl jako . Obdobně označme jednotlivé hodnoty druhého náhodného výběru jako , výběrový průměr jako a výběrový rozptyl jako . Oba výběry musejí být vzájemně nezávislé. Nakonec označme číslo, které se má rovnat rozdílu středních hodnot základního souboru (jak již bylo řečeno, často ).

Potom veličina

má za platnosti hypotézy, že se rozdíl středních hodnot rovná , T rozdělení o n+m-2 stupních volnosti. Hypotéza se tedy zamítá v případě, že veličina T překročí kritickou hodnotu T rozdělení o uvedeném počtu stupňů volnosti.

Příklad dvouvýběrového t-testu

Mužové (smyšleného) kmene Orlů mají podle literatury mít stejnou průměrnou výšku jako mužové sousedního kmene Býků. Antropolog, který oba kmeny navštívil, změřil výšky deseti náhodně vybraných mužů každého kmene. V pořadí velikosti to byli muži vysocí u Orlů 153, 156, 156, 161, 166, 167, 168, 174, 175 a 181 cm a u Býků 160, 165, 168, 170, 171, 174, 176, 181, 181 a 183 cm. Na 5% hladině významnosti máme testovat, zda údaj v literatuře odpovídá antropologovým měřením za předpokladu, že variabilita výšek obou skupin je stejná.

Opět využijeme software R a zadáme příkazy:

orlove <- c(153, 156, 156, 161, 166, 167, 168, 174, 175, 181)
byci <- c(160, 165, 168, 170, 171, 174, 176, 181, 181, 183)
t.test(orlove, byci, var.equal = TRUE)

Po spuštění testu dostaneme výstup:

    Two Sample t-test
data:  orlove and byci
t = -1.9114, df = 18, p-value = 0.07201
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.1137829   0.7137829
sample estimates:
mean of x mean of y 
    165.7     172.9 

V tomto případě je p-hodnota rovna 0.07201, což je více než 0,05 - hypotézu o stejnosti středních hodnot výšek mužů obou kmenů tedy nezamítáme. Testová statistika je rovna -1,9114 při 18 stupních volnosti (18 je počet měření snížený o dvě). Konfidenční interval rozdílu středních hodnot výšek Orlů a Býků je přibližně -15,1 až 0,7 cm, a nemožnost zamítnout nulovou hypotézu plyne i z toho, že tento interval obsahuje nulu, tj. možnost, že mezi středními výškami není žádný rozdíl. Poslední řádek výstupu obsahuje aritmetické průměry výšek změřených zástupců obou kmenů.

Poznámky

Předpoklad, že oba výběry pocházejí z normálního rozdělení, nemusí být za každou cenu dodržen. T-test totiž pracuje s průměry obou výběrů, a ty již při rozsahu výběru v řádu desítek mají přibližně normální rozdělení díky centrální limitní větě za předpokladu, že data pocházejí z poměrně málo šikmých a špičatých rozdělení (výchozí rozdělení samozřejmě musí plnit předpoklady centrální limitní věty, jinak aritmetické průměry k ničemu nekonvergují, a nelze tedy provádět jejich statistické testování).

Před provedením t-testu by mělo být prověřeno, že oba náhodné výběry mají stejný rozptyl. K tomu může posloužit F-test. Existují i modifikace t-testu pro výběry s různými rozptyly.

Pokud je rozsah výběru (resp. obou výběrů) velký (v řádu stovek a víc), lze místo kritických hodnot T rozdělení použít kritické hodnoty normálního rozdělení, tedy vlastně provést z-test.

Je-li skupin hodnot (tj. náhodných výběrů) víc než dva, bývá obvykle vhodnější provést simultánní porovnání pomocí analýzy rozptylu než opakované t-testy po dvojicích.

Literatura

Anděl, J.: Matematická statistika, SNTL 1985.

Zdroj