Zavádějící faktor

Ilustrace jednoduché zavádějící proměnné. Jinými slovy, Z je příčinou X i Y.

Ve statistice zavádějící proměnná (také matoucí proměnná nebo zavádějící faktor, anglicky confounding variable) je proměnná z(t), která ovlivňuje jak nezávislou proměnnou x(t), tak závislou proměnnou y(t), a tím vytváří korelaci mezi proměnnými x(t) a y(t), kterou může naivní analýza označit za důkaz příčinného vztahu mezi x(t) a y(t) (tj. vést k chybnému závěru, že x(t) ovlivňuje y(t), nebo naopak). Tato hypotetická příčinná vazba je ovšem falešná a skutečné vysvětlení korelace spočívá v existenci zavádějící proměnné z(t), jejíž změna je příčinou změn jak x(t), tak y(t).

Jinak řečeno, existence zavádějících proměnných je matematické vyjádření faktu, že korelace neimplikuje kauzalitu. Detailní rozbor možných zavádějících proměnných a jejich vlivu na pozorované korelace je důležitý pro získání věrohodných závěrů o příčinných vztazích (například závěrů typu „lék A pomáhá pacientům se symptomy B“), protože existence korelací je prakticky jediným způsobem, jak se dovtípit skutečných příčinných vztahů, ale příliš jednoduché uvažování postavené na empirických datech je často naivní a jeho závěry jsou často chybné.

Příklad

Pokud žáci různých tříd základní školy dostanou stejný test, bude úspěšnost kladně korelovat s jejich tělesnou hmotností. Bez porozumění toho, že "korelace neimplikuje kauzalitu", by to někdo mohl označit za důkaz, že obezita způsobuje dobré studijní výsledky. Ve skutečnosti však vyšší hmotnost i vyšší úspěšnost silně koreluje s věkem (který je příčinou obojího).

To byl křiklavý příklad; v reálných situacích může být obtížnější tuto klamnou "zdánlivou kauzalitu" odhalit. Např. během covidové pandemie v mnoha nemocnicích převládali pacienti s covidem-19, kteří byli očkovaní, a jejich procento dokonce často převyšovalo procento očkovaných v celé populaci.

Naivní závěr je, že očkování zvyšuje pravděpodobnost hospitalizace. V tomto případě ovšem tento závěr je chybný a skutečné hlavní vysvětlení se odvíjí od zavádějící proměnné „věk“, která je korelována jak s pravděpodobností očkování, tak s pravděpodobností hospitalizace. Starší lidé mají vyšší riziko hospitalizace; zároveň měli vyšší pravděpodobnost, že už byli očkováni, a proto množina lidí, kteří jsou zároveň staří a očkovaní, hraje rozhodující úlohu pro rozdělení hospitalizovaných na podskupiny. Alespoň částečná účinnost očkování plyne z faktu, že procento očkovaných mezi hospitalizovanými je nižší než procento očkovaných v nejstarších věkových skupinách, které nejvíce přispívají k počtům pacientů v nemocnicích.

Zdroj