Współautorem wpisu jest Mateusz Krzysztoń*.
Ludzie analizują problem przyczynowości od najdawniejszych czasów. Wystarczy przypomnieć anegdoty o Archimedesie, który wyskoczywszy z wanny wybiegł na miasto, by oznajmić odkrycie prawa wyporu, czy też o Izaaku Newtonie, któremu spadające jabłko nasunęło przypuszczenie o istnieniu siły ciążenia. Badanie przyczynowości jest próbą zrozumienia tego, jak działa świat. Co więcej, odkrycia w tej kwestii pozwalają nam na stawianie prognoz. Jeżeli znamy przyczynę - możemy próbować przewidzieć skutek.
Bardziej formalnie możemy zdefiniować przyczynowość jako związek, który występuje pomiędzy dwoma zmiennymi losowymi, przy czym jedna ze zmiennych wyznacza wartość drugiej zmiennej.
Nie jest to jednak to samo, co korelacja. W przypadku korelacji dane kategorie są ze sobą powiązane statystycznie, współwystępują, jednak to nie wynika z tego, że jedna wpływa na drugą. Bardzo często popełniamy jednak ten błąd i utożsamiamy korelację z przyczynowością. Aby zilustrować tę różnicę przytoczmy następujący przykład:
dźwięk dworcowego zegara wybijającego godzinę pierwszą jest niezwykle silnie skorelowany z odjazdem pociągu o 1:00 ze stacji, nie jest on jednak żadną przyczyną ruchu - i odwrotnie, odjazd pociągu nie jest przyczyną dźwięku.
Albo inny przykład z Wikipedii:
Wśród statystyków jako przykład podawana jest anegdota o tym, że wykryto istotną statystycznie dodatnią zależność pomiędzy liczbą bocianów przypadających na km2 w danym skupisku ludzkim, a przyrostem naturalnym na tym obszarze. Oczywiście nie dowodzi to, że bociany przynoszą dzieci. Na wsi jest średnio większy przyrost naturalny i czasem żyją tam bociany. W mieście przyrost jest mniejszy i nie ma bocianów. Istnienie trzeciej zmiennej – miasto / wieś, skorelowanej zarówno z liczbą bocianów jak i z przyrostem naturalnym powoduje powstanie zależności także tamtych dwóch zmiennych.
Wiele innych, podobnych do tego przykładów możemy znaleźć na stronie Spurious Correlations (ang. pozorne korelacje). Dodatkowo możemy samodzielnie odkrywać korelacje pomiędzy różnymi kategoriami. Wybrane z nich:
- korelacja między konsumpcją sera (per capita) a liczbą zgonów z powodu splątania we własnej pościeli (współczynnik korelacji wynosi 0,95).
- korelacja między wydatkami na naukę, badania kosmiczne i technologię a ceną bananów (współczynnik korelacji 0,94)
- korelacja między ilością filmów w których gra Nicholas Cage, a liczbą zgonów poniesionych przez pasażerów helikopterów (współczynnik korelacji -0,83)
- wydatkami na utrzymanie zwierząt domowych a liczbą prawników w Kalifornii (współczynnik korelacji 0,998)
Powiązane posty:
* Mateusz Krzysztoń jest doktorantem na Wydziale Ekonomicznym UMCS. Mail: Mateusz_Krzyszton@wp.pl
Kto pytal
OdpowiedzUsuń