"Слочаенос? Не мисла!"

Разликата между корелация и причинно-следствена връзка

Ваня Милева Последна промяна на 23 април 2015 в 07:53 48410 6

Виктор Минеев "Корабът на глупците"

Всичко е статистика

Замисляли ли сте се на базата на какво взимаме нашите решения? Може да ви се стори странно, но има само два начина: напълно случаен - все едно подхвърляме монета и гледаме какво ще се падне - "ези" или "тура" или на базата на статистиката.

Ще кажете, че решението се основава на нашата опитност, експертност, казваме "аз знам, виждал съм го много пъти". Всъщност, това е статистика. Или "знам, че ще е така, защото съм го учил в училище, университета". Това означава, че става дума за някои закони, които емпирично (чрез експерименти) са потвърдени от науката. Но резултатите от научните опити се обобщават с методите на статистиката.

Корелацията

Хората, които ползват социалните мрежи, не може да не са срещали крилатата фраза "Слочаенос? Не мисла!", обобщаваща иронично повърхностното отношение към един термин от статистиката - корелацията.

Зад думата "корелация" се крие просто "съотношение, взаимовръзка". Например корелация имаме между продажбите на чадъри и данните за валежи или  между затлъстяването у учениците и ръста на сърдечно-съдовите заболявания на тази възраст или часовете учене и оценката за изпита.

Корелацията изразява степента на зависимост между две или повече променливи една от друга и варира от 1 до -1 и за линейна зависимост се изразява с коефициента на корелация на Пиърсън r. Изчислява се с тази само наглед сложна формула, която лесно обаче се използва, например с Excel.


Ако коефициентът на корелация е r = 1 (пълна положителна корелация), това означава, че и двете променливи пропорционално се променят в едно и също направление.

Когато коефициентът на корелация е r = 0 - между променливите няма връзка, а ако коефициентът на корелация е r = -1, т.е. пълна отрицателна корелация, това означава, че и при нарастване на едната променлива, пропорционално намалява другата.

Примери на разпределение: A) силна положителна корелация, B) силна отрицателна корелация, C) нулева корелация, D) нелинейна корелация.

Илюзорната корелация

Илюзорната корелация, т.е. да виждаме връзка между явленията там, където ги няма, е психологически феномен, който се среща в почти всички хора, точно както почти всички хора са податливи на оптичните илюзии.

Терминът "Илюзорна корелация" първоначално е бил въведен от Лорън Чапман (Loren J. Chapman) през 1967 година. Той провежда изследване като проектира на екран 12 двойки думи, като например "бекон - яйца" , като двойките се съставят така: първата дума е една от следните: бекон, лъв, пъпки, лодка, а втората - от следните три думи: яйца, тигър, тетрадка.

Тези двойки думи били показвани много пъти на случаен принцип, но всяка двойка е представена от равен брой пъти. Когато участниците били помолени да оценят честотата на показване на всяка двойка думи, те имали илюзията, по думите на автора на експеримента поради "силни словесни асоциации", че двойките думи: "бекон - яйце" (асоциация на съприкосновение) и "лъв - тигър" (асоциация по сходство) са чували много по-често.

Всички сме подвластни на този феномен по една или друга причина да виждаме връзки между параметри, свойства, явления там, където ги няма.

Корелацията е необходимо, но недостатъчно условие за причинно-следствената връзка

Така, ако промяната на една променлива е съпроводена с промяна на друга, тогава можем да говорим за корелация на тези променливи.

Но корелацията е необходимо, но недостатъчно условие за причинно-следствената връзка. Какво означава това:

  • Наличието на корелация между две променливи не доказва нищо за причинно-следствената връзка между тях, но това дава основание да се разгледа такава хипотеза.
  • Липсата на корелация изисква да се отхвърли хипотезата за съществуването на причинно-следствена връзка между променливите.

Например, твърдението, че електронните четци предизвикват рак на простатата, не може да бъде вярно, защото едновременно с при драстично бързото разпространение на Amazon Kindle, броят на случаите на рак на простатата показва стабилно равномерно ниво, без подобни скокове. Това доказва, че те не причиняват това заболяване. Щом няма корелация, няма причинно-следствена връзка. Обратното обаче не е вярно. Дори и да имаше корелация, т.е. скокообразно увеличение на заболяванията, това още не доказва, че са следствие от употребата на електронните четци.

Каква е връзката между броя на пиратите и глобалното затопляне?

Има един сайт, който е събрал куриозни корелации и показва, че не трябва да се бърза да се вадят изводи за причинно-следствени връзки на базата на статистически данни.

Ето един забавен пример от там:

Вносът в САЩ на суров нефт от Норвегия корелира с броя на шофьорите, убити при сблъсък с влакове

1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
Вносът в САЩ на суров нефт от Норвегия
Милиони барела  (Dept. of Energy)
96 110 103 127 60 54 43 36 20 11 22
Шофьори убити при сблъсък с железопътни влакове
Смъртните случаи (САЩ) (CDC)
76 74 76 87 66 59 63 60 55 52 46
Корелация: 0.954509

В сайта има изобилие от подобни силни корелации с висок коефициент: 

  • r = 0.97 между броя на хората, които са починали от оплетени спални чаршафи и общите приходи, генерирани от ски-съоръженията в САЩ
  • r = 0.79 между броя на нетърговски космически стартове по света и присъдените докторски титли по социология за САЩ
  • r = 0.95 между броя на хората, удавили се, падайки от рибарска лодка и броя на браковете в Кентъки

Две величини може да се движат успоредно, без да имат някаква връзка помежду им както показва и този сайт, който ни поднася с корелацията между броя на пиратите и глобалното затопляне.  

Не толкова комични връзки

Да се търси причинно-следствена връзка в по-предишните примери на корелации е комично, но това не винаги е толкова очевидно. Ето няколко примера:

  • Статистиката показва, че по-голямата част от пътнотранспортни произшествия са с коли, които се движат с умерена скорост, а само малък част - с автомобили със скорост над 150 км/ч. Означава ли това, че карането с висока скорост по-безопасно? Не, разбира се. Тази статистика няма отношение към причините. Повечето хора карат колите си с умерена скорост и затова с тях стават по-голямата част от злополуките.
  • Статистиката показва, че смъртността от туберкулоза в Аризона е по-висока, отколкото в другите щати. Означава ли това, че климатът в Аризона благоприятства развитието на туберкулозния бацил? Напротив, климатът на Аризона е изключително полезен за пациенти с туберкулоза и те с хиляди се стичат към Аризона. Това естествено води до увеличаване на смъртността от туберкулоза в щата.
  • Проучвания показват, че в някои градове се наблюдава рязко увеличение на броя на смъртните случаи от сърдечна недостатъчност, а също и на консумацията на бира. Може ли консумацията на бира да е предизвикала вероятността от сърдечен удар? Увеличението на двата показателя се дължи на бързото нарастване на населението на града. Така за причината на увеличаването на смъртните случаи може да се счита и увеличеното потребление на кафе, чай, увеличаването на броя на хората, играещи табла, гледащи телевизия, употребяващи дезодоранти и т.н.

Статистиката никога нищо не доказва, за доказателства се използват други методи. За да се установим причинно-следствена връзка, е необходимо да се излезе извън рамките на статистиката, да използваме логика, научни знания. 

Статистиката не доказва нищо

Ако събитие А настъпва след събитие B, това означава само това: събитие A се появява след събитието B и нищо повече.

Но у нас е заложено желанието да построим ясна причинно-следствена връзка между тези събития. Тази връзка може да съществува, а може и да не съществува. Идентифицирането на причините и следствията, доказателствата са  проблем, много по-сложен, отколкото обобщенията на статистиката, а болшинството от научните открития са на базата на статистически анализ.

Подводните камъни в статистическия анализ

Както твърдят някои психолози, всички сме подвластни на илюзиите, а понякога неволно или умишлено (поради желание да се докаже нещо) се прави неправилно тълкувания на данните.

Най-честите статистически проблеми са:

  • Данните са недостатъчно

Много важно е данните, на базата на които се установява корелацията да са достатъчно, за да се очертае добре корелацията. Миналата година бе оповестено за откриването на гравитационните вълни, но по-късно се оказа, че съобщение е направено преждевременно, защото не били отчетени всички данни.

  • Сравняваните групи не са равнопоставени.

Корелацията може да дава заблуждаващи данни заради липсата на еднородност в извадката. Да си представим, че извадката се състои от две еднородни групи. Например, ние искаме да разберем връзката (корелацията) пол/ниво на екстровертност. Ако изберем за групата на мъжете математици, а за групата на жените - журналистки, няма да е изненадващо, ако получим линейна корелация между пола и нивото на екстровертност-интровертност: повечето мъже са интроверти, а по-голямата част от жените - екстроверти.

  • Взема се част от информацията, която по подкрепя желано заключение

Когато изобилие от данни, от тях може да се вземат такива части, които потвърждават нещо, което е съвсем различно от извода, който би се извел от пълния набор данни. Понякога това се прави неволно, но понякога и умишлено.

Пример за такава манипулация е графиката (горе) , която показва двете интерпретации на данните за глобалното затопляне. Ако се подбират части от данните, това може да доведе до погрешни заключения. Скептиците виждат периоди на захлаждане (синьо), догато данните наистина показват дългосрочно затопляне (зелено).

Определянето на корелации е лесна процедура - за това си има компютърни програми, но установяването на причинно-следствени връзки се прави от хора и зависи от тяхната логика, знания, опит, добросъвестност, а и предразсъдъци. На заблужденията по отношение на тези връзки са построени много от псевдонауките и теориите на конспирации.

Източници:

Clearing up confusion between correlation and causation, Jonathan Borwein, Michael Rose

Aha! Gotcha,Statistics, Martin Gardner

The Psychology of Prejudice: Stereotypes from Direct Experience,  S. Plous

Explorations in statistics: correlation, Douglas Curran-Everett

Surprious Correlations

Невероятное очевидное, Сергей Белков

Иллюзорная корреляция, Александр Невеев

О чем говорят цифры: Как понимать и использовать данные, Томас Дэвенпорт, Ким Джин Хо

Экспериментальная психология: Корреляционное исследование, В. Н. Дружинин

Как рассчитать коэффициент корреляции в Excel

Най-важното
Всички новини
За писането на коментар е необходима регистрация.
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!

14.05 2015 в 15:24

На времето като почнахме статистиката професора ни каза две забавни смешки:
Направили корелация между популацията на щъркелите в забравих кой си щат и броя на родените бебета. Коефициентът бил много висок. А после разправяй че щъркелите не носят бебетата... :)
След това ни каза една мисъл на Чърчил - градация на заблудата във възходящ ред: Лъжа, Нагла лъжа... Статистика!
Като цяло въведението беше точно в духа на статията.

29.04 2015 в 17:13

Хахаха! Куртенков как яко сам си цъка плюсовете! Жалка картинка просто!

25.04 2015 в 01:56

Андрей Куртенков, дори да си прав, каква е логиката да е 'законно' (щом не е незаконно) насилието над животните? Не включва селскостопански животни и така нататък, т.е. става въпрос само за безсмисленото измъчване на друго същество. Как точно за това се хвана да протестираш?!

24.04 2015 в 15:29

Към Андрей Куртенков: И само защото си научил наизуст 5 формули (евентуално) се мислиш за достатъчно компетентен да отричаш цяла наука (с която явно не си и запознат)?
Е те тази причинно-следствена връзка искам да ми я поанализираш малко… Каква е причината да отричаш нещо, само защото не си наясно с него… Би ми било интересно да прочета размислите ти по този въпрос, защото това за инкриминирането на насилието над животни ама хич не ми беше интересно – рядка боза просто ръсиш, а и не е вярно: никой не изисквал забрана за насилието над животни в корелация със серийни убийци и ако ти си водел такъв тип спор с някой на по биричка в парка или в някой тъп форум, не разбирам защо имаш да занимаваш хората с личните си проблеми…
Иначе статията е сравнително забавна на фона на нивото на този сайт. Т'ва е.

23.04 2015 в 18:40

Примерът с глобалното затопляне е глупав, защото няма противници на климатичните промени, а на твърдението, че са предизвикани от човека. Точно, защото се намесва "псевдостатистиката", където се твърди, че има връзка между произведения от човека CO2, времето в конкретен район, топене на ледници и т.н. Те вероятно може да са свързани със средно-годишната температура, но не могат да се свържат с човека, освен такива измислени корелации, които дори не са с висок коефициент. Има множество доказателства, които оборват тези твърдения, но това прави цялата драма около "Затоплянето" безмислена, а хората обичат драми и да се борят със справедливостта и да защитават "значими" каузи.

23.04 2015 в 14:25

Много добър и полезен материал. Не мога да се въздържа да не спомена прословутата корелация (която беше и довод номер едно за промените в НК, станали популярни като "инкриминиране на насилието над животни"), според която серийните убийци винаги са упражнявали преди това насилие над животни. Напразно, години наред, на най-различни форуми (включително и в НС) съм се опитвал да обяснявам защо това всъщност не е никаква корелация (нещо повече - ако включим в нея колачите на животни - то ще се получи обратна корелация - че насилието над животни всъщност ни прави по-хуманни към хората), а дори и да беше - по същата логика трябва да забраним консумацията на краставици, защото със сигурност всеки сериен убиец преди да стане такъв е ял краставици.
Иначе, имам дребни забележки по текста, но те не променят основното отлично впечатление. Примерно - дадената формула важи само за корелация между количествени признаци, а примера с електронните четци е неудачен, защото все още не е минало достатъчно дълго време, за да се прояви евентуален техен ефект върху честотата на раковите заболявания. Освен това, не е достатъчно само да сметнем коефициента от формулата - трябва да сметнем и неговото ниво на достоверност, което става по-сложно, но пък в наши дни специализираните програми ни го дават веднага.
По-обстойно внимание заслужава увода - съмнявам се дали е точен - но при всимки случаи това е друга тема. Аз съм склонен да формулирам цялото научно познание изобщо, като процес на формулиране на причинно-следстевни връзки (точно затова и отричам правото на психологията да се нарича наука - понеже там съвсем произволно правят каквито им хрумне причинно-следствени връзки - почти като в теологията).
Също така, като голям фен на Р.А.Фишер, смятам, че в една такава статия той трябва да бъде споменат задължително; най-малкото заради знаменитите му изчисления, с които иронизира корелацията между пушенето и рака на белите дробове - в които показва че същата по величина е и корелацията между вноса на юбълки и бройката на разводите. Но и въобще, този начин на мислене, който в случая демонстрира авторката и който е толкова лесен за разбиране и труден за налагане в обществените нрави, всъщност е наложен в науката именно от Фишер.