- Kako izračunati koeficijent korelacije?
- Kovarancija i varijanca
- Ilustrativni slučaj
- Covariance Sxy
- Standardno odstupanje Sx
- Standardno odstupanje Sy
- Koeficijent korelacije r
- Tumačenje
- Linearna regresija
- Primjer
- Reference
Koeficijent korelacije u statistici je pokazatelj da mjere tendencija dvije kvantitativne varijable X i Y imaju ravnu ili proporcionalni odnos između njih.
Parovi varijabli X i Y općenito su dvije karakteristike iste populacije. Na primjer, X može biti osoba visine i Y njegova težina.

Slika 1. Koeficijent korelacije za četiri podatkovna para (X, Y). Izvor: F. Zapata.
U ovom slučaju, koeficijent korelacije ukazuje na to postoji li ili ne postoji trend prema proporcionalnom odnosu između visine i težine u određenoj populaciji.
Pearsonov koeficijent linearne korelacije označen je malim slovom r, a njegove minimalne i maksimalne vrijednosti su -1 i +1.
Vrijednost r = +1 ukazuje da su skupovi parova (X, Y) savršeno usklađeni i da kada X raste, Y će rasti u istom omjeru. S druge strane, kad bi se dogodilo da je r = -1, skup parova također bi se savršeno poravnao, ali u ovom slučaju kada se X povećava, Y se smanjuje u istom omjeru.

Slika 2. Različite vrijednosti koeficijenta linearne korelacije. Izvor: Wikimedia Commons.
S druge strane, vrijednost r = 0 ukazuje da ne postoji linearna korelacija između varijabli X i Y. Dok vrijednost r = +0.8 ukazuje na to da parovi (X, Y) imaju tendenciju grupiranja na jednoj strani i još jedan određeni redak.
Formula za izračunavanje koeficijenta korelacije r je sljedeća:

Kako izračunati koeficijent korelacije?
Koeficijent linearne korelacije je statistička količina koja je ugrađena u znanstvene proračune, većinu proračunskih tablica i statističke programe.
Međutim, prikladno je znati kako se primjenjuje formula koja ga definira, a za to će biti prikazan detaljan izračun, izveden na malom skupu podataka.
I kao što je rečeno u prethodnom odjeljku, koeficijent korelacije je kovarijans Sxy podijeljen s proizvodom standardnog odstupanja Sx za varijable X i Sy za varijablu Y.
Kovarancija i varijanca
Kovarijancija Sxy je:
Sxy = / (N-1)
Gdje zbroj ide od 1 do N parova podataka (Xi, Yi).
Sa svoje strane, standardno odstupanje za varijablu X kvadratni je korijen varijancije skupa podataka Xi, s i od 1 do N:
Sx = √
Slično tome, standardno odstupanje za varijablu Y je kvadratni korijen varijance skupa podataka Yi, s i od 1 do N:
Sy = √
Ilustrativni slučaj
Kako bismo detaljno pokazali kako izračunati koeficijent korelacije, uzet ćemo sljedeći skup od četiri para podataka
(X, Y): {(1, 1); (2. 3); (3, 6) i (4, 7)}.
Prvo izračunavamo aritmetičku sredinu za X i Y, kako slijedi:
Tada se izračunavaju preostali parametri:
Covariance Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Standardno odstupanje Sx
Sx = √ = √ = 1,29
Standardno odstupanje Sy
Sx = √ =
√ = 2,75
Koeficijent korelacije r
r = 3,5 / (1,29 * 2,75) = 0,98
Tumačenje
U skupu podataka iz prethodnog slučaja opaža se snažna linearna korelacija između varijabli X i Y, što se očituje kako u dijagramu rasipanja (prikazano na slici 1), tako i u koeficijentu korelacije, što daje a vrijednost prilično bliska jedinstvu.
Što je koeficijent korelacije bliži 1 ili -1, to više smisla odgovara podacima na liniju, rezultat linearne regresije.
Linearna regresija
Linija linearne regresije dobivena je metodom najmanje kvadrata. u kojem su parametri regresijske crte dobiveni iz minimiziranja zbroja kvadrata razlike između procijenjene vrijednosti Y i Yi podataka N.
S druge strane, parametri a i b regresijske linije y = a + bx, dobiveni metodom najmanje kvadrata, su:
* b = Sxy / (Sx 2) za nagib
* a =
Podsjetimo da je Sxy gore definirana kovarijanca, a Sx 2 je varijanca ili kvadrat gornjeg standardnog odstupanja.
Primjer
Koeficijent korelacije koristi se za utvrđivanje postoji li linearna korelacija između dvije varijable. Primjenjivo je kada su varijable koje se proučavaju kvantitativne i, nadalje, pretpostavlja se da slijede normalnu distribuciju tipa.
Dolje imamo ilustrativni primjer: mjera stupnja pretilosti je indeks tjelesne mase, koji se dobiva dijeljenjem težine osobe u kilogramima s visinom kvadrata osobe u kvadratnim metrima.
Želite znati postoji li jaka povezanost između indeksa tjelesne mase i koncentracije HDL kolesterola u krvi, izmjerena u milimolama po litri. U tu svrhu provedeno je istraživanje sa 533 osobe, što je sažeto u sljedećem grafikonu, u kojem svaka točka predstavlja podatke jedne osobe.

Slika 3. Studija BMI i HDL kolesterola u 533 bolesnika. Izvor: Aragonski institut zdravstvenih znanosti (IACS).
Pažljivo promatranje grafikona pokazuje da postoji određeni linearni trend (nije jako izražen) između koncentracije HDL kolesterola i indeksa tjelesne mase. Kvantitativna mjera ovog trenda je koeficijent korelacije, koji se u ovom slučaju pokazao r = -0,276.
Reference
- González C. Opća statistika. Oporavak od: tarwi.lamolina.edu.pe
- IAKS. Aragonski institut zdravstvenih znanosti. Oporavilo od: ics-aragon.com
- Salazar C. i Castillo S. Osnovna načela statistike. (2018.). Oporavak od: dspace.uce.edu.ec
- Superprof. Koeficijent korelacije. Oporavak od: superprof.es
- USAC. Priručnik s opisnom statistikom. (2011). Oporavak od: statistics.ingenieria.usac.edu.gt
- Wikipedia. Pearsonov koeficijent korelacije. Oporavak od: es.wikipedia.com.
