- Kako izračunati koeficijent određivanja?
- Ilustrativni slučaj
- Tumačenje
- Primjeri
- - Primjer 1
- Riješenje
- - Primjer 2
- Riješenje
- - Primjer 3
- Riješenje
- Fit usporedba
- Zaključci
- Reference
Koeficijent determinacije je broj između 0 i 1 koji predstavlja dio točaka (X, Y) koje slijede regresijske linije nastupu skupa podataka s dvije varijable.
Također poznat kao dobrotom dosjeda i označena s R 2. Da bi se izračunao, uzima se kvocijent između varijance podataka Ŷi procijenjene regresijskim modelom i varijancije podataka Yi koji odgovara svakom Xi podataka.
R 2 = Sy / Sy
Slika 1. Koeficijent korelacije za četiri para podataka. Izvor: F. Zapata.
Ako se 100% podataka nalazi na liniji regresijske funkcije, tada će koeficijent određivanja biti 1.
Naprotiv, ako je za skup podataka i određene fit funkcije koeficijent R 2 ispada da je jednak 0,5, onda se može reći da je u formi je 50% zadovoljavajuće ili dobro.
Slično tome, kada regresijski model prinosi R 2 vrijednosti niže od 0,5, to znači da je funkcija odabrana postavka ne prilagodi na zadovoljavajući podacima, čime je neophodno tražiti drugu funkciju podešavanja.
A kad kovarijance i koeficijent korelacije teži nuli, tada varijable X i Y u podacima nisu povezane, a time i R 2 će također imaju tendenciju da se nula.
Kako izračunati koeficijent određivanja?
U prethodnom je odjeljku rečeno da se koeficijent određivanja izračunava kvocijentom između varijanci:
-Procjenjuje se regresijskom funkcijom varijable Y
-Od varijable Yi koja odgovara svakoj od varijabli Xi od N podatkovnih parova.
Matematički rečeno, izgleda ovako:
R 2 = Sy / Sy
Ovog formule slijedi da je R 2 predstavlja udio varijance objasniti regresije. Alternativno, R 2 može se izračunati pomoću slijedeće formule, u potpunosti ekvivalent prethodnom:
R 2 = 1 - (Sε / Sy)
Gdje Sε predstavlja varijancu zaostataka εi = Ŷi - Yi, dok je Sy varijacija skupa vrijednosti Yi podataka. Da bismo odredili Ŷi primjenjuje se regresijska funkcija, što znači da potvrdimo da je Ŷi = f (Xi).
Varijanca skupa podataka Yi, s i od 1 do N, izračunava se na ovaj način:
Sy =
Zatim nastavite na sličan način za Sŷ ili Sε.
Ilustrativni slučaj
Kako bismo pokazali detalje kako se izračunava koeficijent određivanja, uzet ćemo sljedeći skup od četiri para podataka:
(X, Y): {(1, 1); (2. 3); (3, 6) i (4, 7)}.
Za ovaj skup podataka predložen je linearni regresijski stavak koji se dobiva metodom najmanje kvadrata:
f (x) = 2,1 x - 1
Primjenom ove funkcije podešavanja dobivaju se momentni:
(X, Ŷ): {(1, 1,1); (2, 3,2); (3, 5.3) i (4, 7.4)}.
Tada izračunavamo aritmetičku sredinu za X i Y:
Varijanca Sy
Sy = / (4-1) =
= = 7.583
Varijanca Sŷ
Sŷ = / (4-1) =
= = 7,35
Koeficijent određivanja R 2
R 2 = Sy / Sy = 7,35 / 7,58 = 0,97
Tumačenje
Koeficijent određivanja za ilustrativni slučaj razmatran u prethodnom segmentu pokazao se 0,98. Drugim riječima, linearno podešavanje kroz funkciju:
f (x) = 2.1x - 1
Sigurno je 98% objasniti podatke s kojima je dobiven metodom najmanje kvadrata.
Pored koeficijenta određivanja, postoji i koeficijent linearne korelacije ili poznat i kao Pearsonov koeficijent. Taj koeficijent, označen kao r, izračunava se prema sljedećem odnosu:
r = Sxy / (Sx Sy)
Ovdje brojač predstavlja kovarijanciju između varijabli X i Y, dok je nazivnik proizvod standardnog odstupanja za varijablu X i standardnog odstupanja za varijablu Y.
Pearsonov koeficijent može uzeti vrijednosti između -1 i +1. Kad je ovaj koeficijent teži na +1, postoji izravna linearna korelacija između X i Y. Ako umjesto toga ima tendenciju na -1, postoji linearna korelacija, ali kad X raste Y, opada. Konačno, to je blizu 0, nema korelacije između dvije varijable.
Treba napomenuti da se koeficijent određivanja podudara s kvadratom Pearsonovog koeficijenta, samo kad je prvi izračunat na temelju linearnog stajanja, ali ta jednakost ne vrijedi za ostale nelinearne uklapanja.
Primjeri
- Primjer 1
Skupina srednjoškolaca nastojala je odrediti empirijski zakon za razdoblje klatna kao funkciju njegove duljine. Da bi postigli ovaj cilj, oni provode niz mjerenja u kojima mjere vrijeme oscilacije klatna za različite duljine dobivajući sljedeće vrijednosti:
Duljina (m) | Razdoblje |
---|---|
0.1 | 0.6 |
0.4 | 1.31 |
0,7 | 1.78 |
jedan | 1.93 |
1.3 | 2.19 |
1.6 | 2.66 |
1.9 | 2.77 |
3 | 3.62 |
Zahtijeva se rasipanje crteža podataka i izvođenje linearnog umetanja putem regresije. Također, pokažite jednadžbu regresije i njezin koeficijent određivanja.
Riješenje
Slika 2. Grafikon rješenja za vježbu 1. Izvor: F. Zapata.
Može se primijetiti prilično visok koeficijent određivanja (95%), pa bi se moglo pomisliti da je linearno spajanje optimalno. Međutim, ako se točke gledaju zajedno, čini se da imaju tendenciju da zakrivaju prema dolje. Taj detalj nije razmatran u linearnom modelu.
- Primjer 2
Za iste podatke u primjeru 1 napravite crtež rasipanja podataka. Tom se prilikom, za razliku od primjera 1, zahtijeva regresijsko podešavanje koristeći potencijalnu funkciju.
Slika 3. Grafikon rješenja za vježbu 2. Izvor: F. Zapata.
Također pokazuju fit funkciju i njegov koeficijent determinacije R 2.
Riješenje
Potencijalna funkcija ima oblik f (x) = Ax B, gdje su A i B konstante koje su određene metodom najmanje kvadrata.
Prethodna slika prikazuje potencijalnu funkciju i njene parametre, kao i koeficijent određivanja s vrlo visokom vrijednošću od 99%. Primijetite da podaci slijede zakrivljenost linije trenda.
- Primjer 3
Upotrebom istih podataka iz primjera 1 i primjera 2, izvedite polinom drugog stupnja. Pokazuje grafikon, koji se navlači polinom, a odgovarajući koeficijent determinacije R 2.
Riješenje
Slika 4. Grafikon rješenja za vježbu 3. Izvor: F. Zapata.
Sa polinomom drugog stupnja možete vidjeti liniju trenda koja se dobro uklapa u zakrivljenost podataka. Također, koeficijent određivanja je iznad linearnog stajanja i ispod potencijalnog fitanja.
Fit usporedba
Od tri prikazana podudaranja, onaj s najvišim koeficijentom određivanja potencijalno je pogodan (primjer 2).
Potencijalno podudaranje podudara se s fizičkom teorijom klatna, koja, kao što je poznato, uspostavlja da je razdoblje klatna proporcionalno kvadratnom korijenu njegove duljine, pri čemu je konstanta proporcionalnosti 2π / √g gdje je g ubrzanje gravitacije.
Ova vrsta potencijalnog uklapanja ne samo da ima najveći koeficijent determiniranosti, već eksponent i konstanta proporcionalnosti odgovaraju fizičkom modelu.
Zaključci
- Podešavanje regresije određuje parametre funkcije koja želi objasniti podatke koristeći metodu najmanje kvadrata. Ova metoda sastoji se od minimiziranja zbroja kvadratne razlike između vrijednosti Y podešavanja i Yi vrijednosti podataka za Xi vrijednosti podataka. Ovo određuje parametre funkcije podešavanja.
-Kako smo vidjeli, najčešća funkcija prilagodbe je linija, ali nije jedina, budući da podešavanja mogu biti i polinomna, potencijalna, eksponencijalna, logaritamska i druge.
-U svakom slučaju, koeficijent određivanja ovisi o podacima i vrsti podešavanja i pokazatelj je dobrote primijenjene prilagodbe.
-Na kraju, koeficijent određivanja označava postotak ukupne varijabilnosti između Y vrijednosti podataka u odnosu na Ŷ vrijednost prilagodbe za X dani.
Reference
- González C. Opća statistika. Oporavak od: tarwi.lamolina.edu.pe
- IAKS. Aragonski institut zdravstvenih znanosti. Oporavilo od: ics-aragon.com
- Salazar C. i Castillo S. Osnovna načela statistike. (2018.). Oporavak od: dspace.uce.edu.ec
- Superprof. Koeficijent određivanja. Oporavak od: superprof.es
- USAC. Priručnik s opisnom statistikom. (2011). Oporavak od: statistics.ingenieria.usac.edu.gt.
- Wikipedia. Koeficijent određivanja. Oporavak od: es.wikipedia.com.