- Važnost homoscedastičnosti
- Homoscedastičnost nasuprot heteroscedastičnosti
- Testovi na homoscedastičnost
- Standardizirane varijable
- Ne-grafički testovi homoscedastičnosti
- Reference
Homoscedasticity u predvidljivom statistički model nastaje ako su svi podaci skupine jednog ili više promatranja, varijance (ili nezavisni) uzorka s obzirom na nezavisne varijable ostaje konstantna.
Modeli regresije mogu biti homoscedastični ili ne, u tom slučaju govorimo o heteroscedastičnosti.
Slika 1. Pet skupova podataka i regresijski skup skupa. Varijanca u odnosu na predviđenu vrijednost jednaka je u svakoj skupini. (Upav-biblioteca.org)
Model statističke regresije nekoliko neovisnih varijabli naziva se homoscedastički, samo ako varijanta pogreške pogreške predviđene varijable (ili standardno odstupanje ovisne varijable) ostaje ujednačena za različite skupine vrijednosti objašnjenih ili neovisnih varijabli.
U pet skupina podataka na slici 1 izračunato je odstupanje u svakoj skupini s obzirom na vrijednost procijenjenu regresijom, što rezultira istim u svakoj skupini. Dalje se pretpostavlja da podaci slijede normalnu distribuciju.
Na grafičkoj razini to znači da su točke podjednako raštrkane ili raštrkane oko vrijednosti predviđene regresijskim stajanjem i da regresijski model ima istu pogrešku i valjanost za raspon varijable objašnjavanja.
Važnost homoscedastičnosti
Kako bi se ilustrirao značaj homoscedastičnosti u prediktivnoj statistici, potrebno je suprostaviti se suprotnom fenomenu, heteroscedastičnosti.
Homoscedastičnost nasuprot heteroscedastičnosti
U slučaju slike 1, na kojoj postoji homoscedastičnost, istina je da:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Gdje Var ((yi-Yi); Xi) predstavlja varijancu, par (xi, yi) predstavlja podatke iz skupine i, dok je Yi vrijednost predviđena regresijom za srednju vrijednost Xi skupine. Varijanca n podataka iz skupine i izračunava se na sljedeći način:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Naprotiv, kad se pojavi heteroscedastičnost, regresijski model možda ne vrijedi za cijelu regiju u kojoj je izračunat. Slika 2 prikazuje primjer ove situacije.
Slika 2. Skupina podataka koja pokazuje heteroscedastičnost. (Vlastita obrada)
Slika 2 predstavlja tri skupine podataka i raspoloženje skupa pomoću linearne regresije. Valja napomenuti da su podaci u drugoj i trećoj skupini disperziraniji nego u prvoj skupini. Grafikon na slici 2 također prikazuje srednju vrijednost svake grupe i njezinu bar bar ± 2, s σ standardnim odstupanjem svake grupe podataka. Treba imati na umu da je standardno odstupanje σ kvadratni korijen varijance.
Jasno je da se u slučaju heteroscedastičnosti greška procjene regresije mijenja u rasponu vrijednosti eksplanatorne ili neovisne varijable, a u intervalima gdje je ta pogreška vrlo velika, predviđanje regresije je nepouzdano ili nije primjenjivo.
U regresijskom modelu pogreške ili zaostaci (i -Y) moraju se rasporediti s jednakom varijancom (σ ^ 2) kroz interval vrijednosti nezavisne varijable. Iz tog razloga dobar regresijski model (linearni ili nelinearni) mora proći test homoscedastičnosti.
Testovi na homoscedastičnost
Točke prikazane na slici 3 odgovaraju podacima studije koja traži odnos između cijena (u dolarima) kuća kao funkcije veličine ili površine u kvadratnim metrima.
Prvi model koji se testira je linearni regresijski model. Prije svega, napominje se da je koeficijent određivanja R ^ 2 prianjanja prilično visok (91%), pa se može smatrati da je fit.
Međutim, dvije regije mogu se jasno razlikovati od grafikona prilagodbe. Jedan od njih, onaj s desne strane zatvoren u oval, ispunjava homoscedastičnost, dok regija s lijeve strane nema homoscedastičnost.
To znači da je predviđanje regresijskog modela adekvatno i pouzdano u rasponu od 1800 m ^ 2 do 4800 m ^ 2, ali vrlo je neprikladno izvan ove regije. U heteroscedastičkoj zoni ne samo da je greška vrlo velika, već se čini da i podaci slijede drugačiji trend od onog koji je predložio model linearne regresije.
Slika 3. Cijene stanova u odnosu na područje i prediktivni model linearnom regresijom, pokazujući zone homoscedastičnosti i heteroscedastičnosti. (Vlastita obrada)
Grafikon rasipanja podataka najjednostavniji je i najvidljiviji test njihove homoscedastičnosti, međutim, u slučajevima kada to nije tako evidentno kao u primjeru prikazanom na slici 3, potrebno je pribjeći grafovima s pomoćnim varijablama.
Standardizirane varijable
Da bi se odvojila područja u kojima je homoscedastičnost ispunjena, a gdje ona nije, uvode se standardizirane varijable ZRes i ZPred:
ZRes = Aps (y - Y) / σ
ZPred = Y / σ
Treba napomenuti da ove varijable ovise o primijenjenom regresijskom modelu, jer je Y vrijednost regresijskog predviđanja. Ispod je shema rasipanja ZRes vs ZPred za isti primjer:
Slika 4. Treba napomenuti da u zoni homoscedastičnosti ZRes ostaje jednoličan i mali u predikcijskom području (Vlastita razrada).
Na grafikonu na slici 4. sa standardiziranim varijablama područje gdje je zaostala greška mala i jednolika jasno je odvojeno od područja gdje to nije. U prvoj zoni je ispunjena homoscedastičnost, dok je u regiji gdje je zaostala greška vrlo promjenjiva i velika, ispunjena heteroscedastičnost.
Regresijsko prilagođavanje primjenjuje se na istu skupinu podataka na slici 3, u ovom slučaju prilagodba je nelinearna, jer korišteni model uključuje potencijalnu funkciju. Rezultat je prikazan na sljedećoj slici:
Slika 5. Nove zone homoscedastičnosti i heteroscedastičnosti u spajanju podataka s nelinearnim regresijskim modelom. (Vlastita obrada).
Na grafikonu na slici 5. treba jasno naznačiti homoscedastička i heteroscedastička područja. Također treba napomenuti da su ove zone izmjenjene u odnosu na one koje su formirane u modelu linearnog uklapanja.
Na grafikonu na slici 5 vidljivo je da čak i kada postoji prilično visok koeficijent određivanja stane (93,5%), model nije adekvatan za cijeli interval objašnjavajuće varijable, jer su podaci za vrijednosti veće od 2000 m ^ 2 predstavljaju heteroscedastičnost.
Ne-grafički testovi homoscedastičnosti
Breusch-Pagan test je jedan od nefigrafskih testova koji se najviše koristi za provjeru da li je homoscedastičnost zadovoljena ili ne.
U ovom članku neće biti sve pojedinosti ovog testa, ali njegove su temeljne karakteristike i koraci istog opisani:
- Na n podatke se primjenjuje regresijski model, a varijanca istih izračunava se s obzirom na vrijednost koja je procijenjena modelom σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- Definirana je nova varijabla ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Isti regresijski model primjenjuje se na novu varijablu i izračunavaju se njeni novi regresijski parametri.
- Određuje se kritična vrijednost Chi kvadrat (χ ^ 2), koja je polovica zbroja novih kvadrata u varijabli ε.
- Chi kvadratna tablica raspodjele koristi se uzimajući u obzir razinu značaja (obično 5%) i broj stupnjeva slobode (# regresijskih varijabli minus jedinicu) na x-osi tablice, za dobivanje vrijednosti Ploča.
- Kritična vrijednost dobivena u koraku 3 uspoređuje se s vrijednošću koja se nalazi u tablici (χ ^ 2).
- Ako je kritična vrijednost ispod vrijednosti tablice, imamo nultu hipotezu: postoji homoscedastičnost
- Ako je kritična vrijednost iznad vrijednosti tablice, imamo alternativnu hipotezu: nema homoscedastičnosti.
Većina statističkih softverskih paketa kao što su: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic i nekoliko drugih sadrži Breusch-Pagan test homoscedastičnosti. Drugi test za provjeru jednoličnosti varijance je Leveneov test.
Reference
- Box, Hunter & Hunter. (1988) Statistika za istraživače. Zamijenio sam urednike.
- Johnston, J (1989). Ekonometrijske metode, Vicens -Vives uređivači.
- Murillo i González (2000). Priručnik za ekonometriju. Sveučilište u Las Palmas de Gran Canaria. Oporavak od: ulpgc.es.
- Wikipedia. Homoscedasticity. Oporavak od: es.wikipedia.com
- Wikipedia. Homoscedasticity. Oporavilo sa: en.wikipedia.com