- Primjeri
- Klasifikacija kategorijskih varijabli
- Nominalne kategorije
- Ordinal kategoričan
- Binarne kategorije
- Statistika s kategorijskim varijablama
- Grafički prikaz kategorijskih varijabli
- Riješene vježbe
- Vježba 1
- Primjer 2
- Primjer 3
- Reference
Kategorički varijabla je ona koristi u statistici dodijeliti nisu numeričke ili kvalitativno svojstvo ili imovine nekog objekta, pojedinca, entiteta, stanja ili postupka. Moguće je definirati sve vrste kategorijskih varijabli prema svakoj potrebi.
Primjeri kategorijskih varijabli su: boja, spol, krvna grupa, bračni status, vrsta materijala, oblik plaćanja ili vrsta bankovnog računa, a koriste se svakodnevno.
Slika 1: Boja je kategorična varijabla. Izvor: pixabay
Navedene su varijable, ali njihove moguće vrijednosti su kvalitativne, to jest, kvalitete ili karakteristike, a ne brojčane mjere. Na primjer, moguće vrijednosti za promjenjivi spol su: muško, h zagrljaj.
Kada se ova varijabla pohrani u računalni program, ona se može deklarirati kao tekstualna varijabla, a jedine prihvaćene vrijednosti bit će one koje su već imenovane: Male, Female.
Međutim, isti varijabilni spol može se deklarirati i pohraniti kao cijeli broj ako je muško dodijeljeno 1, a ženski dodijeljena vrijednost 2. Iz tog razloga se kategoričke varijable ponekad nazivaju nabrojanim tipom.
Glavna karakteristika kategorijskih varijabli je da za razliku od ostalih varijabli, poput kontinuiranih i diskretnih varijabli, nije moguće napraviti aritmetiku s njima. Međutim, s njima se može napraviti statistika, kao što ćemo vidjeti kasnije.
Primjeri
Primjetite sljedeće primjere kategorijskih varijabli i njihove moguće vrijednosti:
- Group_Sanguíneo, raspon vrijednosti: A, B, AB, O
- Civil_Status, kategoričke vrijednosti: slobodni (A), oženjen (B), udovac (C), razveden (D).
- Tipo_de_Material, Kategorije ili vrijednosti: 1 = Drvo, 2 = Metal, 3 = Plastika
-Form_of_Payment, Vrijednosne papire ili kategorije: (1) Gotovina, (2) Dug, (3) Prijenos, (4) Kredit
U prethodnim je primjerima jedan broj povezan sa svakom kategorijom na potpuno proizvoljan način.
Tada bi se moglo pomisliti da ga ova proizvoljna numerička asocijacija čini ekvivalentnom diskretnom kvantitativnom varijablom, ali nije, jer se aritmetičke operacije s tim brojevima ne mogu.
Za ilustraciju ideje, u varijabli Form_of_Payment, operacija zbroja nema smisla:
(1) gotovina + (2) zaduženje nikada neće biti jednako (3) prijenos
Klasifikacija kategorijskih varijabli
Rangiranje se temelji na tome imaju li ili imaju implicitnu hijerarhiju ili je broj mogućih ishoda veći od dva ili dva.
Kategorična varijabla sa samo jednim mogućim ishodom nije varijabla, ona je kategorična konstanta.
Nominalne kategorije
Kad ih se ne može predstaviti brojem ili imati bilo koji redoslijed. Na primjer, varijabla: Type_of_Material, ima nazivne vrijednosti (drvo, metal, plastika), nemaju hijerarhiju ili redoslijed, čak i kada je svakom odgovoru ili kategoriji dodijeljen proizvoljan broj.
Ordinal kategoričan
Varijabla: Akademska_izvođenje
Nominalne vrijednosti: visoka, srednja, niska
Iako vrijednosti ove varijable nisu numeričke, imaju implicitni red ili hijerarhiju.
Binarne kategorije
To su nominalne varijable s dva moguća odgovora, na primjer:
-Promjenjivo: odgovor
-Nominalne vrijednosti: Točno, Lažno
Imajte na umu da varijabla Response nema implicitnu hijerarhiju i ima samo dva moguća ishoda, pa je binarna kategorijska varijabla.
Neki autori nazivaju ovu vrstu binarnom varijablom i ne smatraju je da pripada kategorijskim varijablama koje su ograničene na one s više od tri moguće kategorije.
Statistika s kategorijskim varijablama
Statistika se može raditi s kategorijskim varijablama, iako nisu numeričke ili kvantitativne varijable. Na primjer, za poznavanje trenda ili najvjerojatnije vrijednosti kategoričke varijable uzima se način.
Način je, u ovom slučaju, najviše ponovljeni rezultat ili vrijednost kategoričke varijable. Za kategorijske varijable nije moguće izračunati ni srednju ni srednju.
Srednja vrijednost se ne može izračunati, jer ne možete napraviti aritmetiku s kategorijskim varijablama. Niti je medijan, jer kvantitativne ili kategoričke varijable nemaju redoslijed ili hijerarhiju, pa nije moguće odrediti središnju vrijednost.
Grafički prikaz kategorijskih varijabli
S obzirom na određenu kategorijsku varijablu može se naći učestalost ili broj puta s kojima se rezultat te varijable ponavlja. Ako se to učini za svaki ishod, tada se može napraviti grafikon učestalosti prema svakoj kategoriji ili ishodu.
Evo nekoliko primjera kako se kategoričke varijable mogu grafički predstaviti.
Riješene vježbe
Vježba 1
Tvrtka ima podatke o 170 zaposlenika. Jedna od varijabli koja se nalazi u ovim zapisima je: Estado_Civil. Ova varijabla ima četiri kategorije ili moguće vrijednosti:
Samac (A), oženjen (B), udovica (C), razveden (D).
Iako se radi o ne numeričkoj varijabli, moguće je znati koliko je ukupnih zapisa u određenoj kategoriji i biti predstavljeno u obliku trake, kao što je prikazano na sljedećoj slici:
Slika 2. Prikaz rezultata kategoričke varijable. Izvor: self made
Primjer 2
Trgovina obućom prati njegovu prodaju. Među varijablama koje upravljaju njihovim zapisima je boja cipela za svaki model. Varijabla:
Color_Shoe_Model_AW3
Kategoričnog je tipa i sadrži pet kategorija ili mogućih vrijednosti. Za svaku kategoriju ove varijable ukupan je broj prodaje i utvrđuje se njihov postotak. Rezultati su prikazani na grafikonu sljedeće slike:
Slika 3. Kategorijska varijabla Boja _Shoe. U ovoj varijabli način je bijeli. Izvor: self made.
Tada se može reći da je AW3 model cipela koji je u modi, a onaj koji se najčešće prodaje je White, a iza njega usko slijedi Black.
Također se može reći da će s vjerojatnošću od 70% sljedeća cipela koja se prodaje ovog modela biti bijela ili crna.
Te informacije mogu biti korisne za trgovinu prilikom slanja novih narudžbi ili čak mogu primijeniti popuste na najmanje prodane boje zbog prekomjernog zaliha.
Primjer 3
Za određenu populaciju davatelja krvi želite predstavljati broj ljudi koji pripadaju određenoj krvnoj skupini. Grafički način vizualizacije rezultata je pomoću piktograma, koji je na dnu tablice.
Prvi stupac predstavlja varijablu group_sanguíneo i njezine moguće rezultate ili kategorije. Drugi stupac prikazuje u ikoničnom ili slikovnom obliku broj ljudi u svakoj kategoriji. U našem primjeru crvena kapljica koristi se kao ikona, od kojih svaka predstavlja 10 ljudi.
Slika 4. Piktogram. Izvor: self made
Reference
- Khan Akademija. Analiza kategorijskih podataka. Oporavilo sa: khanacademy.org
- Formule svemira. Kvalitativna varijabla. Oporavilo od: univesoformulas.com
- Minitab. Koje su kategorične, diskretne i kontinuirane varijable. Oporavilo od: support.minitab.com
- Vodič za Excel. Karakterizacija varijabli. Oporavilo od: help.xlslat.com.
- Wikipedia. Statistička varijabla. Oporavak s wikipedia.com
- Wikipedia. Kategorična varijabla. Oporavak s wikipedia.com
- Wikipedia. Kategorijska varijabla. Oporavak s wikipedia.com