Hogyan lehet észlelni a kiugró értékeket: 10 lépés (képekkel)

Tartalomjegyzék:

Hogyan lehet észlelni a kiugró értékeket: 10 lépés (képekkel)
Hogyan lehet észlelni a kiugró értékeket: 10 lépés (képekkel)

Videó: Hogyan lehet észlelni a kiugró értékeket: 10 lépés (képekkel)

Videó: Hogyan lehet észlelni a kiugró értékeket: 10 lépés (képekkel)
Videó: Avoiding Plagiarism 2024, Lehet
Anonim

A statisztikákban az outlier vagy a „outlier” olyan nullapont, amely nagyon messze eltér a mintán vagy a nullapont -halmazon belüli bármely más nullaponttól (a nullaponthalmazt adatnak nevezik). Gyakran előfordul, hogy egy nullapont -készletben lévő kiugró érték figyelmeztetésként szolgálhat a statisztikus számára az elvégzett mérésekben tapasztalt rendellenességekre vagy kísérleti hibákra, amelyek miatt a statisztikus eltávolíthatja a kiugró értéket a nullapont -készletből. Ha a statisztikus eltávolítja a kiugró értékeket a nullaponthalmazból, a vizsgálatból levont következtetések nagyon eltérőek lehetnek. Ezért nagyon fontos tudni a kiugró értékek kiszámításának és elemzésének módját a statisztikai adathalmaz helyes megértésének biztosítása érdekében.

Lépés

Kiugró értékek kiszámítása 1. lépés
Kiugró értékek kiszámítása 1. lépés

1. lépés. Ismerje meg a potenciálisan kiugró adatpontok azonosítását

Mielőtt eldöntenénk, hogy eltávolítjuk -e a kiugró nullapontokat a nullapont -készletből, vagy sem, természetesen meg kell határoznunk, hogy mely nullapontok válhatnak kiemelkedővé. Általánosságban elmondható, hogy a kiugró érték egy olyan nullapont, amely nagyon messze eltér az egyik nullapont -készlet többi nullapontjától - más szóval, a kiugró érték „kívül van” a többi nullaponton. Általában könnyű észlelni a kiugró értékeket egy adattáblában vagy (különösen) egy grafikonban. Ha egy nullaponthalmazt vizuálisan grafikonnal írnak le, akkor a kiugró nullapont "nagyon távol" lesz a többi nullaponttól. Ha például egy nullaponthalmaz legtöbb nullapontja egyenes vonal, akkor a kiugró nullapont ésszerűen nem értelmezhető úgy, hogy ezt a vonalat képezi.

Nézzünk egy nullaponthalmazt, amely a helyiség 12 különböző tárgyának hőmérsékletét képviseli. Ha 11 tárgy hőmérséklete körülbelül 70 Fahrenheit (21 Celsius fok), de a 12. tárgy, egy sütő, 300 Fahrenheit (150 Celsius fok) hőmérsékletű, akkor azonnal látható, hogy a sütő hőmérséklete nagyon valószínű kiugró

A kiugró értékek kiszámítása 2. lépés
A kiugró értékek kiszámítása 2. lépés

Lépés 2. Rendezze a nullapontokat a legalacsonyabbtól a legmagasabbig

A nullaponthalmazban lévő kiugró értékek kiszámításának első lépése az, hogy megtaláljuk az adott nullaponthalmaz mediánját (középértékét). Ez a feladat nagyon egyszerűvé válik, ha a nullapont -halmaz nullapontjai a legkisebbtől a legnagyobbig vannak elrendezve. Tehát, mielőtt folytatná, rendezze el a nullapontokat egy ilyen nullaponthalmazban.

Folytassuk a fenti példát. Ez a nulla ponthalmazunk, amely a helyiségben lévő több objektum hőmérsékletét képviseli: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Ha a nullapontokat a legalacsonyabbról a legmagasabbra rendezzük, a nullapontok sorrendje a következő lesz: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

A kiugró értékek kiszámítása 3. lépés
A kiugró értékek kiszámítása 3. lépés

3. lépés. Számítsa ki a nullaponthalmaz mediánját

A nullaponthalmaz mediánja az a nullapont, ahol a nullapont másik fele az említett nullapont felett van, a fennmaradó fele pedig alatta - alapvetően ez a nullapont az a nullapont, amely a nullaponthalmaz "közepén" található. Ha egy nullapont -készlet nullapontjainak száma páratlan, nagyon könnyű megtalálni - a medián az a nullapont, amelynek fölött és alatt ugyanaz a szám. Ha azonban a nullapont -halmazban a nullapontok száma páros, akkor mivel senki sem illeszkedik a középpontba, a középen lévő 2 nullapontot átlagolva találjuk meg a mediánt. Meg kell jegyezni, hogy a kiugró értékek kiszámításakor a mediánhoz általában a Q2-ni változót rendelik hozzá, mivel a Q2 a Q1 és Q3, az alsó és a felső kvartilis között van, amelyet később tárgyalunk.

  • Nem tévesztendő össze egy nullaponthalmazzal, ahol a nullapontok száma páros-a 2 középső nullapont átlaga gyakran olyan számot ad vissza, amely nincs benne a nullapont-készletben-ez rendben van. Ha azonban a 2 középső nullapont azonos számú, az átlag természetesen ugyanannyi lesz, ami szintén rendben van.
  • A fenti példában 12 nullapontunk van. A két középső nullapont a 6. és a 7. nullapont-70, illetve 71. Tehát a dátumkészletünk mediánja e két szám átlaga: ((70 + 71) / 2), = 70.5.
A kiugró értékek kiszámítása 4. lépés
A kiugró értékek kiszámítása 4. lépés

4. lépés Számítsa ki az alsó kvartilis számát

Ez az érték, amelyet a Q1 változónak adunk, az a nullapont, amely a nullapont 25 százalékát (vagy negyedét) képviseli. Más szóval, ez a nullapont, amely kettévágja azokat a nullapontokat, amelyek a medián alatt vannak. Ha a medián alatti nullapontok száma páros, akkor ismét a középső 2 nullapontot kell átlagolnia a Q1 megtalálásához, ugyanúgy, mint magát a mediánt.

Példánkban 6 nullapont található a medián felett, és 6 nullapont a medián alatt. Ez azt jelenti, hogy az alsó kvartilis megtalálásához a medián alatti 6 nullapont közepén lévő 2 nullapontot kell átlagolnunk. A medián alatti 6 nullapont 3. és 4. nullapontja egyaránt 70. Tehát az átlag ((70 + 70) / 2), = 70. 70 lesz a Q1.

A kiugró értékek kiszámítása 5. lépés
A kiugró értékek kiszámítása 5. lépés

5. lépés Számítsa ki a felső kvartiliset

Ez az érték, amelyet a Q3 változónak adunk, az a nullapont, amelyen a nullaponthalmaz 25 százaléka található. A Q3 megtalálása nagyjából ugyanaz, mint a Q1, kivéve, hogy ebben az esetben a medián feletti, nem a medián alatti nullapontokat nézzük.

Folytatva fenti példánkat, a medián feletti 6 nullapont közepén található 2 nullapont 71 és 72. E 2 nullapont átlaga ((71 + 72)/2), = 71, 5. A 71, 5 a Q3.

A kiugró értékek kiszámítása 6. lépés
A kiugró értékek kiszámítása 6. lépés

6. lépés. Keresse meg az interkvartilis távolságot

Most, hogy megtaláltuk a Q1 -et és a Q3 -at, ki kell számolnunk a két változó közötti távolságot. A Q1 és Q3 közötti távolságot úgy találjuk meg, hogy kivonjuk a Q1 -et a Q3 -ból. Az interkvartilis távolságokra kapott értékek nagyon fontosak a nullaponthalmazban található, nem kiugró nullapontok határainak meghatározásához.

  • Példánkban Q1 és Q3 értékeink 70 és 71, 5. Az interkvartilis távolság megtalálásához kivonjuk a Q3 - Q1 = 71,5 - 70 = értékeket. 1, 5.
  • Meg kell jegyezni, hogy ez akkor is igaz, ha a Q1, Q3 vagy mindkettő negatív szám. Például, ha Q1 értékünk -70 volt, akkor a helyes interkvartilis távolságunk 71,5 -(-70) = 141, 5 lenne.
A kiugró értékek kiszámítása 7. lépés
A kiugró értékek kiszámítása 7. lépés

7. lépés. Keresse meg a „belső kerítést” a nullaponthalmazban

A kiugró értékeket úgy találjuk meg, hogy ellenőrizzük, hogy a nullapont a „belső kerítés” és a „külső kerítés” elnevezésű számhatárok közé esik -e. A nullaponthalmaz belső kerítésén kívül eső nullapontra „kisebb kiugró értékként”, míg a külső kerítésen kívül eső nullapontra „jelentős kiugró értékként” hivatkozunk. A nullaponthalmaz belső kerítésének megkereséséhez először szorozza meg az interkvartilis távolságot 1, 5 -tel. Ezután adja hozzá az eredményt Q3 -mal, és vonja le a Q1 -ből. A kapott két érték a nullaponthalmaz belső kerítéshatára.

  • Példánkban az interkvartilis távolság (71,5 - 70), vagy 1,5. Szorozzuk meg az 1,5 -öt 1,5 -tel, ami 2,25 -t eredményez. Ezt a számot hozzáadjuk a Q3 -hoz, és kivonjuk a Q1 -et ezzel a számmal, hogy megtaláljuk a belső kerítés határait az alábbiak szerint:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Tehát a belső kerítésünk határai 67, 75 és 73, 75.
  • Nullpontjainkban csak a sütő hőmérséklete, 300 Fahrenheit - kívül esik ezeken a határokon, így ez a nullapont kisebb mértékű. Mindazonáltal még mindig nem számítottuk ki, hogy ez a hőmérséklet jelentős kiugró érték, ezért ne vonjunk le következtetéseket, amíg nem végeztük el a számításokat.

    Kiugró értékek kiszámítása 7. lépés Bullet2
    Kiugró értékek kiszámítása 7. lépés Bullet2
A kiugró értékek kiszámítása 8. lépés
A kiugró értékek kiszámítása 8. lépés

8. lépés. Keresse meg a „külső kerítést” a nullaponthalmazban

Ez ugyanúgy történik, mint a belső kerítés megkeresése, azzal a különbséggel, hogy az interkvartilis távolságot 1,5 helyett 3 -mal kell megszorozni. Az eredményt hozzáadjuk a Q3 -hoz, és kivonjuk a Q1 -ből, hogy megtaláljuk a külső kerítés felső és alsó határát.

  • Példánkban az interkvartilis távolság szorzása 3 -mal (1, 5 x 3) vagy 4, 5. A külső kerítés határait ugyanúgy találjuk meg, mint korábban:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • A külső kerítés határai 65,5 és 76.
  • A külső kerítés határain kívül eső nullapontokat kiemelkedő értékeknek nevezzük. Ebben a példában a sütő hőmérséklete, 300 Fahrenheit, egyértelműen a külső kerítésen kívül van, így ez a nullapont "határozottan" jelentős kiugró érték.

    Kiugró értékek kiszámítása 8. lépés Bullet2
    Kiugró értékek kiszámítása 8. lépés Bullet2
A kiugró értékek kiszámítása 9. lépés
A kiugró értékek kiszámítása 9. lépés

9. lépés: Minőségi megítélés alapján határozza meg, hogy „ki kell -e vetni” a kiugró adatot

A fent leírt módszerrel megállapítható, hogy a nullapont kisebb, nagyobb, vagy egyáltalán nem kiugró. Azonban ne tévedjen - ha egy nullapontot kiugró értékként talál, az csak azt jelöli, hogy a nullapont „jelöltként” el kell távolítani a nullapont -készletből, és nem olyan nullapontként, amelyet „el kell dobni”. Az "ok", amely miatt a kiugró nullapont eltér a nullapont -készlet más nullapontjaitól, nagyon fontos annak eldöntésében, hogy eldobja -e vagy sem. Általánosságban elmondható, hogy például a mérési, rögzítési vagy kísérleti tervezési hiba okozta kiugró értéket el lehet vetni. Másrészt a „nem” elutasítják azokat a kiugró értékeket, amelyeket nem hiba okoz, és amelyek új információkat vagy tendenciákat jeleznek, amelyeket korábban nem jósoltak meg.

  • Egy másik szempont, amelyet figyelembe kell venni, az, hogy a kiugró érték nagy hatással van -e a nullaponthalmaz átlagára, azaz hogy a kiugró érték összekeveri -e, vagy rosszul látszik -e. Ezt nagyon fontos megfontolni, ha következtetéseket kíván levonni az adathalmaz átlagából.
  • Tanulmányozzuk példánkat. Ebben a példában, mivel "nagyon" valószínűtlennek tűnik, hogy a sütő kiszámíthatatlan természeti erők hatására elérte a 300 Fahrenheit értéket, majdnem teljesen biztosan azt a következtetést vonhatjuk le, hogy a sütőt véletlenül bekapcsolták, ami a magas hőmérséklet nullapont -rendellenességéhez vezetett. Továbbá, ha nem távolítjuk el a kiugró értékeket, akkor a nullapontkészlet átlaga (69 + 69 + 70 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 Fahrenheit (32 Celsius fok)), míg az átlag, ha eltávolítjuk a kiugró értékeket, (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheit (21 Celsius fok).

    Mivel ezeket a kiugró értékeket emberi hiba okozta, és mivel helytelen lenne azt állítani, hogy az átlagos szobahőmérséklet eléri a közel 90 Fahrenheit (32 Celsius fok) értéket, jobb, ha úgy döntünk, hogy „kidobjuk” a kiugró értékeket

Kiugró értékek kiszámítása 10. lépés
Kiugró értékek kiszámítása 10. lépés

10. lépés. Ismerje a kiugró értékek fenntartásának fontosságát (néha)

Bár néhány kiugró értéket el kell távolítani a nullapont -halmazból, mert hibákat okoznak és/vagy pontatlanná vagy hibássá teszik az eredményeket, néhány kiugró értéket meg kell tartani. Ha például egy kiugró érték természetesnek tűnik (azaz nem hiba eredménye), és/vagy új perspektívát ad a vizsgált jelenséghez, akkor a kiugró értéket nem szabad eltávolítani a nullapont -készletből. A tudományos kutatás általában nagyon kényes helyzet a kiugró értékek tekintetében - a kiugró értékek helytelen eltávolítása az új trendet vagy felfedezést jelző információk elvetését jelentheti.

Tegyük fel például, hogy új gyógyszert tervezünk a halastó méretének növelésére. A régi dátumkészletünket fogjuk használni ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), kivéve, hogy ezúttal minden nullapont egy hal súlyát jelenti (grammban), miután születésétől eltérő kísérleti gyógyszert kapott. Más szóval, az első drog miatt az egyik hal súlya 71 gramm, a másodiké egy másik halé 70 gramm, stb. Ebben az esetben a 300 „még mindig” nagy kiugró érték, de nem szabad elvetnünk ezt a nullapontot, mert ha feltételezzük, hogy hiba nélkül szerezték be, akkor ez a vizsgálat sikere. Az a gyógyszer, amely 300 gramm súlyúvá teszi a halakat, jobban működik, mint az összes többi gyógyszer, így valójában ez a nullapont a "legfontosabb", és nem a "legkevésbé fontos"

Ajánlott: