A statisztikákban az outlier vagy a „outlier” olyan nullapont, amely nagyon messze eltér a mintán vagy a nullapont -halmazon belüli bármely más nullaponttól (a nullaponthalmazt adatnak nevezik). Gyakran előfordul, hogy egy nullapont -készletben lévő kiugró érték figyelmeztetésként szolgálhat a statisztikus számára az elvégzett mérésekben tapasztalt rendellenességekre vagy kísérleti hibákra, amelyek miatt a statisztikus eltávolíthatja a kiugró értéket a nullapont -készletből. Ha a statisztikus eltávolítja a kiugró értékeket a nullaponthalmazból, a vizsgálatból levont következtetések nagyon eltérőek lehetnek. Ezért nagyon fontos tudni a kiugró értékek kiszámításának és elemzésének módját a statisztikai adathalmaz helyes megértésének biztosítása érdekében.
Lépés

1. lépés. Ismerje meg a potenciálisan kiugró adatpontok azonosítását
Mielőtt eldöntenénk, hogy eltávolítjuk -e a kiugró nullapontokat a nullapont -készletből, vagy sem, természetesen meg kell határoznunk, hogy mely nullapontok válhatnak kiemelkedővé. Általánosságban elmondható, hogy a kiugró érték egy olyan nullapont, amely nagyon messze eltér az egyik nullapont -készlet többi nullapontjától - más szóval, a kiugró érték „kívül van” a többi nullaponton. Általában könnyű észlelni a kiugró értékeket egy adattáblában vagy (különösen) egy grafikonban. Ha egy nullaponthalmazt vizuálisan grafikonnal írnak le, akkor a kiugró nullapont "nagyon távol" lesz a többi nullaponttól. Ha például egy nullaponthalmaz legtöbb nullapontja egyenes vonal, akkor a kiugró nullapont ésszerűen nem értelmezhető úgy, hogy ezt a vonalat képezi.
Nézzünk egy nullaponthalmazt, amely a helyiség 12 különböző tárgyának hőmérsékletét képviseli. Ha 11 tárgy hőmérséklete körülbelül 70 Fahrenheit (21 Celsius fok), de a 12. tárgy, egy sütő, 300 Fahrenheit (150 Celsius fok) hőmérsékletű, akkor azonnal látható, hogy a sütő hőmérséklete nagyon valószínű kiugró

Lépés 2. Rendezze a nullapontokat a legalacsonyabbtól a legmagasabbig
A nullaponthalmazban lévő kiugró értékek kiszámításának első lépése az, hogy megtaláljuk az adott nullaponthalmaz mediánját (középértékét). Ez a feladat nagyon egyszerűvé válik, ha a nullapont -halmaz nullapontjai a legkisebbtől a legnagyobbig vannak elrendezve. Tehát, mielőtt folytatná, rendezze el a nullapontokat egy ilyen nullaponthalmazban.
Folytassuk a fenti példát. Ez a nulla ponthalmazunk, amely a helyiségben lévő több objektum hőmérsékletét képviseli: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Ha a nullapontokat a legalacsonyabbról a legmagasabbra rendezzük, a nullapontok sorrendje a következő lesz: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

3. lépés. Számítsa ki a nullaponthalmaz mediánját
A nullaponthalmaz mediánja az a nullapont, ahol a nullapont másik fele az említett nullapont felett van, a fennmaradó fele pedig alatta - alapvetően ez a nullapont az a nullapont, amely a nullaponthalmaz "közepén" található. Ha egy nullapont -készlet nullapontjainak száma páratlan, nagyon könnyű megtalálni - a medián az a nullapont, amelynek fölött és alatt ugyanaz a szám. Ha azonban a nullapont -halmazban a nullapontok száma páros, akkor mivel senki sem illeszkedik a középpontba, a középen lévő 2 nullapontot átlagolva találjuk meg a mediánt. Meg kell jegyezni, hogy a kiugró értékek kiszámításakor a mediánhoz általában a Q2-ni változót rendelik hozzá, mivel a Q2 a Q1 és Q3, az alsó és a felső kvartilis között van, amelyet később tárgyalunk.
- Nem tévesztendő össze egy nullaponthalmazzal, ahol a nullapontok száma páros-a 2 középső nullapont átlaga gyakran olyan számot ad vissza, amely nincs benne a nullapont-készletben-ez rendben van. Ha azonban a 2 középső nullapont azonos számú, az átlag természetesen ugyanannyi lesz, ami szintén rendben van.
- A fenti példában 12 nullapontunk van. A két középső nullapont a 6. és a 7. nullapont-70, illetve 71. Tehát a dátumkészletünk mediánja e két szám átlaga: ((70 + 71) / 2), = 70.5.

4. lépés Számítsa ki az alsó kvartilis számát
Ez az érték, amelyet a Q1 változónak adunk, az a nullapont, amely a nullapont 25 százalékát (vagy negyedét) képviseli. Más szóval, ez a nullapont, amely kettévágja azokat a nullapontokat, amelyek a medián alatt vannak. Ha a medián alatti nullapontok száma páros, akkor ismét a középső 2 nullapontot kell átlagolnia a Q1 megtalálásához, ugyanúgy, mint magát a mediánt.
Példánkban 6 nullapont található a medián felett, és 6 nullapont a medián alatt. Ez azt jelenti, hogy az alsó kvartilis megtalálásához a medián alatti 6 nullapont közepén lévő 2 nullapontot kell átlagolnunk. A medián alatti 6 nullapont 3. és 4. nullapontja egyaránt 70. Tehát az átlag ((70 + 70) / 2), = 70. 70 lesz a Q1.

5. lépés Számítsa ki a felső kvartiliset
Ez az érték, amelyet a Q3 változónak adunk, az a nullapont, amelyen a nullaponthalmaz 25 százaléka található. A Q3 megtalálása nagyjából ugyanaz, mint a Q1, kivéve, hogy ebben az esetben a medián feletti, nem a medián alatti nullapontokat nézzük.
Folytatva fenti példánkat, a medián feletti 6 nullapont közepén található 2 nullapont 71 és 72. E 2 nullapont átlaga ((71 + 72)/2), = 71, 5. A 71, 5 a Q3.

6. lépés. Keresse meg az interkvartilis távolságot
Most, hogy megtaláltuk a Q1 -et és a Q3 -at, ki kell számolnunk a két változó közötti távolságot. A Q1 és Q3 közötti távolságot úgy találjuk meg, hogy kivonjuk a Q1 -et a Q3 -ból. Az interkvartilis távolságokra kapott értékek nagyon fontosak a nullaponthalmazban található, nem kiugró nullapontok határainak meghatározásához.
- Példánkban Q1 és Q3 értékeink 70 és 71, 5. Az interkvartilis távolság megtalálásához kivonjuk a Q3 - Q1 = 71,5 - 70 = értékeket. 1, 5.
- Meg kell jegyezni, hogy ez akkor is igaz, ha a Q1, Q3 vagy mindkettő negatív szám. Például, ha Q1 értékünk -70 volt, akkor a helyes interkvartilis távolságunk 71,5 -(-70) = 141, 5 lenne.

7. lépés. Keresse meg a „belső kerítést” a nullaponthalmazban
A kiugró értékeket úgy találjuk meg, hogy ellenőrizzük, hogy a nullapont a „belső kerítés” és a „külső kerítés” elnevezésű számhatárok közé esik -e. A nullaponthalmaz belső kerítésén kívül eső nullapontra „kisebb kiugró értékként”, míg a külső kerítésen kívül eső nullapontra „jelentős kiugró értékként” hivatkozunk. A nullaponthalmaz belső kerítésének megkereséséhez először szorozza meg az interkvartilis távolságot 1, 5 -tel. Ezután adja hozzá az eredményt Q3 -mal, és vonja le a Q1 -ből. A kapott két érték a nullaponthalmaz belső kerítéshatára.
-
Példánkban az interkvartilis távolság (71,5 - 70), vagy 1,5. Szorozzuk meg az 1,5 -öt 1,5 -tel, ami 2,25 -t eredményez. Ezt a számot hozzáadjuk a Q3 -hoz, és kivonjuk a Q1 -et ezzel a számmal, hogy megtaláljuk a belső kerítés határait az alábbiak szerint:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- Tehát a belső kerítésünk határai 67, 75 és 73, 75.
-
Nullpontjainkban csak a sütő hőmérséklete, 300 Fahrenheit - kívül esik ezeken a határokon, így ez a nullapont kisebb mértékű. Mindazonáltal még mindig nem számítottuk ki, hogy ez a hőmérséklet jelentős kiugró érték, ezért ne vonjunk le következtetéseket, amíg nem végeztük el a számításokat.
Kiugró értékek kiszámítása 7. lépés Bullet2

8. lépés. Keresse meg a „külső kerítést” a nullaponthalmazban
Ez ugyanúgy történik, mint a belső kerítés megkeresése, azzal a különbséggel, hogy az interkvartilis távolságot 1,5 helyett 3 -mal kell megszorozni. Az eredményt hozzáadjuk a Q3 -hoz, és kivonjuk a Q1 -ből, hogy megtaláljuk a külső kerítés felső és alsó határát.
-
Példánkban az interkvartilis távolság szorzása 3 -mal (1, 5 x 3) vagy 4, 5. A külső kerítés határait ugyanúgy találjuk meg, mint korábban:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- A külső kerítés határai 65,5 és 76.
-
A külső kerítés határain kívül eső nullapontokat kiemelkedő értékeknek nevezzük. Ebben a példában a sütő hőmérséklete, 300 Fahrenheit, egyértelműen a külső kerítésen kívül van, így ez a nullapont "határozottan" jelentős kiugró érték.
Kiugró értékek kiszámítása 8. lépés Bullet2

9. lépés: Minőségi megítélés alapján határozza meg, hogy „ki kell -e vetni” a kiugró adatot
A fent leírt módszerrel megállapítható, hogy a nullapont kisebb, nagyobb, vagy egyáltalán nem kiugró. Azonban ne tévedjen - ha egy nullapontot kiugró értékként talál, az csak azt jelöli, hogy a nullapont „jelöltként” el kell távolítani a nullapont -készletből, és nem olyan nullapontként, amelyet „el kell dobni”. Az "ok", amely miatt a kiugró nullapont eltér a nullapont -készlet más nullapontjaitól, nagyon fontos annak eldöntésében, hogy eldobja -e vagy sem. Általánosságban elmondható, hogy például a mérési, rögzítési vagy kísérleti tervezési hiba okozta kiugró értéket el lehet vetni. Másrészt a „nem” elutasítják azokat a kiugró értékeket, amelyeket nem hiba okoz, és amelyek új információkat vagy tendenciákat jeleznek, amelyeket korábban nem jósoltak meg.
- Egy másik szempont, amelyet figyelembe kell venni, az, hogy a kiugró érték nagy hatással van -e a nullaponthalmaz átlagára, azaz hogy a kiugró érték összekeveri -e, vagy rosszul látszik -e. Ezt nagyon fontos megfontolni, ha következtetéseket kíván levonni az adathalmaz átlagából.
-
Tanulmányozzuk példánkat. Ebben a példában, mivel "nagyon" valószínűtlennek tűnik, hogy a sütő kiszámíthatatlan természeti erők hatására elérte a 300 Fahrenheit értéket, majdnem teljesen biztosan azt a következtetést vonhatjuk le, hogy a sütőt véletlenül bekapcsolták, ami a magas hőmérséklet nullapont -rendellenességéhez vezetett. Továbbá, ha nem távolítjuk el a kiugró értékeket, akkor a nullapontkészlet átlaga (69 + 69 + 70 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 Fahrenheit (32 Celsius fok)), míg az átlag, ha eltávolítjuk a kiugró értékeket, (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheit (21 Celsius fok).
Mivel ezeket a kiugró értékeket emberi hiba okozta, és mivel helytelen lenne azt állítani, hogy az átlagos szobahőmérséklet eléri a közel 90 Fahrenheit (32 Celsius fok) értéket, jobb, ha úgy döntünk, hogy „kidobjuk” a kiugró értékeket

10. lépés. Ismerje a kiugró értékek fenntartásának fontosságát (néha)
Bár néhány kiugró értéket el kell távolítani a nullapont -halmazból, mert hibákat okoznak és/vagy pontatlanná vagy hibássá teszik az eredményeket, néhány kiugró értéket meg kell tartani. Ha például egy kiugró érték természetesnek tűnik (azaz nem hiba eredménye), és/vagy új perspektívát ad a vizsgált jelenséghez, akkor a kiugró értéket nem szabad eltávolítani a nullapont -készletből. A tudományos kutatás általában nagyon kényes helyzet a kiugró értékek tekintetében - a kiugró értékek helytelen eltávolítása az új trendet vagy felfedezést jelző információk elvetését jelentheti.