Cum se calculează emisiile

În statisticile privind emisiile - acestea sunt valori care sunt drastic diferite de alte valori din setul de date asamblat. Emisia poate indica o anomalie în distribuția datelor sau în erorile în măsură, astfel încât emisiile sunt excluse din setul de date. Excludeți emisiile din setul de date, puteți ajunge la concluzii neașteptate sau mai precise. Prin urmare, este necesar să se poată calcula și evalua emisiile pentru a asigura înțelegerea corectă a datelor statistice.

Pași

  1. Imagine intitulată Calculați Outliers Pasul 1
unu. Învățați să recunoașteți emisiile potențiale. Înainte de a elimina valorile de ieșire dintr-un set de date, ar trebui determinate emisiile potențiale. Emisiile sunt valori care sunt foarte diferite de cele mai multe valori din setul de date - cu alte cuvinte, emisiile se află în afara tendinței majorității valorilor. Este ușor de detectat în tabelele valorilor sau (în special) pe planuri. Dacă valorile din setul de date sunt în program, atunci emisiile vor fi departe de cele mai multe valori. Dacă, de exemplu, majoritatea valorilor se află înainte, atunci emisiile se află pe ambele părți ale unui astfel de director.
  • De exemplu, luați în considerare un set de date reprezentând temperatura a 12 obiecte diferite în cameră. Dacă 11 obiecte au o temperatură de aproximativ 70 de grade, dar al doisprezecelea obiect (eventual cuptor) are o temperatură de 300 de grade, apoi vizualizarea rapidă a valorilor poate arăta că cuptorul este probabil emisia.
  • Imagine intitulată Calculați Outliers Pasul 2
    2. Aranjați datele ascendente. Primul pas la determinarea emisiilor este calculul medianului stabilit de date. Această sarcină este foarte simplificată dacă valorile din setul de date sunt localizate ascendente (de la mai mult la mai mult).
  • Continuarea exemplului de mai sus, luați în considerare următorul set de date, reprezentând temperaturile mai multor obiecte: {71, 70, 73, 70, 70, 71, 72, 72, 71, 71, 72, 71, 72, 72, 71. Acest kit trebuie să fie comandat după cum urmează: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  • Imaginea intitulată Calculați Outliers Pasul 3
    3. Calculați setul de date medii. Setul de date median este valoarea în mijlocul setului de date. Dacă setul de date conține un număr impar de valori, mediană este valoarea la care și după care același număr de valori sunt localizate în setul de date. Dar dacă setul de date conține un număr chiar de valori, atunci trebuie să găsiți media aritmetică a două valori medii. Rețineți că atunci când se calculează emisiile medii este de obicei indicată ca Q2, deoarece se află între Q1 și Q3 - sferturi mai mici și mai sus pe care le vom defini mai târziu.
  • Nu vă fie frică să lucrați cu seturi de date în care un număr și un număr de valori - viteza medie aritmetică două valori medii vor fi numărul care nu este în setul de date este normal. Dar dacă două valori medii sunt același număr, atunci media aritmetică este egală cu acest număr, este, de asemenea, în ordinea lucrurilor.
  • În exemplul de mai sus, valorile medii 2 sunt 70 și 71, astfel încât mediana este egală cu ((70 + 71) / 2) = 70,5.
  • Imagine intitulată Calculați Outliers Pasul 4
    4. Calculați sferturile inferioare. Această valoare indicată ca Q1, sub care minorează 25% din valorile din setul de date. Cu alte cuvinte, este jumătate din valorile situate în fața mediană. Dacă mediană se află un număr par de valori dintr-un set de date, trebuie să găsiți valorile medii aritmetice două valori medii pentru a calcula Q1 (acest lucru este similar cu calculul median).
  • În exemplul nostru, 6 valori sunt situate după valorile mediane și 6 - la ea. Aceasta înseamnă că, pentru a calcula quartilele inferioare, trebuie să găsim media aritmetică a două medii de șase valori situate la mediană. Aici valorile medii sunt de 70 și 70. Astfel, Q1 = ((70 + 70) / 2) = 70.
  • Imagine intitulată Calculați Outliers Pasul 5
    cinci. Calculați quartilei superioare. Această valoare indicată ca Q3, mai sus, care minorează 25% din valorile din setul de date. Procesul de calcul al Q3 este similar cu procesul de calcul al Q1, dar aici este considerat valorile situate după mediană.
  • În exemplul de mai sus, două valori medii de la șase valori mincinoase după medii sunt 71 și 72. Astfel, Q3 = ((71 + 72) / 2) = 71,5.
  • Imagine intitulată Calculați Outliers Pasul 6
    6. Calculați intervalul Esckelter. Calculul Q1 și Q3, trebuie să găsiți distanța dintre aceste valori. Pentru a face acest lucru, deduceți Q1 de la Q3. Valoarea interconectării este extrem de importantă pentru determinarea limitelor valorilor care nu sunt emisii.
  • În exemplul nostru Q1 = 70 și Q3 = 71,5. Intervalul intercomunical este de 71,5 - 70 = 1,5.
  • Rețineți că acest lucru se aplică valorilor negative ale Q1 și Q3. De exemplu, dacă Q1 = -70, atunci interfața intercomunicală este de 71,5 - (-70) = 141,5.
  • Imagine intitulată Calculați Outliers Pasul 7
    7. Găsiți "limitele interne" ale valorilor din setul de date. Emisiile sunt determinate prin analiza valorilor - indiferent dacă acestea cad sau nu în limitele așa-numitelor "frontiere interne" și "frontierele externe". Valoarea supusă "frontierelor interioare" este clasificată ca o "emisie nesemnificativă", în timp ce valoarea din spatele "frontierelor externe" este clasificată ca o "emisie semnificativă". Pentru a găsi limitele interioare, trebuie să adăugați intervalul escarotic cu 1.5- Rezultatul trebuie adăugat la Q3 și deduce de la Q1. Două numere găsite sunt frontierele de date interne.
  • În exemplul nostru, intervalul intercombanit este egal cu (71,5 - 70) = 1,5. Înainte: 1.5 * 1,5 = 2.25. Acest număr trebuie adăugat la Q3 și să-l scadă de la Q1 pentru a găsi limitele interne:
  • 71.5 + 2.25 = 73.75
  • 70 - 2.25 = 67.75
  • Astfel, granițele interne sunt egale cu 67,75 și 73,75.
  • În exemplul nostru, numai temperatura cuptorului - 300 de grade - se află în afara acestor frontiere și poate fi considerată minoră. Dar nu vă grăbiți cu concluziile, este necesar să se determine dacă această temperatură este o emisie semnificativă. Imagine intitulată Calculați Outliers Pasul 7Bullet2
  • Imagine intitulată Calculați Outliers Pasul 8
    opt. Găsiți setul de date "Frontiere externe". Acest lucru se face în același mod ca și pentru frontierele interioare, cu excepția faptului că gama intercomunică este înmulțită cu 3 și nu cu 1,5. Rezultatul trebuie adăugat la Q3 și să scadă de la Q1. Două numere găsite sunt granițe de date externe.
  • În exemplul nostru, înmulțiți intervalul escarotic cu 3: 1,5 * 3 = 4,5. Calculați frontierele externe:
  • 71.5 + 4,5 = 76
  • 70 - 4.5 = 65.5
  • Astfel, limitele externe sunt egale cu 65,5 și 76.
  • Orice valori care se află în afara frontierelor externe sunt considerate emisii semnificative. În exemplul nostru, temperatura cuptorului - 300 de grade - este considerată emisii semnificative.Imagine intitulată Calculați Outliers Pas 8Bullet2
  • Imagine intitulată Calculați Outliers Pasul 9
    nouă. Utilizați o evaluare calitativă pentru a determina dacă să eliminați emisiile din setul de date. Metoda descrisă mai sus vă permite să stabiliți dacă sunt unele emisii (nesemnificative sau semnificative). Cu toate acestea, nu se înșeală - valoarea clasificată ca o emisie este doar un "candidat" pentru o excepție, adică nu sunteți obligat să o excludeți. Motivul pentru apariția emisiilor este principalul factor care afectează decizia de excludere a emisiilor. De regulă, emisiile care apar din cauza unei erori (în măsurători, înregistrări și așa mai departe) sunt excluse. Pe de altă parte, emisiile legate de erori, ci cu informații noi sau tendințe, de regulă, plecați în setul de date.
  • Este la fel de important să se estimeze impactul emisiilor la setul de date median (indiferent dacă le distorsionează sau nu). Acest lucru este deosebit de important atunci când faceți concluzii bazate pe setul de date median.
  • În exemplul nostru, este extrem de puțin probabil ca cuptorul să se încălzească până la o temperatură de 300 de grade (dacă nu numai să ia în considerare anomaliile naturale). Prin urmare, se poate concluziona (cu o mare parte a încrederii) că o astfel de temperatură este o eroare de măsurare pe care doriți să o excludeți din setul de date. Mai mult, dacă nu excludeți emisia, setul de date median va fi egal cu (69 + 69 + 70 + 70 + 70 + 72 + 73 + 300) / 12 = 89,67 grade, dar dacă excludeți emisia, mediană va fi egal cu (69 + 69 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 grade.
  • Emisiile sunt, de obicei, rezultatul erorilor umane, astfel încât emisiile trebuie excluse din seturile de date.
  • Imaginea intitulată Calculați Outliers Pasul 10
    10. Calculați emisiile de importanță (uneori) rămase în setul de date. Unele emisii trebuie excluse din setul de date, deoarece motivele lor sunt erori și probleme tehnice - alte emisii trebuie lăsate în setul de date. Dacă, de exemplu, emisia nu este rezultatul unei erori și / sau oferă o nouă înțelegere a fenomenului de testare, atunci trebuie lăsat în setul de date. Experimentele științifice sunt deosebit de sensibile la emisii - eliminând emisiile din greșeală, puteți sări peste o nouă tendință sau deschidere.
  • De exemplu, dezvoltăm un nou medicament pentru a crește dimensiunea peștelui în domeniul pescuitului. Vom folosi vechiul set de date ({71, 70, 73, 70, 70, 70, 70, 72, 71, 300, 71, 69}), dar de data aceasta va fi o mulțime de pește (în grame) după primirea Droguri experimentale. Cu alte cuvinte, primul medicament duce la o creștere a masei de pește până la 71 g, al doilea medicament - până la 70 g și așa mai departe. În această situație, 300 este o emisie semnificativă, dar nu ar trebui să excludem acest lucru - dacă presupunem că nu existau erori de măsurare, atunci o astfel de emisie este un succes semnificativ în experiment. Medicamentul care a crescut greutatea de pește de până la 300 de grame acționează semnificativ mai bine decât alte medicamente - în acest fel, 300 este cea mai importantă valoare din setul de date.
  • sfaturi

    • Când se găsesc emisiile, încercați să explicați prezența lor înainte de a le exclude din setul de date. Acestea pot indica erorile de măsurare sau anomaliile în distribuție.

    De ce ai nevoie

    • Calculator
    Publicații similare