Cum se calculează emisiile
În statisticile privind emisiile - acestea sunt valori care sunt drastic diferite de alte valori din setul de date asamblat. Emisia poate indica o anomalie în distribuția datelor sau în erorile în măsură, astfel încât emisiile sunt excluse din setul de date. Excludeți emisiile din setul de date, puteți ajunge la concluzii neașteptate sau mai precise. Prin urmare, este necesar să se poată calcula și evalua emisiile pentru a asigura înțelegerea corectă a datelor statistice.
Pași
unu. Învățați să recunoașteți emisiile potențiale. Înainte de a elimina valorile de ieșire dintr-un set de date, ar trebui determinate emisiile potențiale. Emisiile sunt valori care sunt foarte diferite de cele mai multe valori din setul de date - cu alte cuvinte, emisiile se află în afara tendinței majorității valorilor. Este ușor de detectat în tabelele valorilor sau (în special) pe planuri. Dacă valorile din setul de date sunt în program, atunci emisiile vor fi departe de cele mai multe valori. Dacă, de exemplu, majoritatea valorilor se află înainte, atunci emisiile se află pe ambele părți ale unui astfel de director.
- De exemplu, luați în considerare un set de date reprezentând temperatura a 12 obiecte diferite în cameră. Dacă 11 obiecte au o temperatură de aproximativ 70 de grade, dar al doisprezecelea obiect (eventual cuptor) are o temperatură de 300 de grade, apoi vizualizarea rapidă a valorilor poate arăta că cuptorul este probabil emisia.

2. Aranjați datele ascendente. Primul pas la determinarea emisiilor este calculul medianului stabilit de date. Această sarcină este foarte simplificată dacă valorile din setul de date sunt localizate ascendente (de la mai mult la mai mult).

3. Calculați setul de date medii. Setul de date median este valoarea în mijlocul setului de date. Dacă setul de date conține un număr impar de valori, mediană este valoarea la care și după care același număr de valori sunt localizate în setul de date. Dar dacă setul de date conține un număr chiar de valori, atunci trebuie să găsiți media aritmetică a două valori medii. Rețineți că atunci când se calculează emisiile medii este de obicei indicată ca Q2, deoarece se află între Q1 și Q3 - sferturi mai mici și mai sus pe care le vom defini mai târziu.

4. Calculați sferturile inferioare. Această valoare indicată ca Q1, sub care minorează 25% din valorile din setul de date. Cu alte cuvinte, este jumătate din valorile situate în fața mediană. Dacă mediană se află un număr par de valori dintr-un set de date, trebuie să găsiți valorile medii aritmetice două valori medii pentru a calcula Q1 (acest lucru este similar cu calculul median).

cinci. Calculați quartilei superioare. Această valoare indicată ca Q3, mai sus, care minorează 25% din valorile din setul de date. Procesul de calcul al Q3 este similar cu procesul de calcul al Q1, dar aici este considerat valorile situate după mediană.

6. Calculați intervalul Esckelter. Calculul Q1 și Q3, trebuie să găsiți distanța dintre aceste valori. Pentru a face acest lucru, deduceți Q1 de la Q3. Valoarea interconectării este extrem de importantă pentru determinarea limitelor valorilor care nu sunt emisii.

7. Găsiți "limitele interne" ale valorilor din setul de date. Emisiile sunt determinate prin analiza valorilor - indiferent dacă acestea cad sau nu în limitele așa-numitelor "frontiere interne" și "frontierele externe". Valoarea supusă "frontierelor interioare" este clasificată ca o "emisie nesemnificativă", în timp ce valoarea din spatele "frontierelor externe" este clasificată ca o "emisie semnificativă". Pentru a găsi limitele interioare, trebuie să adăugați intervalul escarotic cu 1.5- Rezultatul trebuie adăugat la Q3 și deduce de la Q1. Două numere găsite sunt frontierele de date interne.


opt. Găsiți setul de date "Frontiere externe". Acest lucru se face în același mod ca și pentru frontierele interioare, cu excepția faptului că gama intercomunică este înmulțită cu 3 și nu cu 1,5. Rezultatul trebuie adăugat la Q3 și să scadă de la Q1. Două numere găsite sunt granițe de date externe.


nouă. Utilizați o evaluare calitativă pentru a determina dacă să eliminați emisiile din setul de date. Metoda descrisă mai sus vă permite să stabiliți dacă sunt unele emisii (nesemnificative sau semnificative). Cu toate acestea, nu se înșeală - valoarea clasificată ca o emisie este doar un "candidat" pentru o excepție, adică nu sunteți obligat să o excludeți. Motivul pentru apariția emisiilor este principalul factor care afectează decizia de excludere a emisiilor. De regulă, emisiile care apar din cauza unei erori (în măsurători, înregistrări și așa mai departe) sunt excluse. Pe de altă parte, emisiile legate de erori, ci cu informații noi sau tendințe, de regulă, plecați în setul de date.

10. Calculați emisiile de importanță (uneori) rămase în setul de date. Unele emisii trebuie excluse din setul de date, deoarece motivele lor sunt erori și probleme tehnice - alte emisii trebuie lăsate în setul de date. Dacă, de exemplu, emisia nu este rezultatul unei erori și / sau oferă o nouă înțelegere a fenomenului de testare, atunci trebuie lăsat în setul de date. Experimentele științifice sunt deosebit de sensibile la emisii - eliminând emisiile din greșeală, puteți sări peste o nouă tendință sau deschidere.
sfaturi
- Când se găsesc emisiile, încercați să explicați prezența lor înainte de a le exclude din setul de date. Acestea pot indica erorile de măsurare sau anomaliile în distribuție.
De ce ai nevoie
- Calculator