Izračunajte odstopanja

Avtor: Charles Brown
Datum Ustvarjanja: 8 Februarjem 2021
Datum Posodobitve: 1 Julij. 2024
Anonim
Вязание летняя ТУНИКА крючком ВОДОПАД которая стройнит обучающий МАСТЕР КЛАСС для начинающих ЧАСТЬ 1
Video.: Вязание летняя ТУНИКА крючком ВОДОПАД которая стройнит обучающий МАСТЕР КЛАСС для начинающих ЧАСТЬ 1

Vsebina

A zunaj ali zunaj v statistiki je podatkovna točka, ki se bistveno razlikuje od drugih podatkovnih točk v vzorcu. Izstopajoči statistiki pogosto opozarjajo na odstopanja ali napake pri meritvah, nato pa lahko odstopajočega iz nabora podatkov odstranijo. Če se dejansko odločijo odstraniti izstopajoče iz nabora podatkov, bi to lahko povzročilo pomembne spremembe v sklepih iz študije. Zato je pomembno, da izračunamo in določimo odstopanja, če želimo pravilno interpretirati statistične podatke.

Stopati

  1. Naučite se, kako opaziti možne odstopanja. Preden se lahko odločimo, ali bomo iz določenega nabora podatkov odstranili nepravilne vrednosti, moramo najprej najprej ugotoviti možne odstopanja v naboru podatkov. Na splošno so odstopanja podatkovne točke, ki bistveno odstopajo od trenda, ki tvori druge vrednosti v nizu - z drugimi besedami, ustreli ven drugih vrednosti. Običajno je to enostavno prepoznati v tabelah in (zlasti) v grafih. Če je nabor podatkov vizualno prikazan, bodo odstopanja »daleč« od ostalih vrednosti. Če na primer večina točk v naboru podatkov tvori ravno črto, odstopanja ne bodo ustrezala tej črti.
    • Oglejmo si nabor podatkov, ki prikazuje temperature 12 različnih predmetov v sobi. Če temperatura 11 predmetov niha za največ nekaj stopinj okoli 21 ° C, medtem ko ima en predmet, pečica, temperaturo 150 ° C, lahko že na prvi pogled vidite, da je pečica verjetno nenavadna.
  2. Razvrsti vse podatkovne točke od najnižje do najvišje. Prvi korak pri izračunu odstopanj je poiskati srednjo vrednost (ali srednjo vrednost) nabora podatkov. Ta naloga postane veliko lažja, če so vrednosti v naboru v vrstnem redu od najnižje do najvišje. Pred nadaljevanjem torej razvrstite vrednosti v naboru podatkov tako.
    • Nadaljujmo z zgornjim primerom. Tu je naš nabor podatkov, ki prikazuje temperature v stopinjah Fahrenheita za različne predmete v sobi: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Če razvrstimo vrednosti v nizu od najnižjega do najvišjega, to postane naš novi niz: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Izračunajte mediano nabora podatkov. Mediana nabora podatkov je podatkovna točka, kjer je polovica podatkov nad njo, polovica podatkov pa pod njo - dejansko je "središče" nabora podatkov. Če nabor podatkov vsebuje liho število točk, je mediano enostavno najti - mediana je točka s toliko točkami zgoraj kot spodaj. Če je sodo število točk, ker ni enega središča, morate vzeti povprečje obeh središčnih točk, da poiščete mediano. Pri izračunu odstopanj se na mediano običajno sklicuje spremenljivka Q2 - ker leži med Q1 in Q3, prvi in ​​tretji kvartil. Te spremenljivke bomo določili kasneje.
    • Naborov podatkov s sodo številom točk ne smete zamenjati - povprečje dveh srednjih točk je pogosto število, ki ni v samem naboru podatkov - to je v redu. Če pa sta obe srednji točki enaki, bo povprečje seveda tudi to število - tudi to je v redu.
    • V našem primeru imamo 12 točk. Srednja dva izraza sta točki 6 in 7 - 70 oziroma 71. Mediana našega nabora podatkov je torej srednja vrednost teh dveh točk: ((70 + 71) / 2) =70,5.
  4. Izračunaj prvi kvartil. Ta točka, ki jo označujemo s spremenljivko Q1, je podatkovna točka, pod katero leži 25 odstotkov (ali četrtina) opazovanj. Z drugimi besedami, to je središče vseh točk v vašem naboru podatkov spodaj mediana. Če je pod srednjo vrednostjo sodo število vrednosti, morate znova vzeti povprečje obeh srednjih vrednosti, da poiščete Q1, kot ste morda naredili sami, da določite srednjo vrednost.
    • V našem primeru je šest točk nad mediano in šest točk pod njo. Da bi našli prvi kvartil, moramo vzeti povprečje obeh srednjih točk v spodnjih šestih točkah. Točki 3 in 4 spodnjih šestih sta obe 70, zato je njihova srednja vrednost ((70 + 70) / 2) =70. Torej je naša vrednost za Q1 70.
  5. Izračunaj tretji kvartil. Ta točka, ki jo označujemo s spremenljivko Q3, je podatkovna točka, nad katero leži 25 odstotkov podatkov. Iskanje Q3 je praktično enako iskanju Q1, le da v tem primeru iščemo točke nad mediana.
    • Če nadaljujemo z zgornjim primerom, vidimo, da sta dve srednji točki šestih točk nad mediano 71 in 72. Srednja vrednost teh dveh točk je ((71 + 72) / 2) =71,5. Torej je naša vrednost za Q3 71,5.
  6. Poiščite interkvartilno območje. Zdaj, ko smo določili Q1 in Q3, moramo izračunati razdaljo med tema dvema spremenljivkama. Razdaljo med Q1 in Q3 lahko najdete tako, da Q1 odštejete od Q3. Vrednost, ki jo dobite za interkvartilno območje, je ključnega pomena za določanje meja za točke, ki ne odstopajo v vašem naboru podatkov.
    • V našem primeru sta vrednosti za Q1 in Q3 70 oziroma 71,5. Za iskanje interkvartilnega območja izračunamo Q3 - Q1: 71,5 - 70 =1,5.
    • To deluje tudi, če so Q1, Q3 ali obe številki negativni. Na primer, če bi bila naša vrednost za Q1 -70, bi bil interkvartilni razpon 71,5 - (-70) = 141,5, kar je pravilno.
  7. Poiščite "Inner Limits" nabora podatkov. Odstopanja lahko prepoznate tako, da ugotovite, ali spadajo v številne številčne omejitve; tako imenovane "notranje meje" in "zunanje meje". Točka, ki je zunaj notranjih meja nabora podatkov, je razvrščena kot ena blago odstopajoče, točka zunaj zunanjih meja pa je razvrščena kot ena skrajno drugače. Če želite najti notranje meje nabora podatkov, najprej pomnožite interkvartilno območje z 1,5. Rezultat dodajte v Q3 in ga odštejte od Q1. Oba rezultata sta notranji meji vašega nabora podatkov.
    • V našem primeru je interkvartilni razpon (71,5 - 70) ali 1,5. Pomnožite to z 1,5, da dobite 2,25. To število dodamo Q3 in odštejemo od Q1, da poiščemo notranje meje, kot sledi:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Notranje meje so torej 67,75 in 73,75.
    • V našem naboru podatkov je samo temperatura pečice - 300 stopinj Fahrenheita - zunaj tega območja. Torej je to lahko nekoliko bolj odštekano. Vendar še nismo ugotovili, ali je ta temperatura skrajno bolj odstopajoča, zato še ne pretiravajmo s sklepi.
  8. Poiščite "zunanje omejitve" nabora podatkov. To naredite na enak način kot pri notranjih mejah, z edino razliko, da medkvartilno razdaljo pomnožite s 3 namesto z 1,5. Nato rezultat dodate Q3 in odštejete od Q1, da poiščete zunanje mejne vrednosti.
    • V našem primeru pomnožimo interkvartilno razdaljo s 3, da dobimo (1,5 * 3) ali 4,5. Zdaj lahko zunanje meje najdemo na enak način kot notranje meje:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Zunanje meje so torej 65,5 in 76.
    • Podatkovne točke, ki ležijo zunaj zunanjih meja, veljajo za skrajne izstopajoče. V našem primeru temperatura pečice, 300 stopinj Celzija, presega zunanje meje. Torej je temperatura pečice vsekakor skrajni odštekanec.
  9. Uporabite kvalitativno oceno, da ugotovite, ali bi morali "izločiti" izstopajoče. Z zgornjo metodo lahko ugotovite, ali so določene točke blage, skrajne ali sploh ne. A da ne bo pomote - če točko prepoznate kot odštekanega, je le ena kandidat odstraniti iz nabora podatkov in ne takoj odstraniti točko mora spremeniti se v. The razlog zakaj se odstotek razlikuje od ostalih točk v nizu, je ključnega pomena pri določanju, ali naj se odstopalec odstrani. Običajno se odstranijo odstopanja, ki jih povzroči kakšna napaka - na primer napaka pri meritvah, snemanjih ali poskusni zasnovi. Nasprotno pa ponavadi postanejo odstopanja, ki jih ne povzročajo napake in ki razkrivajo nove, nepredvidene informacije ali trende ne črtano.
    • Drugo merilo, ki ga je treba upoštevati, je, ali odstopanja vplivajo na sredino nabora podatkov tako, da je popačen ali zavajajoč. To je še posebej pomembno, če nameravate sklepati na podlagi povprečja podatkovnega niza.
    • Sodimo svoj primer. Ker je najvišji Malo verjetno je, da je peč zaradi neke nepredvidene naravne sile dosegla temperaturo 300 ° F, v našem primeru lahko s skoraj 100-odstotno gotovostjo ugotovimo, da je bila peč po naključju vklopljena, kar je povzročilo nenormalno visoke temperature. Poleg tega, če ne odstranimo odmika, se povprečje našega nabora podatkov prikaže na (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, medtem ko je povprečje brez zunanji izstopa na (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Ker je odmik povzročil človeška napaka in ker je napačno trditi, da je bila povprečna sobna temperatura blizu 32 ° C, se moramo odločiti, da uporabimo svoj odmik. Odstrani.
  10. Razumeti pomembnost (včasih) zadrževanja izstopajočih. Medtem ko bi bilo treba nekatere naštevanja odstraniti iz nabora podatkov, ker so rezultat napak ali ker rezultate zavajajo na zavajajoč način, je treba druge izstopajoče podatke ohraniti. Če je na primer pravilno pridobljen odmik (in torej ni rezultat napake) in / ali če odmik ponuja nov vpogled v pojav, ki ga je treba izmeriti, ga ne bi smeli takoj odstraniti. Znanstveni eksperimenti so še posebej občutljive situacije, ko gre za spopadanje s tujki - napačno odstranjevanje odklona lahko pomeni zavreči pomembne informacije o novem trendu ali odkritju.
    • Na primer, predstavljajmo si, da načrtujemo novo zdravilo, s katerim bi ribe v ribogojnici postale večje. Uporabimo svoj stari nabor podatkov ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), s to razliko, da vsaka točka zdaj predstavlja maso ribe (v gramih ) po zdravljenju z drugim poskusnim zdravilom od rojstva. Z drugimi besedami, prvo zdravilo je dalo eni ribi maso 71 gramov, drugo je dalo maso drugi ribi 70 gramov itd. V tej situaciji 300 še vedno velik izpad, vendar ga zdaj ne bi smeli odstraniti. Ker če domnevamo, da odstopanje ni rezultat napake, pomeni velik uspeh v našem poskusu. Zdravilo, ki je dalo 300 gramov rib, je delovalo bolje kot katero koli drugo zdravilo, zato je to to najbolj pomembna podatkovna točka v našem naboru, namesto vsaj pomembna podatkovna točka.

Nasveti

  • Če najdete izstopajoče, jih poskusite razložiti, preden jih odstranite iz nabora podatkov; lahko označujejo merilne napake ali odstopanja pri porazdelitvi.

Nujnosti

  • Kalkulator