Statistika ne biznes dhe ekonomiks


Textbook, 2020

212 Pages


Excerpt

Lista e figurave

Lista Tabela

Liste e grafikeve

Kapitulli 1 Hyrje në Statistikë

Kapitulli 2 Probabiliteti

KAPITULLI 3 Shpërndarjet e probabilitetit të variablave të rastit

KAPITULLI 4 Mostra statistikore: vleresimi pikesor dhe i intervalit

Kapitulli 5 TESTET E HIPOTEZAVE

KAPITULLI 6 VENDIMET STATISTIKORE BAZUAR NË DY MOSTRAT

KAPITULLI 7 PËRFSHIRJET RRETH VARIANCES SE POPULLSISË DHE TESTET E PERSHTATJES DHE PAVARESISE

KAPITULLI 8 REGRESION I THJESHTË LINEAR

Kapitulli

Aneksi

References

Lista e figurave

Figure 1. Statistika me ndarjet në nëntipet e saj

Figure 2. Ilustrimi si mund të riprezantohet bashkësia duke përdorur diagraminin e Venit

Figure 3. Kuptimi i Probabilitetit

Figura 4. Diagrami Venn që paraqet dy ngjarje reciproke ekskluzive A Ovale në blu) dhe B (ovale në të kuqe) brenda Hapësirës së mostrës (kuti drejtkëndësh).

Figura 5. Diagrami Venn që paraqet ngjarjet A (ovale në vjollcë) dhe B (ovale në të kuqe dhe vjollcë) brenda hapësirës së mostrës kutia drejtkëndëshe) e tillë që A ∩ B = A.

Figure 6. Diagrami i Venit per ilustrimin bazik te teoremes se probabilitetit Katerkendeshi permban shembullin e hapesires dhe zonat rrethore perfaqesojne ngjarjet E1,E2,E3.

Figure 7. Ilustrimi I regullave te vendimit statistikor per hipotezat e njeanshme(lart), (mes)dhe te dyanshme (poshte) konsideruar mesatares se popullimit μ. 100

Lista Tabela

Tabele 1. Përshkrimi i të dhënave

Tabela 2: Shkalla më e lartë e universitetit, Burimi Forbes, Vol 155, No11, 199

Tabela 3. Përmbledhje e të dhënave nga tabela 1.

Tabela 4. Rroga javore e punonjesve te kompanise ne (mijera dollare $)

Tabela 5. Rroga javore e punonjesve te kompanise ne (mijera dollare $) sipas rendit rrites

Tabela 6. Frekuenca e shpërndarjes nga tabela 5.

Tabela 7. Indeksi i cmimit të konsumit për vendet e selektuara 1980, 100.Burimi Fondi monetary I zhvillimit statistikat internacionale financiare

Tabela 8. Norma e inflacionit vit pas viti per vendet e listuara me siper .Perqindjet per vit

Tabela 9. Statusi i rendit ka dy kategori: ‘pjesë e saktë’ (C) dhe ‘e pasaktë pjesë ”(I).

Tabela 10. Koha e dorezimit

Tabela 11. Vlera e pritshme X është:

Tabela 12. Llogaritja e variances për gjatësinë e qëndrimit në spital mund të organizohet në tabelën më poshtë:

Tabela 13. Dy variablat e rastit diskret X dhe Y secila marrin dy vlera, 2 dhe 3, 5 dhe 10 respektivisht. Të katër numrat në katror japin shpërndarjen e përbashkët të probabilitetit të X dhe Y - kjo përfaqëson, mundësitë si

Tabela 14. Llogaritja e kovariancës mund të llogaritet duke përdorur tabelën:

Tabele 15. Duke marrë parasysh faktin se n! = (4) (3) (2) (1) = 24, probabiliteti i shpërndarjes mund të llogaritet duke aplikuar ekuacionin si më poshtë:

Tabele 16. Frekuencat e te ardhura si ne testin e meposhtem sipas renditjes

Tabele 17. Shperndarja e frekuences se frekuencave

Tabele 18 .Shqyrtoni një shembull. Supozoni se numri i thirrjeve në urgjencën 911 numri në mes 8:00 dhe 8:30 pasdite të Premten është një rastësi ndryshore Poisson X me λ = 3.5. Ne mund të llogarisim një pjesë të probabilitetit te shpërndarja si më poshtë:

Tabele 19. Shpërndarja e probabilitetit për këtë proces është pra

Tabela 20.Supozoni se procesi me të cilin prodhohen këpucët gjeneron shpërndarjen e mëposhtme të probabilitetit të popullsisë për të tre vlerat që mund të marrë ndryshorja e rastësishme X

Tabele 21. Mundesite e mostrimit te shembullit te kepucareve.

Tabela 22 Intervali me i madh i besimit 1-α behet me i madh α / 2 behet me i vogel dhe z duhet te rritet

Tabela 23. Profesionet u ndanë në katër klasa: profesioniste / biznesi, të aftë, të pa kualifikuar dhe fermer, të dhënat tabulohen si më poshtë:

Tabela 24.Rrjedhim I tabeles 23

Tabela 25 .Probabilitetet e përbashkëta nën hipotezën e pavlefshme se profesionet e baballarëve dhe profesionet e djemve janë të pavarura j si më poshtë.

Tabela 26. Kjo jep si më poshtë tabela e rezultateve aktuale dhe të pritura, me rezultatet e pritura në kllapa nën rezultatet aktuale.

Tabela 27. Nga kjo pikë procedura është e njëjtë si në provën e normalitetit. Tabulimi, duke punuar nga e majta në të djathtë, rresht pas rresht, si më poshtë:

Tabela 28. Rezulton se shuma totale e devijimeve relative katrore nga ato që priten vlerat, të përfaqësuara nga numri 181.28 në fund të së djathtës më së shumti kolona,

Tabele 30. Kolonat (1) dhe (2) të fletës së punës i japin paratë nominale te furnizuesve kanadeze dhe Prodhimi i Brendshëm Bruto nominal kanadez (PBB) në miliarda dollarë aktualë

Liste e grafikeve

Grafiku 1. Shpërndarja e menaxherëve sipas subjektit të diplomave

Grafiku 2. Histogrami I pageses javore për meshkujt (në fillim), femrave (në mes) dhe të gjithë punonjësve në fund.Boshti horizontal I shprehur në mijëra dollarë $ 22

Grafiku 3. Box plot e rrogave javore për meshkuj (majtas) dhe femrave (djathtas): Boshti vertical i shprehur në mijëra dollarë §

Grafiku 4. Indeksi i cmimit të konsumit për vendet e përzgjedhura

Grafiku 5. Normat e inflacionit vit pas viti për vendet e përzgjedhura.

Grafiku 6. Serite kohore marre nga autokorrelacioni

Grafiku 7. Shpërndarja bimadale (lart) dhe njemodalë ose shpërndarje me gunga (poshtë)

Grafiku 8. Shperndarja e Kurbes e anuar majtas (lart mesatarja 55, 1, mediana 58, moda 75) dhe shperndarja e kurbes a anuar djathtas (poshte mesatarja 46.4, mediana 43.5, dhe moda 35)

Grafiku 9. Funksioni i mases se probabilitetit (lart) dhe Funksioni kumulativ i probabilitetit (poshte) per variablat e rastesishem diskret

Grafiku 10. Densiteti i probabilitetit dhe probabiliteti i

Grafiku 11.Probabiliteti i përbashkët I funksioit të densitetit variablave të rastësishme të standartizuara

Grafiku 12. Akset e majta dhe të djathta korrespondojnë me densitetin e Probabilitetit dhe funksionin e shpërndarjes me një ndryshore standarde normale, respektivisht. Për të shmangur këtë problem, tabelojmë vetëm shpërndarjen normale standarde N (0, 1), i cili ka intervalin mesatar dhe të njësisë zero, duke pasur parasysh që mund të marrim ndonjë shpërndarje tjetër normale me anë të një transformimi të thjeshtë afine: Z

Grafiku 13. Tre anetare te ndryshem ne nje shperndarje probabilitare normale

Grafiku 14. Shperndarja probabilitare Poisson me λ = 0.5 (lart), paneli i mesëm tregon një λ = 3 dhe paneli I poshtem λ = 0.5

Grafiku 14. Shperndarja probabilitare uniforme diskrete (lart) Dhe shperndarja uniforme e vazhdueshme (posht)

Grafiku 15. Akset e majta dhe të djathta përkatësisht korrespondojnë me densitetin e probabilitetit dhe funksionin e shpërndarjes e nje ndryshoreje standarde eksponenciale të rastësishme, domethënë, një eksponenciale me λ = 1.

Grafiku 16. Frekuencat relative te mesazares nga 1000 te 50 ne funksionin me μ = 0.2 dhe σ2 =0.0036

Grafiku 17. Zonat (1-- α) dhe α / 2 (vijezuar) per nje shperndarje probabilitare standarte normale me α=0.05

Grafiku 18. Nje shperndarje t krahasuar me shperndarjen normale. Shperndarja t eshte shperndare si ne figure.

Grafiku 19. Ilustrimi I testeve te hipotezave te njeanshme majtas (lart), te njeanshme djathtas (mes) dhe te dyaneshme (posht)

Grafiku 20. Fuqia e testit te vlerave te ndryshme te mesatares

Grafiku 21. Mundesite e refuzimit, risku β dhe fuqia e testit

Grafiku 22. Mundesite e refuzimit te dyanshme

Grafiku 23. Selektimi I madhesise optimale ne problemin e marreveshjeve te problemit (lart) dhe problemet e shipment (poshte)

Grafiku 24. Zona me të verdhë korrespondon me 1% të masës së probabilitetit të një standardi shpërndarjeje normale (d.m.th., 0.5% në bishtin e poshtëm plus 0.5% në bishtin e sipërm), ndërsa zona me të verdhë dhe blu përgjigjet për 5% të masës së probabilitetit (d.m.th., 2.5% në bishtin e poshtëm plus 2.5% në bishtin e sipërm). Më në fund, zona me trëndafili përfshin një tjetër 2, 5% të probabilitetit masa në secilën prej bishtave, në mënyrë që zona me të verdhë, blu dhe rozë të arrijë në 10% të masa e probabilitetit të një shpërndarjeje normale standarde.

Grafiku 25. Funksionet e fuqisë së testeve të njëanshme për H0: θ = θ0 120

Grafiku 26. Shperndarja e katroreve te vegjel /chi-square me 24 shkalle lirie. Vija vertikale tregon qe mesatarja dhe vlerat ne linjen e holle vertikale per intervalin e besimit 99 perqind

Grafiku 27. Një shpërndarje F me 10 shkallë lirie në numëruesi dhe 8 shkallë lirie në emërues.

Grafiku 28. Modelui i thjeshte i regresionit linear

Grafiku 29. Nje probabilitet ose marredhenie statistike ndermjet X dhe Y.

Grafiku 30. Regression I thjeshte I Y ne X. Shperndarja probabilitare e Y ne X

Grafiku 31. Pershtatja e katroreve me te vegjel ne shumen e distancave vrtikale ne katror e te dhenave ne linjen e katroreve me te vegjel.

Grafiku 32. Marredheniet funksionale te verteta (vija e holle) ndermjet pikesimit SAT dhenjehsimit te GPA

Grafiku 33 Grafiku i linjes se regresionit te dshitjes dhe menaxheret ne vitet e edukimit (linja e parwe) te jjere menagjere ne vitet e edukimit linja e poshtme ) dhe te gjithe menagjeet ne vitet e edukimit (linja e mesit )

Grafiku 34: Një ilustrim i multikolinearitetit të X1 dhe X2 në parashikimin e Y.

Grafiku 35. : Mbetjet nga regresioni i pronave kanadeze të parave reale në shkallën e letrës tregtare 90- ditore të vendit dhe GNP reale të komplotuara kundër kohës.

Grafiku 37. Grafiku nga nje regression linear qe sugjeston marredheniet ne jolinearitet

Grafiku 38. Pamjet nga regresioni I pare nemodelin e mesatares se notave ne pikezimin e testit

Grafiku 39. Grafiku nga regresioni I dyte I modelit I mesataresse notave ne piket e testit

Kapitulli 1 Hyrje në Statistikë

1.1 Hyrje

Në përdorim të zakonshëm, njerëzit mendojnë për statistikat si të dhëna numerike - shkalla e papunësisë muajin e kaluar, shpenzimet totale të qeverisë vitin e kaluar, numri i aksidenteve të dëmtuar gjatë sezonit të fundit të pushimeve, krimet në qyteteve, etj. Edhe pse nuk ka asgjë të keqe në këtë këndvështrim për qasjen e statistikave. Në këtë libër do mundohemi të marrim një qasje më të thellë. Ne do të shohim statistikat për mënyrën sesi e shohin statistikanet profesionistë - si një metodologji për të mbledhur, klasifikuar, përmbledhur, organizuar prezantuar, analizuar dhe interpretuar informacionit numerik. Statistika eshte shkenca dhe arti i të kuptuarit të të dhënave sasiore dhe cilësore. Mendimi statistikor tani mbizotëron pothuajse në çdo fushë të shkencës, përfshirë shkencat shoqërore të tilla si biznesi, ekonomia, menaxhimi dhe marketingu. Eshte virtualisht e pamundur praktikisht të shmangësh të dhënat në analiza nëse dëshiron të monitorosh dhe përmirësosh cilësinë e produkteve dhe proceseve brenda një organizate biznesi. Kjo do të thotë që ekonomistët dhe menaxherët duhet të merren pothuajse çdo ditë me mbledhjen e të dhënave, menaxhimin dhe analizën e tyre.

1.2 Statistika përshkruese deskriptive dhe statistika analitike.

Zbatimi i të menduarit statistikor përfshin dy grupe procesesh.

Së pari, ka përshkrimin dhe prezantimin e të dhënave. Së dyti, është procesi i përdorimit të të dhënave për të dalë në disa përfundime në lidhje me tiparet e mjedisit nga i cili janë zgjedhur të dhënat ose për mekanizmin themelor që gjeneron të dhëna, të tilla si funksionimi i vazhdueshëm i ekonomisë, sistemi i kontabilitetit ose linjat prodhuese në një firmë biznesi.

E para quhet statistika përshkruese dhe e dyta statistika analitike.

Statistikat analitike përdorin metoda numerike dhe grafike për të gjetur modele në të dhëna, për të përmbledhur informacionin që zbulon dhe për të paraqitur atë informacion në një mënyrë domethënës. Statistikat analitike përdorin të dhënat për të bërë vlerësime, vendime, parashikime ose përgjithësime të tjera rreth ambjenti nga i cili janë marrë të dhënat.

Cdo gjë në lidhje me statistikat përshkruese është paraqitur në pjesën tjetër të këtij kapitulli. Pjesa tjetër e librit do të përqëndrohet tërësisht mbi statistikën përshkruese. Para se të drejtoheni në mesataret e statistikave përshkruese, sidoqoftë, vlen të hedhim një vështrim të shkurtër mbi natyrën e statistikave.

Abbildung in dieser Leseprobe nicht enthalten

Fig 1. Statistika me ndarjet në nëntipet e saj

1.3 Një vështrim në statistikën deskriptive, përshkruese.

Statistika deskriptive në thelb përfshin përpjekjen për të marrë informacion në lidhje me një popullatë ose proces duke analizuar një mostër elementesh nga kjo popullsi ose proces.

Një popullatë përfshin njësinë e grupeve. - Zakonisht njerëzit, objektet, transaksionet ose ngjarjet - për të cilat të interesuarit të mësojnë.

Për shembull, mund të jemi të interesuar për efektet e shkollimit në të ardhurat në jetën e pas shkollimit lidhur me të ardhurat e grumbulluara, në këtë rast popullësia përkatëse do të ishin të gjithë njerëzit që realisht punojnë. Ose mund të interesohemi se si njerëzit do të votojnë në zgjedhjet e ardhshme lokale në këtë rast popullsia përkatëse do të jenë të gjithë votuesit në zonën lokale të caktuar. Ose një biznes mund të jetë i interesuar për natyrën e kredive të këqija, në këtë rast popullata përkatëse do të jetë tërësia e kredive të këqija në sistemin e kreditit.

Një proces është një mekanizëm që prodhon rezultate. Për shembull, një biznes do të interesohej për produktet me defekt që dilnin nga një linjë e veçantë e montimit, në këtë rast procesi është rrjedhë e prodhimit jashtë linjave të montimit. Një ekonomist mund të interesohet si norma e papunësisë ndryshon me ndryshimet në politikën monetare dhe fiskale. Këtu, procesi është fluksi i punësimeve të reja dhe pushimeve nga puna ndërsa sistemi ekonomik ndryshon nga viti në vit. Ose mund të interesohemi për efektet e pirjes gjatë dhënies së makinës, në këtë rast procesi themelor është gjenerimi i vazhdueshëm i aksidenteve automobilistikë ndërsa shoqëria shkon për aktivitetet e saj.

Vini re se një proces është thjesht një mekanizëm i cili, nëse mbetet i paprekur, përfundimisht prodhon një popullatë të pafundme. Të gjithë votuesit, të gjithë punëtorët dhe të gjitha kreditë e këqija mund të numërohen dhe renditen. Por tërësia e aksidenteve që gjenerohen nga pirja dhe drejtimi i makinës ose prej shufrave prej çeliku që prodhohen nga një furrë nuk mund të llogariten sepse këto procese në formën e tyre të tanishme mund të jenë të vazhdueshme përgjithmonë.

Fakti që mund të llogarisim numrin e aksidente në një vit të caktuar, dhe numri i shufrave të çelikut të prodhuar nga një furrë në një javë të caktuar sugjeron që të mund të punojmë me popullsi të fundme që vijnë nga proceset. Pra, nëse mendojmë për interes në raste të veçanta si një popullsi e kufizuar ose popullatë e pafundme e gjeneruar nga një përjetësim i gjendjes aktuale të një procesi varet nga ajo që duam të zbulojmë. Nëse jemi të interesuar në përqindjen e aksidenteve të shkaktuara nga të dehurit që ngasin makinë gjatë vitit të kaluar, popullsia është numri i përgjithshëm i aksidenteve atë vit. Nëse jemi të interesuar për efektet e pirjes në ngjarje, është popullata e pafundme e aksidenteve që vijnë nga një vazhdimësi e përhershme e gjenerimt të procesit aktual të aksidenteve që na shqetëson.

Një kampion/moster/zgjedhje është një nënbashkësi e njësive që përbëjnë një popullsi të kufizuar ose të pafundme.

Për shkak se është e kushtueshme të ekzaminohet shumica e popullsive të fundme, dhe e pamundur të ekzaminohen të gjitha rezultatet e një procesi, statistikanët përdorin mostrat nga popullatat dhe proceset për të bërë konkluzione në lidhje me karakteristikat e tyre. Natyrisht, aftësia për të bërë konkluzione të sakta në lidhje me një popullsi të kufizuar ose të pafundme bazohet në një kampion /mostër/zgjedhje duke qënë përfaqësues i popullatës. Pra, mënyra në të cilën një kampion është zgjedhur nga një popullatë ka një rëndësi ekstreme.

Një shembull klasik i rëndësisë së marrjes së mostrave përfaqësuese e ilustrojme me një ndodhi në presidencën e vitit 1948 në zgjedhjet në Shtetet e Bashkuara. Demokrati Harry Truman, ishte duke u sfiduar nga Guvernatori Republikan Thomas Dewey i New York-ut. Sondazhet parashikuan që Dewey të ishte fituesi, por Truman në fakt fitoi. Në mënyrën e procedimit me mostrat e përdorura, sipas sondazheve u telefonuan njerëzve rastësisht, duke harruar për të marrë parasysh që njerëzit shumë të dobët ekonomisht nuk kishin mundësinë e zotërimit të telefonave. Pikërisht kjo masë e popullatës së varfër kishte tendencë të votonin për Partinë Demokratike, një fraksion i mjaftueshëm i mbështetësve të Trumanit kishin mbetur jashtë mostrave për ti bërë ato mostra jo-përfaqësuese të popullatës. Si rezultat, konkluzioni në lidhje me përqindjen e popullsisë që do të votonin për Truman bazuar në proporcionin e ekzaminuar që synonin të votonin Truman ishin të pasakta.

Më në fund, kur bëjmë konkluzione në lidhje me karakteristikat e fundme ose popullsi të pafundme bazuar në një mostër, kemi nevojë për një masë të besueshmërisë së metodës statistikore të përdorur. Cilat janë shanset që mund të jemi gabim. Ne kemi nevojë jo vetëm për një parashikim në lidhje me karakteristikën e popullsisë së interesuar (për shembull, përqindja me të cilën pagat e maturantëve tejkalojnë pagat e atyre që nuk shkuan në kolegj) por disa masa sasiore të shkallës së pasigurisë që lidhet me përfundimin tonë Rezultatet e sondazheve që parashikojnë zgjedhjet janë shpesh deklaruar si të besueshme brenda tre pikëve përqindje, nëntëmbëdhjetë herë jashtë prej njëzet. Në kohën e duhur do të mësoni se çfarë do të thotë kjo deklaratë. Por së pari duhet të ekzaminojmë teknikat e statistikave përshkruese.

1.4 Llojet e të dhënave

1.4.1 Mbledhja e të dhënave

Mbledhja e të dhënave përfshin dy vendime kryesore. E para i referohet asaj që duhet të matet. Në përgjithësi nuk është domosdoshmërisht rasti që variabla më e lehtë për t’u matur është më e rëndësishme për problemin specifik që duhet të zgjidhim.

E dyta ka të bëjë me mënyrën e marrjes së të dhënave. Ndonjëherë mbledhja e të dhënave është pa kosto, p.sh. Një çështje e thjeshtë e shkarkimit nga interneti. Sidoqoftë, ka shumë situata në të cilat duhet të merret një qasje më aktive dhe të ndërtohet një grup i të dhënave nga e para.

Mbledhja e të dhënave zakonisht përfshin ose marrjen e mostrave ose eksperimentin.

Megjithëse kjo e fundit është më pak e zakonshme në shkencat shoqërore, duhet pasur gjithmonë parasysh që nuk ka nevojë për një laborator për të ekzekutuar një eksperiment. Ka mjaft hapësirë ​​për eksperimente brenda organizatave.

Dhe nuk po flasim ekskluzivisht për kërkime dhe zhvillim. Për shembull, mund të parashikojmë një konkurs të shitjeve për të provuar se si reagojnë shitësit në nivele të ndryshme të performances nga stimujt.

Ky është vetëm një shembull i një drejtuesi kryesor për të përmirësuar cilësinë e produkteve dhe proceseve.

Mostra/ kampioni është një qasje shumë më e natyrshme në shkencat sociale.

Është më e lehtë për tu vlerësuar por ndonjëherë është shumë e kushtueshme, nëse jo e pamundur, të mblidhen të dhëna universale dhe kështu ky kuptim për të kufizuar vëmendjen për një kampion përfaqësues të popullatës. Për shembull, ndërsa të dhënat e regjistrimit janë të disponueshme vetëm çdo 5 ose 10 vjet për shkak të kostos mund të gjesh studime biznesi me të dhëna vjetore, tremujore, mujore dhe ndonjëherë edhe frekuencë javore.

1.4.2 Trajtimiitë dhënave

Të dhënat e papërpunuara nuk janë normalisht shumë të dobishme pasi normalisht duhet të bëjmë manipulime të të dhënave para se të kryejmë ndonjë analizë statistikore. Përmbledhja e të dhënave është parësore për këtë qëllim. Kjo lejon jo vetëm të vlerësojmë se sa të besueshme janë të dhënat, por edhe të kuptojmë tiparet kryesore të të dhënave. Në përputhje me rrethanat, është hapi i parë i cdo analize sensitive të të dhënave.

Përmbledhja e të dhënave nuk ka të bëjë vetëm me formën e numrave. Në fakt, detyra e parë është të transferojë format e numrave në informacion të vlefshëm dhe pa ndryshim për të paraqitur grafikisht të dhënat. Një çift ​​grafikësh të thjeshtë bëjnë mrekulli në përshkrimin e veçorive më të spikatura të të dhënave. Për shembull, grafikët pie1 janë thelbësore për t'iu përgjigjur pyetjeve në lidhje me proporcionet dhe fraksionet. Për shembull, rreziku i një portofoli varet zakonisht nga sa investim i bërë është në aktivin pa rrezik, në lidhje me investimin e përgjithshëm të aseteve me rrezik, siç janë ato në tregjet e kapitalit, mallrave dhe obligacioneve.

Në mënyrë të ngjashme, është e rëndësishme për të hartuar burimin e problemeve që rezultojnë në një kërkesë garancie në mënyrë që të sigurojnë që dizajni dhe fokusi i menaxherëve të produktit të përqëndrojnë përpjekjet e tyre për përmirësim në përbërësit e duhur të produktit ose procesit të prodhimit Hapi i dytë është gjetja e vlerave tipike të të dhënave. Është e rëndësishme të dihet, për shembull, cila është e ardhura mesatare e familjeve në një lagje të caktuar rezidenciale nëse dëshironi të hapni një restorant të nivelit të lartë atje. Mesataret nuk janë të mjaftueshme, sidoqoftë, për interes nganjëherë mund të shtrihet në vlerat atipike. Është shumë e rëndësishme të kuptohet probabiliteti i ngjarjeve të rralla në menaxhimin e rrezikut. Industria e sigurimeve është shumë më e interesuar në ngjarje ekstreme (të rralla) sesa në mesatare.

Hapi tjetër është të ekzaminohet ndryshimi i të dhënave. Për shembull, kryesisht parimet e financave moderne lidhen me tregtinë e kthimet të rrezikut, ku zakonisht vlerësojnë rrezikshmërinë e një portofoli duke shikuar sesa vlera e kthimit ndryshon në madhësi në krahasim me vlerën mesatare të tyre. Në kontrollin e cilësisë, mund të përmirësojmë procesin duke rritur mesataren si dhe duke ulur ndryshueshmërinë e cilësisë. Kuptimi i ndryshueshmërisë është gjithashtu thelbësor për çdo mendim statistikor në atë që lejon të vlerësojmë nëse variacioni që vëzhgojmë në të dhëna është për shkak të diçkaje tjetër përveç ndryshimit të rastësishëm.

Hapi i fundit është të vlerësojmë nëse ka ndonjë model jo-normal në të dhëna. Për shembull, është interesante të ekzaminohet vetëm nëse të dhënat janë simetrike rreth ndonjë vlere por gjithashtu ka të ngjarë të vëzhgoni vlera jashtëzakonisht të larta që janë relativisht larg nga pjesa më e madhe e të dhënave.

1.4.3 Përshkrimi i të dhënave

Hapi i parë i analizës së të dhënave është përmbledhja e të dhënave duke vizatuar grafikë dhe tabela gjithashtu si dhe duke llogaritur disa statistika përshkruese. Këto mesatare në thelb synojnë të sigurojnë një kuptim më të mirë se sa të shpeshta janë vlerat e dallueshme të të dhënave dhe sa ndryshueshmëri ka rreth një vlerë tipike në të dhëna.

1.4.4 Shpërndarja e të dhënave

Dihet që një fotografi tregon më shumë se një milion fjalë. E njëjta gjë vlen për çdo analizë serioze të të dhënavë për grafikët është sigurisht ndër të dhënat më të mira dhe më të përshtatshme përshkruese. E fillojmë me një lloj kuptimi shumë të thjeshtë, edhe pse jashtëzakonisht të dobishëm të të dhënave duke zbuluar frekuencën në të cilën çdo vlerë e dhënë (ose interval) shfaqet në mostër. Një tabelë e frekuencës raporton numrin sa herë ndodh një vëzhgim i caktuar ose, nëse bazohet në terma relativë, shpeshtësia e asaj vlere të ndarë me numrin e vëzhgimeve në mostër.

Shembul l 1. Një firmë në industrinë e transformimit i klasifikon individët në pozicionet menaxheriale sipas gradës së tyre universitare. Aktualisht janë: 1 llogaritar, 3 administrim biznesi 4 ekonomiks, 7 inxhinier, 2 avokatë dhe 1 fizikant. Frekuenca përkatëse në tabelë është si më poshtë.

Abbildung in dieser Leseprobe nicht enthalten

Tabele 1. Përshkrimi i të dhënave

Shenim: Vërejmë që subjekti diplomë sipas tabelës është diploma që menaxheri mban, është e natyrës cilësore. Vlera sipas tabelës i referohet akordimit sipas një renditje sipas alfabetit, psh ‘Vlera’ referuar një rradhitje sipas alfabetit. Paraqitja grafike për këtë lloj kategorish të të dhënave është bar chart2

Abbildung in dieser Leseprobe nicht enthalten

Grafiku 1. Shpërndarja e menaxherëve sipas subjektit të diplomave Në kontrollin statistikor të cilësisë, shumë shpesh përdoret bar chart për të ilustruar arsyet për dështimet cilësore (sipas rëndësisë, d.m.th., frekuencës). Këto bar chart (të njohura gjithashtu me emrin Pareto) janë me të vërtetë shumë të njohura për tu fokusuar për përmirësime cilësore.

Bar chart-et janë dizajnuar qartë për të përshkruar shpërndarjen e të dhënave kategorike. Në një të ngjashme vein3, histogramet janë mjeti më i lehtë grafikor për vlerësimin e shpërndarjes së sasisë së të dhënave. Shpesh ndodh që së pari duhet të grupohen të dhënat në interval para se të ndërtojmë një histogram. Në kontrast me bar chart, histogramet janë të afërta, duke respektuar një lloj shkalle.

1.4.5 Matësit e tendencës qëndrore

Gjenden tre matës popullor të tendencës qëndrore: moda, mesatarja dhe mesorja/mediana.

Moda i referohet vëzhgimit më të shpeshtë në mostër. Nëse një ndryshore mund të marrë një numër të madh të vlerave, është më pas e përshtatshme për të grupuar të dhënat në interval. Në këtë rast, përcaktojmë nëse një variabël merr një numër të madh të vlerave, atëherë mënyra si vlera e mesit të intervalit më të shpeshtë. Mesatarja është lloji më i zakonshëm që përdoret dhe kështu shpesh përmendet thjesht si mesatare. Mesatarja e një numri numrash është shuma e të gjithë elementëve në grup të ndarë me numrin e elementeve:

Nëse një grup është një popullatë statistikore, atëherë quajmë atë një vlerë mesatare ose të pritshme të popullsisë. Nëse grupi i të dhënave është një monster, zgjedhje e popullsisë, e quajmë statistikë që rezulton në një mostër.

Së fundi, përcaktojmë mesataren si numrin që ndan gjysmën më të lartë të një kampioni / popullate nga gjysma e poshtme. Mund ta llogaritim mesataren e një numri të kufizuar numrash duke i renditur të gjitha vëzhgimet nga vlera më e ulët në vlerën më të lartë dhe zgjedhja e mesme eshte mesorja apo mediana.

Shembull 2. Konsideroni një zgjedhje e të diplomuarve në MBA, pagat e para të të cilëve (në 1000 dollarë në vit) pas diplomimit ishin si më poshtë:

Abbildung in dieser Leseprobe nicht enthalten

Paga mesatare është $ 126,140 për vit, ndërsa mediana është saktësisht $ 100,000 Dhe moda arrin në 95,000 dollarë.

Tani, nëse njëri grupon të dhënat të shpërndara në mënyrë të barabartë midis vlerave minimale dhe maksimale, si mesatare, ashtu edhe moda konvergjojnë në një vlerë të njëjtë me rreth 91,000 dollarë.

Vlera mesatare luan një rol të madh në statistikë. Megjithëse mesorja ka disa avantazhe mbi mesataren, kjo e fundit është më e lehtë për tu manipuluar sepse përfshin një kombinim të thjeshtë linear të të dhënave së një funksioni jo i dallueshëm si mesatarja.

Në kontrollin statistikor të cilësisë, për shembull, është shumë e zakonshme të shfaqet një grafik i mesatareve (gjithashtu i njohur si grafiku x-bar chart), i cili në thelb parashtron mesataren e një ndryshoreje me kalimin e kohës. Kështu mund të themi që një proces është një kontroll statistikor nëse mesataret ndryshojnë në mënyrë të rastësishme por në një gjendje të qëndrueshme, ndërsa është jashtë kontrollit statistikor nëse tregohet një ndryshim dramatik ose ndryshim sistematik Ndërsa masat e tendencës qendrore janë të dobishme për të kuptuar cilat janë vlerat tipike të të dhënave, masat e shpërndarjes janë të rëndësishme për të përshkruar shpërndarjen e të dhënave ose, ekuivalentisht, ndryshueshmërinë e të dhënave në lidhje me tendencën qëndrore. Dy mostra të dallueshme mund të kenë të njëjtën mesatare, por në nivele të ndryshme të ndryshueshmërisë, ose anasjelltas. Një përshkrim i duhur i grupit të të dhënave duhet të përfshijë gjithnjë këto karakteristika. Janë masa të ndryshme shpërndarjeje, secila me grupin e vet të avantazheve dhe disavantazheve.

Së pari përcaktojmë gamën e mostrës si ndryshim midis vlerave më të mëdha dhe më të vogla Në kampion. Kjo është një nga masat më të thjeshta të ndryshueshmërisë për tu llogaritur. Megjithatë, varet vetëm nga vlerat më ekstreme të mostrës dhe për këtë arsye është shumë e ndjeshme ndaj vëzhgimet atipike. Për më tepër, gjithashtu nuk jep informacion për çfarëdo lidhje me shpërndarjen e vlerave të mbetura të të dhënave.

Për ta shmangur këtë problem, mund të mendojmë për llogaritjen e diapazonit ndërkuartilor duke marrë ndryshimin midis kuartilit të tretë dhe të parë të shpërndarjes. (d.m.th., duke zbritur përqindjen e 25-të nga përqindja e 75-të).

Ky nuk është vetëm një tregues mjaft i mirë i përhapjes në rajonin qëndror të të dhënave, por është gjithashtu shumë më rezistent ndaj vlerave ekstreme sesa gama e mostrës.

Tani e kthejmë vëmendjen tonë drejt devijimit absolut mesatar, që bën edhe më shumë alternativë gjithëpërfshirëse të intervalit ndërkuartil duke përfshirë të paktën pjesërisht informacione nga të gjitha vlerat e të dhënave në mostër. Llogarisim devijimin mesatar absolut me anë të formulës Ku tregon operatorin median, duke dhënë një masë shumë të fortë të shpërndarjes ndaj vlerave në mostër. Më në fund, masa e devijimit standart është varësia e formuar nga rrënja katrore e variancës d.m.th, Ku, është mesatarja Avantazhi kryesor i variancës bazuar në masat e dispresionit është një funksion i një shembulli të mesatares. Në vecanti variancë e thjeshtë është katrori i thjeshtë i dispresionit Shembull 3 : Konsideroni shembullin e të diplomuarve në MBA nga shembulli i mëparshëm. Varianca e pagës së tyre të parë pas diplomimit është rreth 2,288,400,000 dollarë në vit, ndërsa devijimi standard është 47,837 dollarë. Gama është shumë më e madhe, duke arritur në 300,000 - 75,000 = 225,000 në vit.

Dallimi i madh midis këtyre dy masave të shpërndarjes sugjeron praninë e vlerave ekstreme në të dhëna. Fakti që rrezja interkuartile është si më poshtë:

Dhe kështu më afër devijimit standard duhet për të vërtetuar këtë interpretim. Më në fund, devijimi mesatar absolut i kampionit është vetëm 10,000 që tregon se vlerat e mostrës janë ndër më të mëdhatë (përkundrazi sesa vlerat më të vogla).

Në kontrollin statistikor të cilësisë, është gjithashtu e dobishme të planifikoni disa masa të shpërndarjes në kohë. Më të zakonshmet janë grafikët R dhe S, të cilët përkatësisht përshkruajnë se si diapazoni dhe devijimi standard ndryshon me kalimin e kohës. Devijimi standard është gjithashtu informues në një grafik të mesatares për intervalin [vlera mesatare ± dy devijime standarde] përmban rreth 95% të të dhënave nëse histogrami i tyre është afërsisht në formë kambane (simetrike me një kulm të vetëm).

Tjeter alternative është të planifikosh kufijtë e kontrollit në vlerën mesatare ± tre devijime standarde, të cilat duhet të përfshihen të gjitha të dhënat. Vetëm variacionet që ka shumë të ngjarë të pasqyrojnë diçka jashtë kontrollit do të bien jashtë kufijve të kontrollit Një sistem i kontrolluar statistikor i dizajnuar mirë duhet të marrë mesataren dhe shpërndarjen Listat në konsideratë është e mundur të përmirësohen në cilësi duke zvogëluar ndryshueshmërinë dhe / ose duke rritur cilësinë mesatare.

1.4.6. Llojet e të dhënave

Ekzistojnë tre lloje të përgjithshme të grupeve të të dhënave: ndër-seksionale, seriale kohore dhe Panel. Dhe ekzistojnë dy lloje të të dhënave - sasiore dhe cilësore. Të dhënat sasiore mund të regjistrohen në një shkallë numerike natyrore.

Shembull 4 . Marrim produktin kombëtar bruto (matur në dollarë) dhe indeksin e çmimeve të konsumimit (i matur si përqindje e një niveli bazë). Të dhëna cilësore nuk mund të matin një shkallë numerike natyrisht që ndodh por mundet vetëm të klasifikohen në një nga grupet kategorike. Një shembull është një seri e të dhëna nëse aksidentet automobilistike të ndodhura gjatë një periudhe kohe të caktuar rezultojnë me kallëzime penale.

Abbildung in dieser Leseprobe nicht enthalten

Tabela 2: Shkalla më e lartë e universitetit,

Burimi Forbes, Vol 155, No11, 199

Tabela 2. Paraqet një tërësi të dhënash thjesht cilësore. Ajo jep shkallën më të lartë marrë nga njëzet drejtuesit me pagë më të lartë në Shtetet e Bashkuara në një kohë të veçantë. Arritja arsimore është një cilësi, jo sasiore, e ndryshueshme. Ajo hyn në një nga katër kategoritë: Asnjë, Bachelor, Master, ose Doktoratë.Për ta organizuar këtë informacion në një mënyrë domethënëse, duhet për të ndërtuar një përmbledhje të llojit të treguar në Tabelën 3. Hyrjet në këtë tabelë janë marrë duke numëruar elementët në kategoritë e ndryshme në Tabelen 2. — Për grupe më të mëdha të të dhënave mund të përdorim programin e spreadsheet në kompjuter për të bërë numërimin.

Abbildung in dieser Leseprobe nicht enthalten

Tabela 3. Përmbledhje e të dhënave nga tabela 1.

Një diplomë bachelor ishte më e zakonshme e mbajtur përfundimisht, duke aplikuar në dyzet e pesë përqind të rasteve, pasuar me diplomë master, një doktoraturë dhe aspak diplomë.

Abbildung in dieser Leseprobe nicht enthalten

Tabela 4. Rroga javore e punonjesve të kompanisë në (mijëra dollarë $)

Të dhënat e përcaktuara për pagat në një ndërmarrje të veçantë në Tabelën 3 përmbajnë të dyja të dhënat sasiore dhe cilësore. Të dhënat janë paraqitur për pesëdhjetë punonjës, të numëruara nga 1 në 50. Secili punonjës paraqet një element të të dhënave. Për secilin element ekziston një vëzhgim që përmban dy vlera të të dhënave, paga javore e individit në dollarë dhe gjinia (mashkull ose femër). Paga dhe gjinia janë ndryshore, të përcaktuara si karakteristika të elementeve të të dhënave vendosur që ndryshojnë nga elementi në element. Paga është një ndryshore sasiore dhe gjinia është një ndryshore cilësore.

Siç shohim në tabelën 3 kemi një organizim numrash. Për të nxjerrë informacione që këto të dhëna përmbajnë nevojitet për ti vendosur në spreadsheet e programit dhe ti renditim ato sipas pagave. Ne e bëjmë këtë pa e ruajtur identitetet e elementeve individuale, duke i rinumëruar duke filluar nga 1 për pagën më të ulët dhe mbaron në 50 për pagën më të lartë. Rezultati shfaqet në tabelën 4. Paga më e ulët është 125 dollarë në javë dhe më e larta është 2033 dollarë në javë. Duke iu referuar diferencave kemi, 2033 $ - 125 $ = 1908 $ si diapazoni i ndryshores. Vëzhgimi i vlerës së mesme të vargut quhet mediana apo mesorja.

Kur mesi i diapazonit bie midis dy vëzhgimeve, siç ndodh në Tabelën 4, përfaqësojmë mesoren me mesataren e dy vëzhgime, në këtë rast 521.50 $. Sepse gjysma e vëzhgimeve në ndryshore janë nën mesataren dhe gjysma janë sipër, mesatares dhe quhet përqindja e 50-të. Në mënyrë të ngjashme, mund të llogarisim përqindjet e tjera të variablave — 90 përqind e vëzhgimeve do të jetë nën përqindjen e 90-të dhe 80 përqind do të jenë nën përqindjen e 80-të, etj. Në veçanti e shohim të shfaqur në tabelat e mëposhtme.

Abbildung in dieser Leseprobe nicht enthalten

Tabela 5. Rroga javore e punonjësve të kompanisë në (mijëra dollarë $) sipas rendit rritës

Interesi është përqindja 25 dhe 75. Këto quhen kuartili i parë dhe kuartili i tretë përkatësisht. Dallimi midis vëzhgimeve për këto kuartile, 748 $ - 340.5 $ = 407, 5 dollarë, quhen diapazoni ndërkuartil. Kështu që variabla e pagave ka një mesatare (vlere mesatare) prej 521,50 $, një gamë prej 1908 $ dhe një gamë ndërkuartile prej 407.5 dollarë, me vlerat më të larta dhe më të ulëta 2033 dollarë dhe 125 dollarë respektivisht. Një mënyrë e shpejtë për të marrë një kuptim të përgjithshëm të "formës"se këtij grupi të të dhënave është që ta shprehin atë grafikisht si histogram, siç bëhet në panelin e poshtëm te figurës 2.

Një çështje e dukshme interesi është nëse burrave u paguhen paga më të larta sesa gratë. Ne mund ta adresojmë këtë duke i renditur të dhënat në Tabelën 6 në dy grupe të veçanta të të dhënave, një për meshkuj dhe një për femra. Atëherë mund të gjejmë diapazonin, mesataren dhe interkuartilen për ndryshoren e pagës në secilën nga dy grupet e të dhënave dhe i krahasojme ato. Në vend që të paraqesë një tabele të re së bashku me llogaritjet përkatëse në këtë pikë, mund t’i ndërtojmë histogramet për ndryshoren e pagës në dy grupe të veçanta të të dhënave. Këto janë të paraqitura në dy panelet kryesore të grafikut 2. Eshtë e lehtë të shihet nga krahasimi i histogrameve të sipërme dhe të mesme që pagat e grave priren të jenë më të ulëta se ato që u paguhen burrave.

Grafik 2. Histogrami I pageses javore për meshkujt (në fillim), femrave (në mes)

Abbildung in dieser Leseprobe nicht enthalten

Grafik 3. Box plot e rrogave javore për meshkuj (majtas) dhe femrave (djathtas):

Boshti vertical i shprehur në mijëra dollarë §

Kjo është bërë në grafikun 34. Kompjuter statistikor të ndryshëm paraqesin kutitë në mënyra të ndryshme. Në atë të përdorur këtu, lartë dhe skajet e poshtme të kutisë japin kuartilet e sipërme dhe të poshtme dhe vija horizontale përmes mesit të kutisë jep mesataren. Vertikale linjat, të quajtura mustaqe, shtrihen deri në vlerën maksimale të ndryshores dhe poshtë në vlerën minimale.

Të dhënat e pagave gjithashtu mund të përmblidhen në formë tabelare. Kjo është bërë në tabelën 6. Gama e të dhënave ndahet në klasat e përdorura për të vizatuar

Abbildung in dieser Leseprobe nicht enthalten

Tabela 6. Frekuenca e shpërndarjes nga tabela 5.

Histogramin për grupin e plotë të të dhënave. Pastaj vëzhgimet për pagën e ndryshueshme në Tabelën 6 që bien në secilën prej klasave numërohen dhe numrat e futur në qelizat e duhura në kolonat 2, 3 dhe 4 të tabelës. Vëzhgimet kështu "shpërndahen" midis klasave me numrat në qeliza që tregojnë ‘frekuencën’ me të cilën bien vëzhgimet në klasat përkatëse - pra, tabela të tilla paraqesin shpërndarje të frekuencës. Totali përgjatë pjesës së poshtme tregon se kishte 17 burra dhe 33 gra, me një total prej 50 elementësh në grupin e të dhënave. Frekuencat relative në të cilat vëzhgimet bien në klasa janë paraqitur në kolonat 5, 6 dhe 7. Kolona 5 jep proporcionet e pagave të burrave, kolona 6, proporcionet e grave pagat dhe kolona 7 proporcionet e të gjitha pagave që bien në klasa.

Proporcionet në secilën kolonë duhet të shkojnë deri në një. Të gjitha grupet e të dhënave të konsideruara deri tani janë seksionale. Tabelat 7 dhe 8 me seritë e tanishme të serive kohore. Tabela e parë jep çmimin e konsumatorit indekset për katër vende, Kanada, Shtetet e Bashkuara, Mbretëria e Bashkuar dhe Japonia, për vitet 1975 deri 1996.5

Tabela e dytë paraqet vitin normat e inflacionit të vitit për të njëjtën periudhë për të njëjtat vende.

Normat e inflacionit llogariten si më poshtë:

Ku π tregon normën e inflacionit dhe P tregon indeksin e çmimit të konsumit.

Tani duhet të jetë e qartë se në të dhënat e serive kohore elementët janë njësi të kohës. Kjo dallon seritë kohore nga grupe të të dhënave të tërthorta, ku të gjitha vëzhgimet ndodhin në të njëjtën periudhë kohore. Një tipar i shpeshtë i të dhënave për seritë kohore që nuk janë të pranishme në të dhëna ndër-seksionale është korrelacioni serik ose autokorrelacioni. Të dhënat në Tabelat 7 dhe 8 janë paraqitur në figurat 4 dhe 5 përkatësisht. Do të vini re nga këto që mund të bëjë një supozim mjaft të mirë se cili është niveli i çmimit ose shkalla e inflacionit qe do të jetë në një vit të caktuar në bazë të nivelit të vrojtuar të çmimit dhe shkalles se inflacionit në vitet e kaluara. Nëse çmimet ose inflacioni janë të larta këtë vit, ato me shumë mundësi do të jenë të larta vitin e ardhshëm. Vëzhgime të njëpasnjëshme në secilin seri lidhen në mënyrë seriale ose janë të autokorreluara (d.m.th., të ndërlidhura me kohën) dhe kështu jo statistikisht të pavarur nga njëri-tjetri. Figura 5 tregon seritë kohore që nuk kanë autokorrelacion - vëzhgimet e njëpasnjëshme janë gjeneruar plotësisht në mënyrë të pavarur nga të gjitha vëzhgimet paraprake duke përdorur një kompjuter. Do të mësoni më shumë rreth korrelacionit dhe pavarësisë statistikore ne kapitujt pasues.

Abbildung in dieser Leseprobe nicht enthalten

Tabela 7. Indeksi i cmimit të konsumit për vendet e selektuara 1980, 100.Burimi Fondi monetary I zhvillimit statistikat internacionale financiare

Abbildung in dieser Leseprobe nicht enthalten

Tabela 8. Norma e inflacionit vit pas viti per vendet e listuara me siper .Perqindjet per vit

Abbildung in dieser Leseprobe nicht enthalten

Grafik 4. Indeksi i cmimit të konsumit për vendet e përzgjedhura

Abbildung in dieser Leseprobe nicht enthalten

Grafik 5. Normat e inflacionit vit pas viti për vendet e përzgjedhura.

Abbildung in dieser Leseprobe nicht enthalten

Grafik 6. Serite kohore marre nga autokorrelacioni

Disa grupe të të dhënave janë si serite kohore ashtu edhe seksionale. Imagjinoni, për shembull një grup të dhënash që përmbajnë të dhëna mbi pagën dhe gjininë e llojit në Tabelën 6 për secilën nga një seri vitesh. Këto quhen të dhëna panelesh.

1.5 Njehsimet numerike të pozicionit

Edhe pse mjaft informacione në lidhje me grupet e të dhënave mund të merren nga ndërtimi i tabelave dhe grafikëve, do të ishte mirë të ishim në gjendje të përshkruanim një grup të dhënash duke përdorur dy ose tre numra. Mesatarja, Moda dhe Mediana, kuartilet, maksimumi dhe minimumi, të cilat u llogaritën për të dhënat e pagave në pjesën e mëparshme dhe të portretizuar grafikisht në grafikun 3 duke përdorur një kuti me përshkrim .

Ekzistojnë tre lloje të masave numerike përmbledhëse që mund të përdoren për të përshkruar grupet e të dhënave.

Së pari, ka masa pozicioni ose tendence qëndrore. A është shkalla tipike e pagës e paguar nga firma në fjalë, për shembull, rreth 500 dollarë në javë, ose 1500 dollarë në javë, ose 5000 dollarë në javë? Mesatarja siguron një masë të pozicionit.

Së dyti, ka masa të ndryshueshmërisë së shpërndarjes. A janë të gjitha pagat javore shumë afër njëra-tjetrës apo janë ato të përhapura gjerësisht? Gama dhe vargu kuartil japin masa të ndryshueshmërisë — sa më të mëdha janë këto statistika, aq më të shpërndara janë të dhënat.

Më në fund, ekzistojnë kurbat / skewness. A janë pagat më të përqendruara, për shembull, në nivelet më të ulëta, ose ato shpërndahen në mënyrë simetrike përreth vlerave te tyrë qëndrore? Në këtë pjesë do të përqëndrohemi në masat numerike të pozicionit. Masat e ndryshueshmërisë dhe kurbat/skewness do të konsiderohen në dy pjesët pasuese.

Mediana është një masë e pozicionit. Në rastin e të dhënave të pagave, për shembull, tregon se gjysma e pagave është nën 521.50 dollarë dhe gjysma është mbi atë shumë. Një masë tjetër e rëndësishme e pozicionit është mesatarja (ose, më shumë) saktësisht, mesatarja aritmetike), e njohur zakonisht si vlerë mesatare. Mesatarja e një numri numrash X1, X2, X3,. . . , XN është përcaktuar si ku ¯X është kuptimi aritmetik dhe Shuma e të dhënave të pagave javore (përfshirë meshkuj dhe femra) është 30364 dollarë dhe mesatarja është 607.28 dollarë. Pagat mesatare të meshkujve dhe femrave janë, përkatësisht, 962,24 dollarë dhe 424,42 dollarë. Nga ekuacioni vijon se shuma e vëzhgimeve për një variabël të veçantë sasior në një grup të dhënash është e barabartë me kohën mesatare te numrit te artikujve, dhe që shuma e devijimeve të vëzhgimeve nga mesatarja e tyre është zero. Kur një grup ndahet në klasa, siç duhet të bëhet për të krijuar një shpërndarje të frekuencës, mesatarja e përgjithshme është një mesatare e ponderuar e e vëzhgimeve në klasa, me pesha që janë numri (ose frekuenca) e artikujve në klasat përkatëse. Kur ka k klasa.

ku ¯Xi është mesatarja e vëzhgimeve në klasën e i-të dhe fi është numri (frekuenca) e vëzhgimeve në klasën e i-të. Nëse gjithçka që dihet është frekuenca në secilën klasë pa mesataren e vëzhgimeve në klasat në dispozicion, mund të marrim një përafrim të dobishëm për mesataren të grupit të të dhënave duke përdorur vlerat e mesit të klasave në formulën e mësipërme në vendin e klasës. Një vlerë mesatare alternative është mesatarja gjeometrike e cila përcaktohet si anti-logu i mesatares aritmetike të logaritmave të vlerave.

Mesatarja gjeometrike në këtë mënyrë mund të merret duke marrë anti-logun e Abbildung in dieser Leseprobe nicht enthalten ose rrënja e nëntë e X1,X2,X3. . .XN. Vendosja e shiritit në majë të një ndryshoreje për të treguar kuptimin e saj, si në X, bëhet vetëm për të përfaqësuar mesataren e mostrave. Mesatarja e një popullsie përfaqësohet nga simboli grek μ (my). Kur popullsia është e kufizuar, μ mund të merret duke bërë llogaritjen në ekuacion duke përdorur të gjithë elementët në popullatë. Mesatarja e një pafundësie popullsie e gjeneruar nga një proces duhet të rrjedh matematikisht nga përfaqësimi i këtij procesi. Në shumicën e rasteve praktike ky proces i gjenerimit matematikor të të dhënave është i panjohur. Lehtësia e marrjes së mesatares se fundme në krahasim me popullsitë e pafundme është më e dukshme sesa reale.

Mesatarja është ndikuar fuqimisht nga vlerat ekstreme në grupin e të dhënave. Për shembull, supozoni se anëtarët e një grupi të vogël prej tetë personash kanë të ardhurat vjetore në vijim në dollarë: 24000, 23800, 22950, ​​26000, 275000, 25500, 24500, 23650. Ne duam të paraqesim një numër të vetëm që karakterizon sa "mirë" është ky grup njerëzish. (Aritmetik) nënkupton të ardhurat e grupit është 55675.5 dollarë, por një vështrim në numrat e vërtetë tregon se të gjithë përveç një anëtari të grupit kanë të ardhura midis 23000 dhe 26000 dollarë.

Mesatarja nuk paraqet një pamje të mirë për shkak të ndikimit të të ardhura të mëdha të një anëtari të grupit. Kur ka vlera ekstreme, një pamje më e saktë shpesh mund të jetë paraqitur duke përdorur një mesatare të shkurtuar 50 për qind do të thotë shkurtohet, për shembulli, është mesatarja (aritmetike) e 50 përqind të vlerave në thelb, mesatarja e vlerave të shtrira në intervalin ndërkuartil. Kjo do të ishte 24450 dollarë në shembullin e mësipërm. Në vend të kësaj, mund të përdorim një 80 (ose çdo tjetër) do të thotë zvogëluar përqindjen. Mediana, e cila është 24250 dollarë është gjithashtu një masë më e mirë e tendencës qëndrore të të dhënave sesa mesatarja. Duhet gjithsesi, te mbahen në mendje se vlerat ekstreme mund të japin informacione të rëndësishme dhe mund të jetë e papërshtatshme t'i injorosh ato. Sens i përbashkët është i domosdoshëm në prezantimin dhe interpretimin e të dhënave. Në shembullin e mësipërm, fotografia më e saktë do të jepet nga deklarata vijuese: Shtatë nga tetë anëtarët e grupit kanë të ardhura midis 22950 dhe 26000 $, me mesatare 24342 dollarë, ndërsa anëtari i tetë ka të ardhura prej 275000 dollarë.

Një masë tjetër e pozicionit, e cila përcaktohet si më e rëndësishmja është vlera që shfaqet shpesh. Kur variabla ndahet në madhësi të barabartë klasa dhe prezantohet si histogram ose shpërndarje frekuencash ne klasa që përmbajnë më shumë vëzhgime quhet klasa modale. Në te dhënat e pagës, duke përdorur klasat e përcaktuara në Tabelën 5, klasën modale për femrat dhepër të gjithë punëtorët është 0 $ 500 $, dhe klasa modale për meshkujt është $ 500 - $ 1000.

Duke përdorur klasat e përcaktuara në panelin e mesëm klasa modale për pagat femra është 300 - 400 dollarë. Ndonjëherë do të ketë dy maja në një histogram të vëzhgimeve të ndryshueshme. Një shembull i shpeshtë është performanca e studentëve në matematikë (dhe nganjëherë statistikat) teste ku studentët ndahen në dy grupe— ata që e kuptojnë se çfarë po ndodh dhe ato që nuk e kuptojnë. Duke pasur parasysh ndryshueshmërinë brenda secilit grup, zakonisht do të ketë dy gunga në histogram - një në një klasë të lartë që përmban studentët që kuptojmë materialin dhe një në klasë të ulët që përmban studentët që nuk kuptojne materialin. Në situata të tilla të dhënat referohen si bimodale Në Figurën 7 jepen shembuj të një bimodali dhe të një jodemodali ose të formuar me shpërndarjen. Ne mund të imagjinojme shkallët horizontale si përfaqësuese në notën e arritur në një test matematikor.

Abbildung in dieser Leseprobe nicht enthalten

Grafik 7. Shpërndarja bimadale (lart) dhe njemodalë ose shpërndarje me gunga (poshtë)

1.6 Njehsimet numerike të ndryshueshmërisë

Gama dhe vargu interkuartil janë masa të ndryshueshmërisë – sa më e madhe, aq më të shpërndara janë të dhënat. Masa më të përdorura, megjithatë, janë variancat dhe devijimi standard. Variacioni është, në përgjithësi, mesatarja e devijimeve katrore të vëzhgimeve nga të dhenat . Për grupe të të dhënave që përbëjnë mostra nga popullata ose procesi llogaritja është: ku s2 tregon variancën e mostrës. Mund të llogaritet një përafrim nga një shpërndarje frekuence e mostrës duke përdorur ku S është numri i klasave, fi është frekuenca e klasës i-të, ¯Xi është mesatarja e klasës së i-të, ¯X është mesatarja e të gjithë mostrës dhe e totalit të numrit të elementeve në kampion është i barabartë:

Variacioni i popullsisë shënohet nga σ2. Për një popullsi të kufizuar mund të jetë llogaritur duke përdorur pas zëvendësimit të N −1 në emërues me N. N −1 përdoret në emërues në llogaritjen e variancës së mostrës sepse varianca është mesatarja e shumës së devijimeve të pavarura katrore nga mesatarja e mostrës dhe vetëm N - 1 e N devijimeve nga mesatarja mund të zgjidhen në mënyrë të pavarur - pasi të njohim N - 1 të devijimeve, e mbetura mund të llogaritet nga ato që dihen tashmë bazuar në mënyren e llogaritjes së mesatares së kampionit. Mostra nga një popullatë e caktuar do të ketë një kuptim, në varësi të elementeve të popullsisë që shfaqen në të. Popullsia do të thotë, nga ana tjetër, është fikse numri i se ciles nuk ndryshon nga kampioni në mostër. Devijimet e elementëve te popullatës nga mesatarja e popullatës janë të pavarura nga njëra-tjetra. Në rastin e një procesi, varianca e saktë e popullsisë mund vetëm të merret nga njohja e procesit të gjenerimit të të dhënave matematikore. Në të dhënat e pagave javore më lart, varianca e pagave është 207161.5 për meshkuj, 42898.7 për femra dhe 161893.7 për të gjithë mostrën. Vini re se njësitë në të cilat maten këto variancë janë katrorë- jemi duke marrë shumën e diferencave në katror-diferencat e pagës së secilit person. Për të marrë një masë të ndryshueshmërisë të matur në dollarë sesa dollarë-katrorë mund të marrim rrënjën katrore të variancës në ekuacion. Kjo quhet devijimi standard. Devijimi standard i pagave në kampionin e mësipërm është 455,15 dollarë për meshkuj, 207,12 dollarë për femra, dhe 402,36 dollarë për të gjithë mostrën. Një tjetër masë e përdorur shpesh e ndryshueshmërisë është koeficienti i variacionit, i përcaktuar si devijim standard të marra si përqindje e mesatares ku C tregon koeficientin e variacionit. Për të dhënat e pagave javore më lart, koeficienti i variacionit është 47.30% për meshkujt, 48.8% për femrat dhe 66.28% për të gjithë mostrën.

Abbildung in dieser Leseprobe nicht enthalten

Grafik 8.Shperndarja e Kurbes e anuar majtas (lart mesatarja 55, 1, mediana 58, moda 75)

Dhe shperndarja e kurbes a anuar djathtas (poshte mesatarja 46.4, mediana 43.5, dhe moda 35)

1.7 Njehsimet numerike të frekuencës

Të dhënat sasiore të zvogëluara janë të dhëna për të cilat bazohet shpërndarja e frekuencës në klasa të barabarta nuk është simetrike. Për shembull, të dhënat e pagave të paraqitura në grafikun 8. nuk është simetrike ne bishtin e anuar djathtas është më i gjatë se bishti i anuar majtas, që nuk ekziston në panelin e poshtëm. Këto të dhëna janë përshkruar si skedime djathtas - është në drejtim të bishtit më të gjatë. Kjo skuqje paraqitet në kutitë në Figurën 2 si një mustaqe e sipërme më e gjatë se mustaqe e poshtme. Vini re se në të dhënat e pagave mesatarja është gjithmonë më e madhe se sa moda dhe mediana (të marra si vlerat e mesme të klasave modale) janë përkatësisht 962 dollarë, 822.5 dollarë dhe 750 dollarë për meshkuj, 424 $, 391 $ dhe 350 $ për femra dhe 607 $, 521 $ dhe 200 dollarë për të gjithë punëtorët. Mesatarja gjithmonë do të tejkalojë gjithmonë modalitetin kur të dhënat skedohen në të drejtë. Kur kthesa është në të majtë, mesatarja do të jetë nën mesataren dhe mesatarja nën modë. Kjo është treguar në fig 7. E djathta (majtas) lëkundja është për shkak të ndikimit të shumë pak jashtëzakonisht të lartë (vlera të ulëta) vlerat ekstreme zvarritin mesataren në drejtimin e tyre mediana priret të jetë mbi modalitetin kur të dhënat janë skeduar drejt sepse vlerat e ulëta janë më të shpeshta se vlerat e larta dhe nën modalitetin kur të dhënat janë skeduar në të majtë sepse në atë rast vlerat e larta janë më shumë të shpeshta se vlerat e ulëta. Kur të dhënat shpërndahen në mënyrë simetrike, mesatarja, mediana dhe moda mund të matet me devijimin mesatar kub të vlerave nga mesatarja e kampionit, Nëse devijimet e mëdha janë kryesisht pozitive m3 do të jenë pozitive dhe nëse devijimet e mëdha janë kryesisht negativisht m3 do të jenë negative. Kjo ndodh sepse 3 ka të njëjtën shenjë Si . Që nga devijimi i madh shoqërohet me bishtin e gjatë të shpërndarjes së frekuencës, m3 do të jetë pozitive ose negative në varësi të faktit nëse drejtimi i skewness është pozitiv (djathtas) ose negativ (majtas). Në të dhënat e pagave m3 është pozitive për meshkujt, femrat dhe të gjithë punëtorët siç do të presim nga shikimi i grafikut 1 dhe 2.

1.8 Njehsimet numerike të pozicionit relative

Vlerat e standardizuara Përveç masave të tendencës qëndrore të një grupi vlerash dhe të shpërndarjes së tyre rreth këtyre masave qëndrore shpesh jemi të interesuar nëse një vëzhgim i veçantë është i lartë ose i ulët në krahasim me të tjerët në grup. Një mase e kësaj është përqindja në të cilën bie vëzhgimi - nëse vëzhgimi është në përqindjen e 90-të, vetëm 10% e vlerave qëndrojnë sipër saj dhe 90% përqind e vlerave qëndrojnë poshtë saj. Një masë tjetër e pozicionit relativ është vlera e standardizuara. Vlera e standardizuar e një vëzhgimi është distanca e saj nga mesatarja e ndarë nga devijimi standard i kampionit ose popullsisë në të cilën ndodhet vëzhgimi. Vlerat e standardizuara të tërësisë së vëzhgimeve X1, X2, X3. . .XN jepen nga për anëtarët e një popullsie, mesatarja e të cilëve µ dhe devijimi standard i të cilave është e njohur për anëtarët e një kampioni me mesataren ¯X dhe devijimin standard të mostrës. vlera e standardizuar ose vlera z e një vëzhgimi është numri i standardit të devijimet larg nga mesatarja. Rezulton se për një shpërndarje që është në formë kungulli - domethënë jo bimodale - afro 68% e vëzhgimeve do të jenë brenda plus ose minus devijimi standard nga mesatarja, rreth 95% e vlerave do të qëndrojnë brenda plus ose minus dy devijime standarde nga mesatarja, dhe afërsisht 99,7% nga vëzhgimet do të qëndrojë brenda plus ose minus tre devijime standarde nga mesatarja Kështu, nëse merrni një notë prej 52% përqind në një statistikë provë për të cilën mesatarja e klasës ishte 40% përqind dhe devijimi standard 10% përqind, dhe shpërndarja është në formë jo bimodale sesa bimodale, jeni të sigurt në 16 përqind më të lartë të klasës. Kjo llogaritje është bërë duke vërejtur se rreth 68 përqind e klasës do të shënojnë brenda një standardi devijimi nga 40 që do të thotë, midis 30 dhe 50 dhe 32 përqind do të shënojë jashtë këtij diapazoni. Nëse dy bishtat e shpërndarjes janë të populluara në mënyrë të barabartë atëherë ju duhet të jeni në 16% përqind të klasës. Duke folur relativisht, 52% ishte një notë mjaft e mirë.Përqindjet e mësipërme kanë pothuajse saktësi për shpërndarjet normale, të cilën do të mësoni në kohën e duhur, dhe vetëm përafërsisht për format e shpërndarjeve që nuk plotësojnë kriteret për normalitetin. Rezulton se ka një rregull të zhvilluar nga matematikani rus P. L. Chebyshev, i quajtur Pabarazia e Chebyshev, e cila thotë se një pjesë jo më e madhe se (1 / k) 2 (ose 100 × (1 / k) 2 përqind) e çdo vëzhgimi, pavarësisht se çfarë është forma e tyre e shpërndarjes, do të qëndrojë përtej plus ose minus devijimeve standarde nga mesatarja e vëzhgimeve. Pra, nëse devijimi standard është 2 të paktën 75% e shpërndarjes duhet të jetë brenda plus ose minus dy standarde devijime nga mesatarja dhe jo më shumë se 25% përqind e shpërndarjes mund të qëndrojë jashtë këtij diapazoni. Ju duhet të vini re veçanërisht se rregulli nuk nënkupton këtu se jo më shumë se 12.5% ​​përqind e një shpërndarje do të qëndrojë dy devijime standarde mbi mesataren sepse shpërndarja nuk ka nevojë të jetë simetrike.

1.9 Të dhëna Bivariate: Kovarianca dhe Korrelacioni

Një grup i të dhënave që përmban vetëm një variabël interesi, siç do të ishte rasti me të dhënat e pagave më lart nëse gjinia e secilit nuk ishte regjistruar, quhet një grup i të dhënave univariane. Grupet e të dhënave që përmbajnë dy ndryshore, të tilla si paga dhe gjinia në të dhënat e pagave më lart, thuhet se janë dypalëshe ose bivariane. Dhe indeksi i çmimit të konsumit dhe të dhënat e shkallës së inflacionit të paraqitura në Tabelën 6 dhe Tabelen 7 më lart janë multivariane, me secilën grup të të dhënave që përmbajnë katër variablat e indekseve të çmimeve të konsumatorit ose normat e inflacionit për katër vende. Në rastin e grupeve të të dhënave dypalëshe ose multivariane, shpesh jemi të interesuar në qoftë se elementët që kanë vlera të larta të njërës prej ndryshoreve gjithashtu kanë vlera të larta të variablave të tjerë. Për shembull, si studentë të ekonomisë mund të interesohemi nëse fitojnë njerëz me më shumë vite shkollimi të ardhura më të larta. Nga të dhënat e regjistrimit të qeverisë kanadeze që mund të marrim për popullsinë e të gjitha familjeve kanadeze ku kemi dy ndryshore sasiore, të ardhurat shtëpiake (të matura në $) dhe numrin e viteve të arsimit të kreut te secilës familje.

Le te jete Xi vlera e të ardhurave vjetore të familjes dhe Yi të jetë numri i viteve të shkollimit të kryetarit të familjes. Tani merrni parasysh një kampion të rastësishëm të familjeve N të cilat jepen vëzhgimet e çiftuara (Xi, Yi) për i = 1, 2, 3,. . . , N. Ju tashmë dini se si të krijoni masa statistikore përmbledhëse për variablat e vetëm . Për shembull, vlera mesatare e mostrës për të ardhurat shtëpiake, mundet të merren duke përmbledhur të gjitha Xi dhe duke ndarë shumën që rezulton me N. Dhe vlera mesatare e mostrës për vite të arsimit për familje mund të perftohet në mënyrë të ngjashme duke përmbledhur të gjithë Yi dhe duke u ndarë me N. Ne gjithashtu mund llogaritim variantet e mostrës së X dhe Y duke aplikuar ekuacionin.

Vini re se fakti që mostra përbëhet nga vëzhgime të çiftuara ((Xi, Yi) është e parëndësishme kur llogaritim masa përmbledhëse për individin variablat X dhe / ose Y. Sidoqoftë, gjithashtu mund të jemi të interesuar nëse variablat X dhe Y janë të lidhur me njëri-tjetrin në një mënyrë sistematike, që nga arsimi është një formë e investimit që jep kthimin e saj në formën e lartë te fitimit, mund të presim, për shembull, që të ardhurat familjare do priren të jenë më të larta, aq më i madh numri i viteve të arsimit të përfunduar nga kryefamiljari. Kjo do të thotë, mund të presim vlera të larta të X në çiftimet me vlera të larta të Y kur Xi është i lartë, Yi shoqërohet me të duhet të jetë gjithashtu i lartë, dhe anasjelltas.

Gjithashtu mund të ndërtojmë masa numerike të kovaritetit. Një e tillë masa është kovariancë midis dy ndryshoreve, e treguar në rastin e të dhënat e mostrës si sx; y ose sy; x dhe të përcaktuara nga Kur X dhe Y përfaqësojnë një popullsi tregojmë kovariancën midis tyre nga σx; y ose σy; x. Mund të llogaritet duke përdorur me N - 1 në emërues i zëvendësuar nga N në rastin kur një popullatë e tërë e kufizuar përdoret në llogaritjen. Në një popullsi të pafundme të gjeneruar nga një proces, kovarianca mund të merret vetëm nga njohja e procesit të gjenerimit matematik të të dhënave. Vini re se vlera e kovariancës është e pavarur nga rendi i termave shumëzuese . Vini re gjithashtu se sx; y matet në njësi të njësive X herë të Y-në të ardhurat vjetore të familjes dhe vitet e shkollimit të kryefamiljarit, sx; y do të shprehej në terma të "viteve " (pavarësisht nga ato që mund të jenë këto). Për çdo mostër të variablave të çiftuar X dhe Y, sx; y ka një numër numerik të vetëm vlerë që mund të jetë pozitive, negative ose zero. Një vlerë pozitive tregon se vlerat e vëzhguara për X dhe Y janë të lidhura pozitivisht - domethënë, kanë tendencë të ngrihemi dhe të bien së bashku. Për ta thënë disi ndryshe, një vlerë pozitive për sx; y tregon që Xi ka tendencë të jetë më lart (poshtë) vlera mesatare e tij ¯X kurdoherë Yi është më lart (poshtë) vlerës së tij mesatare ¯ Y. Në mënyrë të ngjashme, variablat X dhe Y janë të lidhura negativisht sa herë sx; y është në shenjë negative. Kjo do të thotë se Xi ka tendencë të jetë nën (mbi) vlerën e saj mesatare ¯X kurdoherë që Yi është më lart (poshtë) vlera mesatare e saj ¯ Y. Kur nuk ka asnjë lidhje midis ndryshoreve X dhe Y, sx; y është zero.

Në të ardhurat shtëpiake dhe shembullin tonë të arsimit do ta prisnim një kampion të rastësishëm do të jepte një vlerë pozitive për sx; y dhe kjo është me të vërtetë ajo që gjendet në mostrat aktuale të tërhequra nga popullata e të gjithë familjeve Kanadeze Vini re se ekuacioni mund të përdoret për të llogaritur sx; x kovariancën e ndryshores X me vetveten. Është ë lehtë për tu parë se kjo do të japë variancën e mostrës së X të cilën mund ta tregojmë me s2. kështu mund të thuhet se koncepti i variancës është vetëm një rast i veçantë I konceptit më të përgjithshëm të kovariancës.

Koncepti i kovariancës është i rëndësishëm në studimin e ekonomisë financiare sepse është thelbësore për të kuptuarit e "rrezikut" në letrat me vlerë dhe tregjet e tjera të pasurive. Fatkeqësisht, është një koncept që jep numra që nuk janë shumë ‘intuitivë’. Për shembull, të supozojmë se do të zbulonim se një mostër e N familjet kanadeze jep një kovariancë prej +1, 000 dollar-vjet midis të ardhurave vjetore të familjes dhe viteve të arsimit të kryefamiljarit.

Kovarianca është pozitive në shenjë, kështu që dimë se kjo nënkupton atë se familjet me kryefamiljar të arsimuar shumë kanë tendencë të kenë të ardhura të larta vjetore.

Por a ka ndonjë interpretim intuitiv të madhësisë 1000 dollarë vjet?

Përgjigja është jo, të paktën jo pa informacione të mëtejshme në lidhje me individin e variancat e mostrës së të ardhurave shtëpiake dhe moshën e kreyfamiljarit.

Një koncept më intuitiv, i lidhur ngushtë me kovariancën, është lidhja midis dy ndryshoreve. Koeficienti i lidhjes midis dy ndryshoreve X dhe Y, të shënuara me rx; y ose, ekuivalentisht, ry; x përcaktohet si Ku sx dhe sy janë llogaritur devijimet standarde të mostrës së X dhe Y duke përdorur ekuacionin më lart dhe duke marrë rrënjët katrore. Duhet të jetë e qartë se shenja e koeficientit të korrelacionit është e njëjtë me shenjën e kovariancës midis dy ndryshoreve që nga devijimet standarde nuk mund të jenë negative. Kovarianca pozitive nënkupton korelacionin, kovarianca negative nënkupton korrelacion negativ dhe kovarianca zero nënkupton që X dhe Y janë të palidhura. Eshtë gjithashtu e dukshme që rx; y është i pavarur nga njësitë në të cilat maten X dhe Y — është një numër pa njësi. Ajo që nuk është e dukshme (dhe nuk do të dëshmohet ) është që për çdo dy ndryshore X dhe Y, si Kjo do të thotë, koeficienti i korrelacionit midis çdo dy ndryshore duhet të qëndrojë në intervali [−1, +1]. Një vlerë +1 do të thotë që të dy ndryshoret lidhen përsosmërisht pozitivisht; një vlerë e minus -1 do të thotë se ato janë korreluar në mënyrë perfekte negativisht. Korrelacioni perfekt mund të ndodhë vetëm kur variablat plotësojnë një marrëdhënie të saktë lineare të formës Y = a + bX ku b është pozitive kur ato kanë korrelacion të përkryer pozitivisht dhe negativ kur kane korrelacione perfekte negative. Nëse rx; y është zero, X dhe Y thuhet se janë krejtësisht të palidhura. Konsideroni marrëdhëniet midis niveleve të çmimeve kanadeze dhe amerikane dhe inflacionit. Koeficienti i korrelacionit midis indeksit të çmimeve të konsumit kanadez dhe amerikan në fig është 0.99624, e cila është shumë afër +1 dhe në përputhje me faktin që pikat në figurë janë pothuajse në një vijë të drejtë. Ka më pak korrelacioni midis normave të inflacionit të dy vendeve, siç është e qartë nga 'shpërndarja' më e madhe e vlerave në figurën 9 rreth një vije imagjinare e drejtë. Këtu koeficienti i korrelacionit është 0.83924, dukshëm nën koeficientin e korrelacionit të çmimit të dy niveleve.

Kapitulli 2 Probabiliteti

2.1 Probabiliteti dhe statistika përshkruese

Është shumë e vështirë të merren të dhëna për tërë popullatën. Eshtë shumë shpesh e kushtueshme për të mbledhur një grup të plotë të të dhënave në lidhje me një grup të karakteristikave në një popullatë, qoftë për shkak të arsyeve ekonomike ose për shkak të barrës llogaritëse. Për shembull, është e pamundur për një firmë që prodhon miliona e miliona thonj çdo ditë për të kontrolluar secilin nga thonjtë që përdorin për kontrollin e cilësisë. Kjo do të thotë që, në shumicën e rasteve, do të duhet të ketë ekzaminim të dhënash që vijnë nga një mostër e popullsisë.

Si një mostër është vetëm një paraqitje e shkurtër e gjithë popullatës, që do të sjellë një farë mase të paqëndrueshmërisë në problemin statistikor. Për të siguruar që të jemi në gjendje të merremi me këtë pasiguri, është shumë e rëndësishme për të mostruar të dhënat nga popullsia në mënyrë të rastit, përndryshe një lloj paragjykimi seleksionues mund të lindte në kampionin e të dhënave rezultuese. Për shembull, nëse dëshironi për të vlerësuar performancën e industrisë hedge fund6, nuk mjafton për të mbledhur të dhëna rreth hedge fund. Gjithashtu duhet të mbledhim të dhëna për fonde të zhdukura përndryshe baza e të dhënave tona do të jetë e njëanshme drejt hedge fund të suksesshme. Ky lloj paragjykimi seleksionues njihet gjithashtu si paragjykimi i mbijetesës.

Natyra e rastit e një kampioni është ajo që e bën kaq të rëndësishëm ndryshueshmërinë e të dhënave. Teoria e probabilitetit në thelb synon të studioje se si ndikon ky variant i marrjes së mostrave në statistikën përshkruese, duke përmirësuar të kuptuarit sa i besueshëm është përshkrimi ynë. Për më tepër, teoria e pershkrimit është një nga mjetet kryesore të kontrollit të cilësisë në atë që lejon të vlerësohet nëse një model i dukshëm në të dhëna është vërtet origjinal përtej ndryshimeve të arsyeshme. Për shembull, disa menaxherë të kapitaleve të fondeve krenohen të kenë kthime pozitive për një numër periudhe radhazi sikur kjo do të thoshte prova të pakundërshtueshme të aftësisë së vërtetë të mbledhjes së stoqeve. Sidoqoftë, në një univers të mijëra e mijëra fondeve të kapitalit, është më se e natyrshme që, për shkak të fatit të plotë, disa do të gëzojnë disa periudha të kthimeve pozitive edhe nëse kthimet e aksioneve janë simetrike rreth zeros, duke marrë vlera pozitive dhe negative me gjasë të barabartë.

2.2 Pse Probabiliteti?

Ne kemi parë që statistika pershkruese është një metodologji përmes së cilës mësojme për karakteristikat e një popullate duke analizuar shembuj të elementeve të tërhequr nga ajo popullatë. Supozoni se një mik ju kërkon te investoni 10000 dollarë në një ndërmarrje të përbashkët biznesi. Edhe pse prezantimi i mikut për fitim është bindës, ju hetoni dhe zbuloni se ai ka inicuar tre sipërmarrje të mëparshme biznesi, të gjitha të dështuara. A do mendoni se sipërmarrja aktuale e propozuar do të kishte më shumë se 50/50 shanse të ketë sukses. Në mundësinë e vëzhgimit të tre dështimeve në një mostër të tre elementeve nga procesi me të cilin shoku juaj zgjedh dhe ekzekuton sipërmarrjen e biznesit nëse, në fakt, më shumë se gjysma e popullsisë së sipërmarrjeve që burojnë nga procesi do të jetë i suksesshëm. Kjo linjë e të menduarit është një pjesë thelbësore e statistikës pershkruese sepse vazhdimisht pyesim veten, në një mënyrë ose tjetër, çfarë mundësia ka të vëzhgoni një kampion të veçantë nëse karakteristikat e popullsisë janë ato që mendohet të jenë. Pjesa më e madhe e statistikës përshkruese përfshin bërjen e një hipoteze për karakteristikat e një popullate të cilën më vonë do ta quajmë hipotezë nul) dhe pastaj të shohim nëse mostra ka një shans të ulët ose të lartë për të ndodhur nëse kjo hipotezë është e vërtetë.

[...]


1 Nje forme grafiku ne forme rrethore I cili eshte me I lehte ne perdorim per te analizuar te dhenat dhe ti kuptosh sin je te tera.

2 Nje bar chart perdor shkallen e te dhenave sipas tabeles korresponduese. Eshte menyra me e lehte per te identifikuar format e vecanta te shperndarjes se vlerave vecanarisht dispersionit , perqendrimim I vlerave me te vogla nese formohen nje katerkendesh ku cdo vlere e te dhenave shfaqet afersisht ne te njejten frekuence

3 Eshtë e thjeshtë të mësosh të bëjmë gjëra të thjeshta për të cilat duhet të bëjmë këtë kurs duke përdorur XlispStat por përdorimi i gjerë i tij kërkon njohuri të programimit të orientuar nga objekti dhe një gatishmëri për të mësuar tiparet e gjuhës programuese Lisp. Komercial Programe të tilla si SAS, SPSS dhe Minitab paraqesin komplote më të sofistikuar të kutive sesa ai i paraqitur këtu, por, natyrisht, këto programe janë më të kushtueshme për t'u marrë.

4 Komploti i kutisë në figurën 2 është vizatuar dhe mesatare, përqindje dhe quartilet Gama e mësipërme u llogarit duke përdorur XlispStat, një program statistikor i disponueshëm lirisht në internet Internet për Unix, Linux, MS Windows (3.1, 95, 98, NT, XP, Vista dhe 7) dhe Macintosh sistemet operative. Eshtë e thjeshtë të mësosh të bëjmë gjëra të thjeshta për të cilat duhet të bëjmë këtë kurs duke përdorur XlispStat por përdorimi i gjerë i tij kërkon njohuri të programimit të orientuar nga objekti dhe një gatishmëri për të mësuar tiparet e gjuhës programuese Lisp. Komercial Programe të tilla si SAS, SPSS dhe Minitab paraqesin komplote më të sofistikuar të kutive sesa ai i paraqitur këtu, por, natyrisht, këto programe janë më të kushtueshme për t'u marrë. 2 Wrong! Para së gjithash, këto janë të dhëna vetëm për një firmë, e cila nuk duhet të jetë përfaqësuese të të gjitha firmave në ekonomi.

5 Indekset e çmimeve të konsumatorit llogariten duke marrë vlerën në secilin vit të paketës të mallrave të konsumuara nga një person tipik si përqindje e vlerës monetare të asaj të njëjtë pako mallrash në një periudhë bazë. Në tabelën 1.6 viti bazë është viti 1980

6 Jane produkte derivate te perdorura nga ndermjetesit /broker

Excerpt out of 212 pages

Details

Title
Statistika ne biznes dhe ekonomiks
Course
Economics, Statistic For Business
Author
Year
2020
Pages
212
Catalog Number
V591012
ISBN (eBook)
9783346220202
ISBN (Book)
9783346220219
Language
Albanian
Tags
statistika
Quote paper
Valbona Çinaj (Author), 2020, Statistika ne biznes dhe ekonomiks, Munich, GRIN Verlag, https://www.grin.com/document/591012

Comments

  • No comments yet.
Read the ebook
Title: Statistika ne biznes dhe ekonomiks



Upload papers

Your term paper / thesis:

- Publication as eBook and book
- High royalties for the sales
- Completely free - with ISBN
- It only takes five minutes
- Every paper finds readers

Publish now - it's free