Miary dyspersji

Po przeczytaniu tego artykułu dowiesz się o różnych miarach dyspersji stosowanych w badaniach społecznych.

W badaniach społecznych często chcemy poznać stopień homogeniczności i niejednorodności respondentów w odniesieniu do danej cechy. Każdy zestaw danych społecznościowych ma wartości, które mogą charakteryzować heterogeniczność. Zbiór danych społecznych charakteryzuje się zazwyczaj heterogenicznością wartości.

W rzeczywistości stopień, w jakim są one heterogeniczne lub różnią się między sobą, ma podstawowe znaczenie w statystykach. Miary tendencji centralnej opisują zazwyczaj jedną ważną cechę zbioru danych, ale nie mówią nam nic o tej innej podstawowej charakterystyce.

W związku z tym potrzebujemy sposobów pomiaru heterogeniczności - zakresu, w jakim dane są rozproszone. Środki zapewniające ten opis nazywane są miarami dyspersji lub zmienności. Poniższe trzy rozkłady przedstawione na ryc. 18.4 ilustrują znaczenie pomiaru rozproszenia danych statystycznych.

Rozkład średnich wartości dla próbek o różnych rozmiarach :

Można zauważyć, że średnia arytmetyczna wszystkich trzech krzywych na powyższym rysunku jest taka sama, ale rozkład wartości przedstawiony przez krzywą A pokazuje mniejszą zmienność (dyspersję) niż ta przedstawiona przez krzywą B, podczas gdy krzywa B ma mniejszą zmienność w porównaniu do krzywej C.

Jeśli weźmiemy pod uwagę tylko miarę centralnej tendencji rozkładów, pominiemy istotną różnicę pomiędzy trzema krzywymi. Aby lepiej zrozumieć schemat danych, musimy również uzyskać miarę jego rozproszenia lub zmienności, teraz rozważamy różne miary dyspersji.

Zasięg:

Zakres definiowany jest jako różnica między najwyższą i najniższą wartością: matematycznie,

R (Zakres) = M n - M L

gdzie Mn i M l oznaczają najwyższą i najniższą wartość. Zatem dla zestawu danych: 10, 22, 20, 14 i 14 zakres będzie różnił się między 22 a 10, tj. 12. W przypadku pogrupowanych danych, przyjmujemy zakres jako różnicę między punktami środkowymi skrajności. klasy. Tak więc, jeśli punkt środkowy najniższego przedziału wynosi 150, a najwyższy to 850, zakres będzie wynosił 700.

Jedyną zaletą zakresu, którego miara rozproszenia jest rzadko używana, jest to, że można ją łatwo obliczyć i łatwo zrozumieć. Pomimo tej przewagi, ogólnie nie jest to bardzo przydatna miara dyspersji; jego główną wadą jest to, że nie mówi nam nic o rozproszeniu wartości pośrednich między tymi dwoma skrajnościami.

Zakres pół-kwartylny lub kwartyl:

Inną miarą rozproszenia jest zakres pół-kwartylny, powszechnie znany jako odchylenie kwartyli. Kwartyle są punktami, które dzielą tablicę lub serię wartości na cztery równe części, z których każda zawiera 25 procent pozycji w rozkładzie. Kwartyle są wtedy najwyższymi wartościami w każdej z tych czterech części. Zakres między kwartylami to różnica między wartościami pierwszego i trzeciego kwartyla.

Tak więc, gdzie i Q 1 i Q 3 oznaczają pierwszy i trzeci kwartyl, zakres pół-kwartylny lub odchylenie kwartylu jest określony przez wzór = Q 3- Q 1/2

Obliczanie odchylenia kwartylowego:

Odchylenie kwartylowe jest absolutną miarą dyspersji. Jeżeli do porównywania dyspersji szeregu ma być stosowane odchylenie kwartylu, konieczne jest przeliczenie miary bezwzględnej na współczynnik odchylenia kwartylowego.

Średnia odchyłka :

Zakres i kwartyle odchylenia mają poważne wady, tj. Są obliczane z uwzględnieniem tylko dwóch wartości szeregu. Tak więc te dwa miary dyspersji nie są oparte na wszystkich obserwacjach serii. W rezultacie skład tej serii jest całkowicie ignorowany. Aby uniknąć tej wady, dyspersję można obliczyć, biorąc pod uwagę wszystkie obserwacje serii w odniesieniu do wartości centralnej.

Metoda obliczania dyspersji nazywana jest metodą uśredniania odchyleń (średnie odchylenie). Jak wyraźnie wskazuje nazwa, jest to średnia arytmetyczna odchyleń różnych pozycji od miary tendencji centralnej.

Jak dobrze wiemy, suma odchyleń od wartości centralnej zawsze wynosiłaby zero. Sugeruje to, że aby uzyskać średnie odchylenie (około średniej lub jednej z wartości centralnych), musimy jakoś pozbyć się jakichkolwiek negatywnych znaków. Odbywa się to poprzez ignorowanie znaków i przyjmowanie bezwzględnej wartości różnic.

W naszym hipotetycznym przykładzie średnia z liczb 12, 14, 15, 16 i 18 wynosi 15. Oznacza to, że różnica 15 z każdej z tych liczb, ignorując znaki przez cały czas, a następnie dodając wyniki, otrzymamy całkowitą liczbę odchylenie.

Dzieląc go przez 5, otrzymujemy:

= 1, 6 (gdzie | d | oznacza sumę bezwzględnych odchyleń).

Można zatem powiedzieć, że średnio wyniki różnią się od średniej wartością 1, 6.

Obliczanie średniej odchylenia w niezgrupowanym dniu (obserwacje indywidualne):

Obliczanie średniej odchyłki w serii ciągłej:

Współczynnik średniej odchylenia :

Aby porównać średnie odchylenie szeregu, oblicza się współczynnik średniego odchylenia lub względnego średniego odchylenia. Uzyskuje się to przez podzielenie średniej odchylenia przez tę miarę tendencji centralnej, od której obliczono odchylenia. A zatem,

Współczynnik średniej. Odchylenie / X

Stosując tę ​​formułę do poprzedniego przykładu, mamy,

Współczynnik odchylenia wartości średniej = 148/400 = 0, 37

Odchylenie standardowe :

Najbardziej użyteczną i często stosowaną miarą dyspersji jest odchylenie standardowe lub średnie odchylenie kwadratowe o średniej. Odchylenie standardowe określa się jako pierwiastek kwadratowy średniej arytmetycznej kwadratu odchyleń od średniej. Symbolicznie,

σ = √Σd 2 / N

gdzie σ (litera grecka Sigma) oznacza odchylenie standardowe, Σd 2 dla sumy kwadratów odchyleń mierzonych od średniej i N dla liczby elementów.

Obliczanie odchylenia standardowego w serii indywidualnych obserwacji:

Metoda skrótu:

Obliczanie odchylenia standardowego w dyskretnych seriach :

W serii dyskretnej odchylenia od przyjętej średniej są najpierw obliczane i mnożone przez odpowiednie częstotliwości pozycji. Odchylenia są zwiększane do kwadratu i mnożone przez odpowiednie częstotliwości pozycji. Te produkty są sumowane i dzielone przez sumę częstotliwości. Odchylenie standardowe jest obliczane według następującego wzoru:

Poniższa ilustracja wyjaśniałaby formułę:

Obliczanie odchylenia standardowego w serii ciągłej :

W serii ciągłej przedziały klasowe są reprezentowane przez ich punkty środkowe. Jednak zwykle odstępy między klasami są jednakowej wielkości, a zatem odchylenia od założonej średniej są wyrażone w jednostkach przedziału klasy. Alternatywnie, odchylenia krokowe uzyskuje się przez podzielenie odchyleń przez wielkość przedziału klasy.

Tak więc wzór obliczania odchylenia standardowego jest zapisywany jako:

gdzie ja oznacza wspólny współczynnik lub wielkość przedziału klasy.

Poniższy przykład ilustruje tę formułę:

Współczynnik zmienności:

Odchylenie standardowe reprezentuje miarę bezwzględnej dyspersji. Konieczne jest również zmierzenie względnej dyspersji dwóch lub więcej rozkładów. Kiedy odchylenie standardowe jest związane z jego średnią, mierzy względną dyspersję. Karl Pearson opracował prostą miarę względnej dyspersji, która jest ogólnie znana jako współczynnik zmienności.

Współczynnik zmienności dla problemu w tabeli 18.47 wynosi: