Korelacja: miary, obliczenia i metoda

Po przeczytaniu tego artykułu dowiesz się o: - 1. Miary korelacji 2. Obliczenia korelacji 3. Metody.

Miary korelacji:

Współczynnik korelacji Karla Pearsona (obserwacje indywidualne) :

Aby obliczyć stopień lub zakres korelacji i kierunek korelacji, metoda Karla Pearsona jest najbardziej satysfakcjonująca.

Symbolicznie jego sformułowanie jest następujące:

gdzie dx jest odchyleniem różnych elementów pierwszej zmiennej od założonej średniej i dy, odpowiednie odchylenia drugiej zmiennej od założonej średniej i N konotują liczbę par elementów.

Zastosowanie wzoru wyjaśniono w odniesieniu do następujących hipotetycznych danych:

Obliczanie współczynnika korelacji w serii ciągłej:

W przypadku serii ciągłej dane są klasyfikowane w dwukierunkowej tabeli częstotliwości. Obliczanie współczynnika korelacji w odniesieniu do zgrupowanych danych opiera się na założeniu, że każda pozycja mieszcząca się w danym przedziale klasy przypada dokładnie na wartość środkową tej klasy.

Jako przykład obliczymy współczynnik lub korelację w odniesieniu do następujących danych:

Wzór do obliczania współczynnika korelacji w tym przypadku przyjmie następującą postać:

Jedyną zmianą w powyższym wzorze w porównaniu do wcześniejszego jest wprowadzenie f, które oznacza częstotliwość.

Stosując wzór do tabeli 18.50 otrzymujemy:

Różnica rangowa Metoda korelacji:

Tam, gdzie bezpośredni pomiar badanego zjawiska nie jest możliwy, na przykład cech takich jak sprawność, uczciwość, inteligencja itp., Stosuje się metodę różnic rangowych w celu ustalenia zakresu korelacji.

Formuła obliczania korelacji rang to:

gdzie R oznacza współczynnik korelacji rangowej między parami sparowanymi, D oznacza różnice między parami sparowanymi a N oznacza liczbę par.

Przy pomocy poniższego przykładu zilustrujemy zastosowanie powyższej formuły:

Obliczanie współczynnika korelacji metodą różnicy rang :

(Kiedy są dwa lub więcej przedmiotów o tej samej wartości) :

Jeśli istnieje więcej niż jeden przedmiot o tej samej wartości, to takie pozycje mają wspólną pozycję. Ta ranga jest średnią z rang, które te przedmioty otrzymałyby, gdyby istniała niewielka różnica w ich wartościach. Załóżmy, że oceny uzyskane przez pięciu uczniów wynoszą odpowiednio 70, 66, 66, 65, 63.

Jeśli te znaki są ułożone w porządku malejącym, cyfra 70 otrzyma pierwszą rangę, 66 drugą rangę, 65 trzecią i 63 czwartą rangę. Ponieważ dwoje uczniów w tym przykładzie ma taki sam wynik, ich ranga wynosi 2. Teraz otrzymają średnią rangę tych rang, które studenci by zapewnili, gdyby różniły się od siebie.

Przy takim założeniu ranga obu pozycji wynosiłaby 2 + 3/2. tj. 2, 5, a pozycja następnego elementu (65) wynosiłaby 4. W związku z tym współczynnik korelacji rangowej wymagałby korekty, ponieważ powyższy wzór [R = 1 6ΣD 2 / N (N 2 -1] opiera się na założenie, że szeregi różnych przedmiotów są różne.

W przypadku gdy występuje więcej niż jedna pozycja o tej samej wartości, współczynnik korekty 1/12 (t3-t) jest dodawany do wartości zd 2, gdzie t. oznacza liczbę przedmiotów, których rangi są częste. Ten współczynnik korygujący jest dodawany tyle razy, ile występuje liczba przedmiotów o wspólnych rangach.

Zostało to wyjaśnione w następującym przykładzie:

Analiza danych i interpretacji

Przykład:

Oblicz współczynnik korelacji rangowej na podstawie następujących danych:

W powyższym zbiorze danych serii X liczba 60 występuje trzy razy. Ranga wszystkich trzech przedmiotów wynosi 5, co stanowi średnią z 4, 5 i 6 rang, które te pozycje byłyby zabezpieczone, gdyby różniły się nieznacznie od siebie. Pozostałe numery 68 w serii X i 70 w serii Y wystąpiły dwa razy. Ich stopnie wynoszą odpowiednio 2, 5 i 1, 5.

A zatem:

Zmodyfikowana formuła współczynnika korelacji rangowej będzie zatem:

gdzie n oznacza liczbę powtarzanych elementów. W odniesieniu do powyższego przykładu formuła będzie:

Ostrożność związana ze znaczeniem i implikacją współczynnika korelacji jest uzasadniona. Współczynnik korelacji, sam w sobie bardzo przydatny szacunek relacji, nie powinien być traktowany jako bezwzględny dowód powiązania między odpowiednimi zmiennymi, o ile jego interpretacja w dużej mierze zależy od wielkości próbki wybranej do badania, ponieważ także o charakterze gromadzonych danych.

Pozornie wysoki współczynnik korelacji, na przykład 0, 80 (+), może być bardzo mylący, jeśli standardowy błąd wskazujący na fluktuację próbki jest względnie duży lub przyjąć przeciwny przykład, pozornie niski współczynnik wynoszący 0, 45 (+) może sugerować że związek między zmiennymi może być zignorowany, ale na płaszczyźnie rzeczywistości wskazanie to może znów być błędne, ponieważ współczynnik korelacji dla pewnych zmiennych może być zwykle tak niski, że powyższy współczynnik korelacji, tj. 0, 45 w porównaniu należy uznać za względnie wysoki w odniesieniu do klasy danych, o których mowa.

Jednak konwencja statystyczna stanowi, że współczynnik korelacji w przedziale od 1 do 0, 7 (+) przyjmuje się za wskaźnik "wysokiej" lub istotnej korelacji, która mieści się w zakresie od 0, 7 do 0, 4 (+) jako istotna, od 0, 4 do 0, 2 (+ ) jako niskie, a poniżej 0, 2 (+) jako znikome.

Należy również podkreślić, że wysoka korelacja pomiędzy dwiema zmiennymi nie stanowi sama w sobie dowodu na to, że są one ze sobą nie związane. Istotna korelacja między zmiennymi - na przykład między dochodem i wielkością rodziny lub wielkością placówki edukacyjnej a wynikami uczniów - prawie wcale nie wskazuje na swobodny związek między nimi.

Załóżmy, że stwierdziliśmy, że wyższe dochody są odwrotnie skorelowane z liczbą spraw (dzieci), tj. Im wyższy dochód rodziców, tym mniejsza liczba spraw (współczynnik korelacji wynosi, na przykład, 0, 8, który jest statystycznie dość wysoki), będziemy niesłuszni i nieuzasadnieni, mówiąc, że wyższe dochody są przyczyną niższej płodności.

Wskazano wcześniej, że wnioskowanie o przyczynowości jest uzasadnione tylko wtedy, gdy można zagwarantować trzy rodzaje dowodów, równoczesną zmianę, porządek czasowy i eliminację jakiejkolwiek innej zmiennej jako determinującego warunku hipotetycznego efektu.

W tym przypadku można wyciągnąć następujące wnioski z pełnym uwzględnieniem wyraźnej korelacji widocznej między zmiennymi dochodów i liczby dzieci:

(a) Jeden może być przyczyną drugiego,

(b) obie zmienne mogą być efektami innej przyczyny lub przyczyn, oraz

(c) Związek może być zwykłym przypadkiem. Wnioski przyczynowe można oczywiście z całą pewnością ustalić w sytuacji eksperymentalnej.

Rozważaliśmy to w przypadku projektów eksperymentalnych. W naukach społecznych bardzo trudno jest przeprowadzać eksperymenty, więc badania muszą być nieeksperymentalne. Procedury analityczne zostały jednak opracowane w celu wyciągnięcia wniosków dotyczących związku przyczynowego w badaniach nieeksperymentalnych.

Badacz społeczny jest dość często zainteresowany oszacowaniem stopnia powiązania między atrybutami, tj. Pomiędzy zmiennymi, które są zdefiniowane jakościowo; na przykład może on chcieć ustalić stopień powiązania między atrybutem seksualnym a preferencjami politycznymi lub między narodzeniem a podejściem do pewnego problemu społecznego.

Zasadniczo problem stowarzyszenia jest jedną z korelacji, ale związek między atrybutami może nie dać się łatwo poddać matematycznemu traktowaniu, jak w przypadku miar ilościowych zmiennych. Miarą takiego powiązania między atrybutami jest współczynnik przewidywalności względnej (RP), który jest w istocie jakościowym współczynnikiem korelacji.