Analiza danych: 4 kroki

Ten artykuł rzuca światło na cztery główne etapy analizy danych. Kroki są następujące: 1. Ustanowienie kategorii lub klasyfikacja danych 2. Kodowanie 3. Tabulacja 4. Analiza statystyczna danych.

Krok 1. 1. Ustanowienie kategorii lub klasyfikacja danych :

Badania w zakresie nauk społecznych zazwyczaj obejmują dużą różnorodność odpowiedzi na różnego rodzaju pytania lub bodźce prezentowane próbce lub "populacji" respondentów. Odpowiedzi te mogą być werbalne lub niewerbalne.

Oczywiście, jeśli duża liczba różnych rodzajów odpowiedzi ma być zorganizowana w taki sposób, aby można je było wykorzystać w odpowiedzi na pytania badawcze lub przy generalizowaniu rysunków, muszą one być pogrupowane w ograniczoną liczbę kategorii lub klas. Aby wziąć prosty przykład, załóżmy, że respondenci otrzymają pytania: "Czy jesteś zwolennikiem obiektywnego badania typu dla studentów?"

Odpowiedzi respondentów mogą być zgrupowane w czterech szerokich kategoriach, takich jak:

(a) Odpowiedzi "tak".

(b) Odpowiedzi "Nie".

(c) "Nie wiem", "Nie mogę powiedzieć" itp., odpowiedzi.

(d) "Nie odpowiedział."

Załóżmy, że inne pytanie skierowane do respondentów brzmi: "Do jakiej klasy społecznej powiedziałbyś, że należysz?"

Odpowiedzi respondentów można podzielić na następujące kategorie:

(a) Klasa wyższa.

(b) Klasa średnia.

(c) Niższa klasa.

(d) "Nie mogę powiedzieć".

(e) Inne odpowiedzi (np. "Nie wierzę w klasy społeczne". "Nie ma znaczenia, gdzie jestem" itd.).

Warunkiem podjęcia decyzji o kategorii, które należy ustanowić w celu grupowania danych, jest to, że naukowiec musi wybrać odpowiednią zasadę klasyfikacji. Pytanie badawcze lub hipotezy, jeśli zostały sformułowane, stanowi dobrą logiczną podstawę do wyboru zasady klasyfikacji.

Przypuśćmy, że hipoteza w badaniu to:

"Studenci, którzy mieli doświadczenie w nauczaniu w szkołach koedukacyjnych będą mieli bardziej przychylne nastawienie do systemu koedukacji."

Tutaj oczywiście jedną z zasad klasyfikacji odpowiedzi będzie to, czy respondent miał wcześniej doświadczenie w systemie koedukacyjnym. Inną podstawą klasyfikacji odpowiedzi byłby stopień faworyzowania lub nieznajomości wyrażony w stosunku do systemu koedukacyjnego. Można również powołać się na inne podstawy klasyfikacji, w zależności od tego, jakie dalsze skojarzenia mają być badane.

Pierwsza podstawa klasyfikacji przyniosłaby dwie kategorie odpowiedzi:

(a) Powiedzieli, że mieli wcześniejsze doświadczenie w zakresie koedukacji;

(b) Powiedzieli, że nie mieli wcześniejszego doświadczenia w zakresie koedukacji.

Te dwie kategorie zawierają w sobie cały zakres odpowiedzi (zakładając oczywiście, że żaden respondent nie odpowiedział lub nie odpowiedział lub nie udzielił "innej odpowiedzi"). Żadne odpowiedzi na powyższe założenie nie wykraczają poza zakres tych dwóch kategorii. Te dwie kategorie razem tworzą tak zwany "zestaw kategorii".

"Zestaw kategorii" musi spełniać następujące trzy wymagania:

(1) Zestaw kategorii powinien pochodzić z jednej zasady klasyfikacyjnej. Wymóg ten jest dość zrozumiały, ponieważ jeśli stosuje się więcej niż jedną zasadę klasyfikacji, jedną odpowiedź można zgłosić w więcej niż jednej kategorii.

W związku z tym kategorie nie będą od siebie niezależne. Na przykład, jeśli mamy trzy kategorie składające się na zestaw kategorii, np. Mężczyzna, kobieta, dziecko, wywodzące się w oczywisty sposób, z dwóch zasad klasyfikacji, a mianowicie odpowiednio płci i wieku, wówczas każdy przypadek (respondent) może być objęty więcej niż jedna kategoria w zestawie kategorii.

Na przykład dziecko może być również mężczyzną, kobieta może być również dzieckiem i tak dalej. Zasada klasyfikacji może jednak być złożona, tzn. Składa się z dwóch lub więcej kryteriów, tj. Męskiego dziecka, płci żeńskiej itd.

(2) Drugim wymogiem jest to, że zestaw kategorii powinien być wyczerpujący, tzn. Każda odpowiedź powinna być możliwa w jednej z kategorii w ramach zestawu. "Brak odpowiedzi" należy pominąć z uwagi na brak odpowiedniej kategorii w zestawie, który ją uwzględni.

Niezależnie od tego, jakie są odpowiedzi, musi być objęta pewną kategorią w ramach zestawu. Na przykład, gdyby ludzie świata mieli być klasyfikowani na podstawie ich rasy, zestaw kategorii składający się z trzech kategorii, a mianowicie: (a) Caucasoid, (b) Negroid i (c) Mongoloid, wyraźnie nie być wyczerpującym zestawem kategorii zgodnie z wymogiem nakreślonym powyżej, ponieważ nie zawiera jednej kategorii, w której wielu Indian (i kilku innych) może znaleźć miejsce.

(3) Ostatni wymóg jest następstwem pierwszego, a mianowicie, że kategorie w ramach zestawu powinny się wzajemnie wykluczać; to znaczy, kategorie nie powinny się pokrywać. W związku z tym, żadna odpowiedź nie byłaby zgłaszana przez więcej niż jedną kategorię w zestawie.

Ustalanie kategorii danych charakterystycznych dla nauk społecznych nie zawsze jest łatwym zadaniem. Zasada klasyfikacji może często być złożona (w przeciwieństwie do prostej, jednolitej). Zadanie wyciągnięcia wszystkich wzajemnie wykluczających się kategorii, które razem wyczerpałyby cały wszechświat reakcji, na podstawie złożonej zasady klasyfikacyjnej, jest rzeczywiście wymagające, wymagające wyobraźni.

W takich przypadkach bardzo pomocne jest zredukowanie atrybutów składających się na złożoną zasadę klasyfikacji do symboli lub kodów i wyciągnięcie ich za pomocą techniki rozszerzania Boole'a, cały zakres możliwych kategorii obejmujących zestaw kategorii.

Zróbmy bardzo prosty przykład. Załóżmy, że badacz bierze pod uwagę trzy cechy, np. Płeć (mężczyzna kobiety), wiek (poniżej 21 lat lub powyżej 21 lat) i stan cywilny (żonaty lub samotny) jako składniki jego pojedynczej (ale złożonej) zasady klasyfikacji i redukuje je do symboli, jak poniżej:

Mężczyzna = S, kobieta = S̅

Poniżej 21 lat = A, Powyżej 21 lat = A̅

Żonaty = M, pojedynczy = M̅

Wynikowy zestaw kategorii będzie wyczerpującą całością obejmującą wszystkie możliwe kombinacje tych trzech atrybutów, które składają się na związek klasyfikacyjny złożony. Możliwe kombinacje, tj. Kategorie, będą 2 3 = 2 x 2 x 2 = 8 w liczbie.

Są one następujące:

(1) SAM

(2) S̅ AM

(3) S A̅ M

(4) SA M̅

(5) S̅ A̅ M

(6) S̅ A M̅

(7) S A̅ M̅

(8) S̅ A̅ M̅

Dekodowanie, czyli podstawianie prawdziwych konotacji dla symboli, daje osiem wzajemnie wykluczających się kategorii, które brzmią:

(1) Mężczyźni poniżej 21 lat i żonaci.

(2) Kobiety poniżej 21 lat i zamężne.

(3) Mężczyźni powyżej 21 lat i zamężni.

(4) Mężczyźni poniżej 21 lat i niezamężni.

(5) Kobiety powyżej 21 lat i zamężne.

(6) Kobiety poniżej 21 lat i niezamężne.

(7) Mężczyźni powyżej 21 lat i niezamężni.

(8) Kobiety powyżej 21 lat i niezamężne.

Z tego samego powodu, jeśli złożona zasada klasyfikacyjna składa się z czterech atrybutów, będziemy mieli 2 4 = 2x 2 x 2 x 2, tj. 16 wzajemnie wykluczających się kategorii. Powinno być teraz jasne, w jaki sposób ta metoda ustalania kategorii, a nie intuicja, sprawia, że ​​zadanie klasyfikacji jest łatwiejsze i niezbyt bezpieczne.

Oczywiste jest, że ustanowienie zestawu kategorii jest stosunkowo łatwe, jeśli odpowiedzi uzyskane od respondentów podczas badania są dość proste i jednoznaczne, a zatem kategorie można łatwo zdefiniować w jednoznaczny sposób. Chociaż w ten sposób należy zawsze definiować kategorie, zadanie jest o wiele trudniejsze w przypadku niektórych rodzajów treści.

Przypuśćmy, że w badaniu naukowiec zapytał studentów płci męskiej: "Jak powiedziałbyś, że uczennice mają ochotę studiować w tej samej uczelni z takimi samymi studentami jak ty?" Odpowiedzi mogą się wahać od wskazań bardzo korzystnych postaw (przypisywanych studentkom ) do przypisań wysoce niekorzystnych postaw. Załóżmy, że są to niektóre z odpowiedzi otrzymanych od respondentów.

(1) Podoba im się ten pomysł ".

(2) "Nie sądzę, że myślą".

(3) "Myślą, że je obniża".

(4) Nie wchodzę w kontakt z nimi, więc nie wiem ".

(5) "Nienawidzą tego".

(6) "Niektóre z nich lubią, inne nie."

(7) "Chcą się tutaj uczyć, aby mogli powiedzieć, że są nie mniejsi niż mężczyźni".

(8) "W college'u wyłącznie dla kobiet wiele by im brakowało, więc wydaje się, że podoba im się to tutaj".

W odniesieniu do powyższych odpowiedzi nie byłoby trudno wyodrębnić prosty zestaw kategorii w oparciu o klasyfikacyjną zasadę pozytywnych i niekorzystnych postaw przypisywanych studentkom. Ale odkrywamy, że zarówno pozytywne, jak i nieprzychylne odpowiedzi przekazują różne odcienie znaczeń.

Mężczyzna, który mówi: "Oni (studenci) chcą się tutaj uczyć, aby mogli powiedzieć, że są nie mniejsi niż mężczyźni" przekazuje coś innego niż ten, który mówi: "Oni podoba im się ten pomysł." Podobnie mężczyzna, który mówi "Myślą, że to obniża", znów mówi coś innego niż ten, który mówi: "Nienawidzą tego".

Widzimy więc, że dwa atrybuty, tj .:

(1) Przypisywanie dziewczętom korzystnych lub niekorzystnych postaw, oraz

(2) Wyraźne odniesienie lub brak odniesienia do korzyści lub szkód wspierających korzystne lub niekorzystne postawy są dwoma istotnymi składnikami złożonej zasady klasyfikacji.

Kategorie w zestawie kategorii zgodnie z idealnymi wymaganiami omawianego wcześniej zestawu kategorii można określić w następujący sposób:

(1) Korzystna postawa przypisywana uczniom, wyjaśniona w kategoriach korzyści, jakie czerpią z nauki w tym samym college'u z uczniami płci męskiej (na przykład, 7 i 8 odpowiedzi).

(2) Korzystna postawa przypisywana dziewczętom bez wyraźnego odniesienia do korzyści uzyskanych z nauki w tym samym college'u z mężczyznami (np. Oświadczenie nr 1).

(3) Neutralna lub akomodacyjna postawa przypisana dziewczętom (np. Wypowiedź nr 1).

(4) Niekorzystna postawa przypisywana dziewczętom, wyjaśniona w kategoriach wad (korzyści negatywne), które czerpią z nauki w tym samym college'u ze studentami płci męskiej.

(5) Niekorzystna postawa przypisywana dziewczętom bez wyraźnego odniesienia się do niedogodności lub strat wynikających z koedukacji (np. Oświadczenie nr 5).

(6) Inne odpowiedzi, nie można powiedzieć, brak odpowiedzi, nie wiem (np. Oświadczenie nr 4).

Powyższa ilustracja dałaby wyobrażenie o tym, jak bardzo złożona może być klasyfikacja w naukach społecznych. Praca z tak złożonymi kategoriami wymaga dużej staranności i wysiłku przy klasyfikacji. Nawet jeśli kategorie zostały opracowane starannie, ich stosowanie będzie stwarzać większe problemy niż wąskie i precyzyjne zdefiniowanie kategorii.

Jeśli uczeń z powyższego przykładu mówi: "podoba im się to dobrze tutaj, oni wiedzą, dlaczego" jest wątpliwym pytaniem, czy to stwierdzenie implikuje czy nie. W związku z tym konieczne byłoby ustanowienie dodatkowych zasad w celu rozstrzygnięcia takich odpowiedzi.

Trzeba powiedzieć, że nawet kosztem powtórzenia, że ​​chociaż w zasadzie możliwe jest wykorzystanie wielu atrybutów odpowiedzi do formułowania zestawów kategorii, w praktyce jest to często niepotrzebne, nieekonomiczne i niewdzięczne, ponieważ nie wszystkie z tych zasad klasyfikacji ponosić cel badania.

Przejdźmy teraz do rozważenia problemu wyboru zasady klasyfikacji dla kategoryzacji materiałów niestrukturalnych (tj. Informacji zebranych przez niestrukturalne narzędzia).

W badaniach wykorzystujących instrumenty strukturalne do gromadzenia danych istotnych dla jasno sformułowanych pytań badawczych lub hipotezy, odpowiednia zasada klasyfikacji odpowiedzi jest dość wyraźnie określona charakterem pytań i zabezpieczonymi odpowiedziami.

Jednak przy pracy z nieuporządkowanymi materiałami lub danymi pierwszym problemem jest ustalenie, które aspekty materiału mają zostać skategoryzowane, tj. Jakie zasady klasyfikacji należy stosować przy ustalaniu kategorii.

W badaniach eksploracyjnych, które definitywnie nie rozpoczynają się od dobrze sformułowanego problemu lub jawnej hipotezy, trudno jest dojść do decyzji o zasadach klasyfikacyjnych. W momencie gromadzenia danych badacz nie wie, które aspekty mogą okazać się najważniejsze.

Musi zatem zebrać dużą ilość danych typu nieustrukturyzowanego. W toku analizy badacz staje przed problemem radzenia sobie nie tylko z niestrukturalnymi materiałami, ale także z dużą ich ilością.

Wskazane jest przeanalizowanie danych z badania eksploracyjnego w celu opracowania roboczej hipotezy, która przyniesie praktyczne, zadowalające zasady klasyfikacji. Badacz jest zobowiązany do uważnego przeczytania wszystkich swoich materiałów, będąc cały czas czujny na ukryte wskazówki w danych. Takie wskazówki są często zabezpieczane poprzez badanie materiałów na tematy lub sytuacje, które kontrastują z tymi, które studiuje.

Takie badanie pomaga badaczowi dostrzec istotne różnice między tymi dwoma sytuacjami. Innym sposobem na uzyskanie takich wskazówek jest umieszczenie swoich spraw w grupach, które wydają się mieć bliskie pokrewieństwo lub wydają się należeć do siebie, a następnie zadać sobie pytanie, co doprowadziło go do tego, że sprawy, które umieścił w jednej grupie, są podobne.

Innym podejściem, które może stymulować wskazówki do formułowania roboczej hipotezy, jest odnotowywanie spraw, które wydają się zaskakujące w świetle pewnych teoretycznych oczekiwań lub zdrowego rozsądku, a następnie poszukiwania możliwych wyjaśnień zaskakujących lub nieprzewidzianych zjawisk.

Należy jednak pamiętać, że nawet przy jasnej hipotezie analiza niestrukturalnego materiału stwarza szczególne problemy. Po pierwsze, zawsze istnieje możliwość, że niektóre dokumenty nie zawierają informacji o danym punkcie.

Istnieje również prawdopodobieństwo, że znaczna część materiału nie ma bezpośredniego wpływu na hipotezę. Poza tym istnieje problem z określeniem wielkości jednostek materiału, do którego mają być stosowane kategorie.

Na przykład, jeśli naukowiec korzystał z dokumentacji sprawy prowadzonej przez agencje pomocy społecznej, musi zdecydować, która jednostka (np. Klienci, oświadczenia, akty, pracownicy socjalni, sesje z klientem lub cały rekord) jest najbardziej odpowiednia w udzielaniu odpowiedzi na jego pytania. szczegółowe pytania badawcze.

Krok # 2. Kodowanie:

Kodowanie polega na przypisywaniu symboli, zazwyczaj cyfr do każdej odpowiedzi, która mieści się w określonej klasie. Innymi słowy, kodowanie może być uważane za proces klasyfikacji niezbędny do późniejszego zestawiania. Poprzez kodowanie surowe dane są przekształcane w symbole, które można zestawiać w tabeli i zliczać.

Ta transformacja nie jest jednak automatyczna, wymaga dużej oceny ze strony programisty. "Koder" to oficjalny tytuł dla osoby, której przypisano odpowiedzialność za nadanie poszczególnym kodom odpowiedzi po tym, jak zarejestrowane notatki zostały dostarczone do biura.

Należy jednak pamiętać, że często osąd, która odpowiedź powinna mieć przypisany konkretny kod, jest dokonywany przez osobę inną niż ta, która nosi oficjalną nazwę "koder".

Kodowanie może odbywać się w trzech różnych punktach badania, przy czym za przypisywanie kodów surowym danym mogą odpowiadać różne rodzaje osób. W wielu badaniach sam respondent może zostać poproszony o przypisanie kodów do jego reakcji lub sytuacji.

Dotyczy to wielu pytań typu ankieta i wielokrotnego wyboru. Na przykład, gdy respondent zostanie poproszony o wskazanie, które z zajęć (np. Grupy dochodowe) należy do, np. (A) poniżej 3000 rupii po południu, (b) Rs. 3001 / - do Rs. 6000 / - pm, (c) Rs. 6001 / - do Rs. 9000 / - pm, (d) Rs. 9001 / - i powyżej, respondent zakodował swoją odpowiedź po prostu zaznaczając swoją pozycję wśród podanych alternatyw.

Drugim punktem, w którym kodowanie może się odbywać, jest sytuacja, w której podczas zbierania danych ankieter lub obserwator kategoryzuje odpowiedzi badanych. To właśnie robi się, gdy ankieter lub obserwator stosuje skalę ocen, aby opisać reakcję lub zachowanie danej osoby.

Ostatnim punktem, w którym może się odbywać kodowanie, jest oczywiście zdeponowanie surowych danych niesklasyfikowanych (zgromadzonych w szczególności za pomocą niestrukturalnych instrumentów gromadzenia danych) w biurze projektu, a urzędowi kodiści w tym miejscu dokonują oceny, aby przypisać określone kody konkretnym kodom. odpowiedzi lub dane.

Pokrótce porównajmy i skontrastujmy zalety i wady kodowania przez oficjalnych koderów w biurze i kodowania przez ankieterów lub obserwatorów wykonanych w trakcie zbierania danych w terenie.

Ankieterzy lub obserwatorzy są w stanie dostrzec zarówno sytuację, jak i zachowanie jednostki. W związku z tym mają więcej informacji, na których mogą oprzeć swoje oceny w odniesieniu do odpowiedniej klasyfikacji odpowiedzi w porównaniu z koderami działającymi na podstawie pisemnych zapisów, które mogą nie dać pełnego obrazu rzeczywistego znaczenia odpowiedzi.

Kolejną zaletą kodowania przez samych kolekcjonerów danych jest to, że można zaoszczędzić zarówno czas, jak i pracę.

Wręcz przeciwnie, kodowanie w biurze przez koderów ma pewne zalety sygnału. Kodowanie złożonych danych, które wymaga czasu na refleksję, powinno być dokonane przez programistów biur. Na miejscu ocena kodowania dokonana przez gromadzących dane może nie być tak rozróżniająca, jak osądy dokonywane z więcej czasu na rozważania.

Ocenę kolektorów danych można pokolorować wieloma czynnikami, mianowicie: wyglądem respondenta, akcentami i reakcjami na poprzednie pytania, manieryzmy itp. Po drugie, istnieje niebezpieczeństwo, że kolektory danych nie uzyskają jednolitości przy kodowaniu odpowiedzi.

W związku z tym porównywalność danych uzyskanych od dużej liczby respondentów jest utrudniona. Po trzecie, ankieterzy lub obserwatorzy mogą opracować własne ramy odniesienia w odniesieniu do materiału, który kodują. Po pewnym czasie skłonność do kategoryzacji byłaby niewiarygodna. Wspólna rama referencji jest łatwiejsza do uzyskania i utrzymania w operacji kodowania biur niż w terenie.

Omówmy niektóre z ważnych problemów związanych z niezawodnością w kodowaniu. Istnieje wiele rzeczy, które mogą działać, aby ocenić wiarygodność osądu programistów. Niektóre czynniki mogą wynikać z danych, które należy skategoryzować, niektóre z natury kategorii, które mają być stosowane, a jeszcze inne mogą pochodzić od samych programistów.

Omówimy teraz pokrótce niektóre z tych czynników i sposoby, w jakie można ich chronić.

Wiele trudności, które występują w kodowaniu, wynika z niedoskonałości danych. Często dane nie dostarczają wystarczających informacji istotnych dla niezawodnego kodowania. Może to wynikać z niewystarczających i niewystarczających procedur zbierania danych. Trudności te można jednak ogólnie rozwiązać przez ostrożną edycję danych. Proces polegający na analizie danych w celu poprawy ich jakości dla kodowania znanego jako edycja.

Kiedy kolektor danych przekazuje materiał do biura projektu, nadal istnieje możliwość wyeliminowania wielu potencjalnych problemów z kodowaniem. Dokładne zbadanie danych od razu po ich zebraniu i, jeśli to konieczne, systematyczne zadawanie pytań ankieterom lub obserwatorom pomaga uniknąć wielu problemów związanych z kodowaniem.

Edytowanie nie tylko pomaga uniknąć późniejszych problemów z kodowaniem, ale może również znacznie poprawić jakość zbierania danych, wskazując, gdzie ankieterzy lub obserwatorzy mogli źle zrozumieć instrukcje lub nie zapisali danych wystarczająco szczegółowo.

W rzeczywistości, edycja powinna być przeprowadzana w trakcie wstępnego testowania wywiadu lub szkolenia z harmonogramu obserwacji przez ankieterów lub obserwatorów, a także przez cały okres zbierania danych. Edycja w biurze projektu ma duży wpływ na usuwanie problemów z kodowaniem.

W związku z tym należy dokonać edycji, podczas gdy ankieterzy lub obserwatorzy mogą być łatwo udostępniani do przesłuchania. Edycja wymaga dokładnej analizy wywiadów lub harmonogramów obserwacji.

Powinny one zostać sprawdzone pod kątem:

(1) Kompletność: redaktorzy muszą sprawdzić, czy wszystkie elementy są należycie wypełnione. Puste miejsce obok pytania w harmonogramie wywiadów może na przykład oznaczać "brak odpowiedzi" lub "Nie wiem" lub odmowę odpowiedź lub brak możliwości zastosowania pytania lub pominięcie pytania przez nadzór itp.

(2) Redaktor powinien sprawdzić harmonogram rozmów lub obserwacji, aby dowiedzieć się, czy pismo ręczne lub symbole lub kody przypisane przez osobę przeprowadzającą wywiad lub obserwatora mogą być łatwo zrozumiane przez programistę.

Zawsze wskazane jest sprawdzenie czytelności, gdy materiał jest przekazywany i jeśli jest to konieczne, aby przesłuchujący lub obserwator przepisali go ponownie. Jeśli tak się nie stanie, kodowanie może utknąć na etapie, kiedy ankieterzy lub obserwatorzy mogą nie być łatwo przywołani w celu przesłuchania.

(3) Edycja obejmuje również sprawdzanie harmonogramów dla zrozumienia. Często zdarza się, że zarejestrowana odpowiedź jest doskonale zrozumiała dla ankietera lub obserwatora, ale nie jest zrozumiała dla kodera, ponieważ kontekst zachowania lub odpowiedzi nie jest znany koderowi. Systematyczne kwestionowanie kolektorów danych usunie zamieszanie i niejasności oraz znacząco poprawi jakość kodowania.

(4) Dane powinny również zostać zbadane lub sprawdzone, aby ustalić, czy istnieją pewne niespójności w odniesieniu do reakcji zapisanych w harmonogramie.

Na przykład, respondent mógłby odpowiedzieć na jedno z wcześniejszych pytań, że nigdy nie spotkał ludzi z konkretnej grupy, a jednak w odpowiedzi na późniejsze pytanie mógł powiedzieć coś o odwiedzeniu pewnych osób z tej grupy w trakcie jego rundy. Jeśli tak jest, istnieje oczywista potrzeba zbadania tej niespójności i wyjaśnienia jej poprzez kwestionowanie gromadzących dane.

(5) Konieczne jest również sprawdzenie stopnia jednolitości, z jaką ankieterzy stosowali się do instrukcji zbierania i rejestrowania danych. Kodowanie może być utrudnione, jeśli reakcja jest rejestrowana w jednostkach innych niż określone w instrukcjach.

(6) Należy zauważyć, że niektóre odpowiedzi mogą po prostu okazać się nieistotne dla celów dochodzenia. To może się zdarzyć, jeśli pytanie nie jest jasno sprecyzowane lub nie jest inteligentnie zadawane. Dane powinny zatem zostać starannie przeanalizowane w celu oddzielenia nieodpowiednich odpowiedzi od właściwych.

Wartość kategoryzacji danych zależy oczywiście od poprawności zastosowanych kategorii. Konieczne jest, aby kategorie oprócz tego, że były istotne dla celu badań, zostały również określone z koncepcyjnego punktu widzenia.

Kodowanie będzie niewiarygodne, jeśli kategorie nie są jasno zdefiniowane pod względem wskaźników, które mają zastosowanie do danych, tu i teraz. W praktyce kategorie są definiowane za pomocą przykładów z danych w ręku. Jest bardzo pomocne, jeśli ilustracje z danych pokazują nie tylko, jakie rodzaje odpowiedzi stanowią typ kategorii, ale także pomagają odróżnić linię graniczną między pozornie podobnymi kategoriami.

Jest oczywiste, że jakość kodowania zależy od kompetencji programistów. Szkolenie programistów jest więc ważnym krokiem w każdym badaniu.

Szkolenie programistów może przebiegać w następujących etapach:

Po pierwsze, różne kody są wyjaśnione trainess (kodery) i zilustrowane przykładami z danych, które mają być podzielone.

Po drugie, wszyscy programiści-praktykanci następnie ćwiczą na próbce danych, problemy, które powstają, są omawiane przez programistów jako grupa z opiekunem w celu opracowania wspólnych procedur i definicji.

Po trzecie, wskazówki wynikające z kodowania praktyki są używane do wprowadzania zmian w kategoriach, aby ułatwić ich zastosowanie do materiału i do zapisania procedur i definicji, które rozwinęły się podczas wstępnego kodowania.

Po czwarte, w pewnym momencie praktyki, gdy powstaje stosunkowo niewiele nowych problemów, koderowie pracują nad identyczną częścią danych bez konsultacji ze sobą lub z przełożonym. Następnie oblicza się spójność lub wiarygodność kodowania, aby określić, czy możliwe jest rozpoczęcie kodowania na prawą rację.

W zależności od wyników sprawdzania niezawodności lub spójności, można podjąć decyzję o wyeliminowaniu kategorii, które wydają się zbyt niewiarygodne lub poświęcić więcej czasu na programowanie szkoleń lub wyeliminowanie najbardziej niespójnych koderów i tak dalej.

Na koniec przeprowadza się okresowe kontrole, aby zapewnić, że koderowie nie stają się nieostrożni z większym doświadczeniem lub że nie opracowują osobistych, specyficznych metod radzenia sobie z nowymi problemami w materiale. Aby zapewnić jednolitość i decyzję podejmowaną po rozpoczęciu kodowania, należy niezwłocznie przekazać wszystkim programistom.

Oczywiście spójność i trafność, z jaką dany typ odpowiedzi przypisany jest do danej kategorii, będzie miała istotny wpływ na wynik analizy, dlatego ważne jest, aby sprawdzić wiarygodność kodowania i zwiększyć porozumienie między programistami. jak to możliwe.

Oczywiście trudno jest ustalić dowolny poziom niezawodności jako standard, który należy osiągnąć. Różne rodzaje materiałów wykazują różne stopnie trudności w osiągnięciu niezawodności. Co do zasady, im bardziej uporządkowany jest materiał, który ma być kodowany, a tym samym prostsze kategorie, tym wyższa niezawodność.

Należy zauważyć, że rodzaje kodów używanych w badaniu będą się różnić w zależności od tego, czy dane mają być zestawiane w tabeli maszynowej, czy też ręcznie. Jeśli dane mają być sortowane ręcznie, opis słowny klas jest zadowalający.

Można również stosować skróty lub litery alfa-bates, np. "Y dla Yes", N 'dla No itd. Z drugiej strony zestawienie maszyn wymaga, aby klasy były wyrażone w symbolach liczbowych, ponieważ maszyny mogą być zasilane tylko danymi liczbowymi.

Tabulacja mechaniczna wymaga użycia kart dziurkowanych. Jednak liczba różnych klas, które można pokazać na karcie dziurkacza, jest ograniczona. W każdym przypadku wszystkie kody używane do tabelowania maszyn mogą być również używane do ręcznego zestawiania.

Jeśli mają być stosowane kody na kartach dziurkacza, z których ogólnie dostępne są dwa rozmiary, tj. Karty 80 kolumn i 54 karty kolumn, pożądane jest użycie dziesięciu na mniejszej liczbie klas / kategorii dla większości informacji lub odpowiedzi.

Karta dziurkowana zawiera 10 ponumerowanych spacji i X i Y w każdej kolumnie, co daje w sumie 12 kodów, które można wykorzystać. To dość skomplikowana procedura, aby uzyskać więcej niż jeden typ przedmiotu w kolumnie. Na przykład kody narodzin i wieku nie mogą być stemplowane w pojedynczej kolumnie, chyba że dla każdej z nich używane jest tylko sześć grup wiekowych.

Krok # 3. Tabulacja:

Tabulacja jest częścią procesu technicznego w analizie statystycznej danych. Podstawowym elementem w zestawieniu jest podsumowanie wyników w postaci tabel statystycznych.

Dopiero gdy surowe dane są podzielone na grupy i liczą się liczby przypadków przypadających na te różne grupy, możliwe jest ustalenie przez badacza jego wyników i przekazanie ustaleń konsumentowi w formie, która może łatwo zrozumieć.

Tabulacja naturalnie zależy od ustalenia kategorii surowych danych, edycji i kodowania odpowiedzi (wykrawanie i uruchamianie kart przez maszyny do mechanicznego układania i sortowania i liczenia tabulacji).

Doświadczeni badacze zazwyczaj opracowują plany tabelaryczne mniej więcej w tym samym czasie, w którym opracowują lub konstruują instrumenty do gromadzenia danych i sporządzają plany próbkowania. Niedoświadczeni badacze rzadko zajmują się planami tabulacji, dopóki nie zostaną zebrane dane. Oczywiście, naukowiec nie jest w stanie przewidzieć całego zakresu zestawień, który będzie później pożądany.

Powinien być wystarczająco zaznajomiony ze swoim problemem badawczym lub przedmiotem badań, aby móc sporządzić tabele, które dostarczą odpowiedzi na pytania, które dały początek badaniu. Naukowiec powinien być w stanie przygotować odpowiednie plany tabulacji, jeśli wykorzysta ustalenia z wcześniejszych badań, które mają elementy wspólne z tym, dla którego sporządzane są plany.

W badaniach eksploracyjnych lepszą i bezpieczniejszą procedurą jest przetestowanie narzędzia do gromadzenia danych na próbce populacji tego typu, która byłaby objęta końcowym badaniem. W ten sposób można uzyskać ogólne wskazówki dotyczące tego, jaki rodzaj tabulacji będzie znaczący.

Tabulacja może być wykonana całkowicie metodami ręcznymi; jest to znane jako układanie rąk. Alternatywnie, można tego dokonać za pomocą metod mechanicznych wykorzystujących automatyczne i szybkie maszyny zasilające dla większości danych, proces ten jest znany jako zestawienie mechaniczne.

Badacz musi zdecydować zanim sporządzi szczegółowe plany tabelaryczne dla swojego badania, jaką metodę tabulacji użyłby. Decyzja ta będzie opierać się na różnych rozważaniach, takich jak koszt, czas, personel itp.

Zarówno tabulacja ręczna, jak i mechaniczna, mają swoje zalety i ograniczenia. Ostrzeżenia badaczy przed tymi zaletami i wadami lepiej pozwalają zdecydować, która metoda byłaby odpowiednia dla jego problemu.

Pokrótce przeanalizujemy zalety tych dwóch metod zestawiania:

(1) Tabulacja mechaniczna obejmuje wiele prac biurowych i specjalistycznych operacji. Oczywiście ułatwia to szybkość, ale prędkość nie zawsze może być odpowiednią rekompensatą za dodatkową pracę biurową.

(2) Jeżeli liczba i rodzaje tabel, o które chodzi, nie są ustalane przed rozpoczęciem prac tabelarycznych. Tabelka maszyny może być bardziej celowa. Jeśli jednak układ tabulacji zostanie uznany za efektywny, kolejność sortowania i liczenia zostanie określona przed tabelą.

(3) Główną zaletą tabeli maszyn jest to, że ułatwia ona klasyfikację krzyżową. W badaniach na dużą skalę, w których wiele zmiennych ma być skorelowanych lub sklasyfikowanych w sposób krzyżowy, rozsądne jest stosowanie tabel maszynowych.

Z tego powodu zestawienia mechaniczne są używane w badaniach wymagających wielu korelacji między zmiennymi. Jeśli jednak całkowita liczba respondentów jest niewielka, ręczne liczenie ich zgodnie z zasadą przeklasyfikowania może być względnie ekonomiczne.

(4) W przypadku dużej ilości zakodowanych informacji i kilku kart dziurkowanych wymaganych w każdym przypadku, preferowana może być tabela ręczna.

(5) Jeśli pożądane jest zachowanie danych w formie gotowej do nowego zestawienia w stosunkowo krótkim czasie, zwykle przydatne są karty dziurkowane. Tabelka mechaniczna przydaje się podczas okresowych badań lub przeglądów, w których wymagany jest regularny odbiór tego samego rodzaju informacji.

(6) Proces sortowania i liczenia jest mniej prawdopodobne, aby powodować błędy, jeśli wykonywane przez maszynę, niż w przypadku ręcznego. Błędy oczywiście mogą i pojawiają się w tabelach maszyn, a kiedy to robią, często są bardzo trudne do zidentyfikowania i sprawdzenia.

Wszelkie błędy wykryte na etapie kodowania, edycji lub pracy w terenie mogą wymagać prac związanych z układaniem maszyny. Dlatego często pożądane jest ręczne zestawianie tabulacji wraz z pracą w terenie.

(7) Koszt operacji tabulacji jest ważnym zagadnieniem badacza. Tabulacja maszyn często wiąże się z dużo większymi kosztami, ponieważ większość kart dziurkowanych, opłat za wykrawanie i weryfikację, opłaty za maszyny do sortowania i maszyn do zestawiania oraz wydatki związane z zatrudnianiem wyspecjalizowanych serwisów określonych typów operatorów maszyn często składają się na znacznie więcej niż w przypadku osób zajmujących się handlem. tabulacja.

(8) Kolejnym ważnym czynnikiem jest czas. W zestawieniu mechanicznym praca z tabulacją jako taką odbywa się w bardzo krótkim czasie, ale etapy przygotowawcze, jak również szkolenie, nadzór i ewentualna niedostępność niektórych rodzajów maszyn na wynajem, skutkujące przemieszczeniem pracy, mogą w nieunikniony sposób przyczynić się do marnotrawstwa czasu.

(9) Trudno jest zignorować względy związane z wygodą. Jeśli tabulacja mechaniczna wymaga wysyłania nieprzetworzonych danych do jakiegoś biura z dala od biura projektu, powodują one niedogodności związane z pakowaniem, transportem itp.

(10) Wreszcie, ilość materiałów komentarzowych, które należy zapisać i przeanalizować, może również wpływać na wybór metod tabelarycznych. W niektórych ankietach ważne są dosłowne komentarze informatorów. Karta ręczna używana tylko w zestawieniu ręcznym może zapewnić miejsce na takie uwagi lub komentarze.

Maszyny, które obsługują prace tabletkarskie, są wielu rodzajów. Postępy w tej dziedzinie były niezwykle szybkie w ostatnich latach. Niektóre maszyny po prostu sortują i liczą karty, inne sortują, liczą i drukują wyniki, jeszcze inne są przygotowane do wykonywania najbardziej skomplikowanych operacji statystycznych lub obliczeń.

Te ostatnio wymienione maszyny są niezwykle złożone i muszą być zaprogramowane dla danej operacji przez specjalistę w linii. Tabela jest wystawą danych liczbowych uporządkowanych systematycznie w kolumnach z etykietami (pionowe) i rzędami (poziomymi).

Prosta lub elementarna tabela wskazuje proste wartości częstotliwości, z którymi w danych zbiorach występują różne kategorie, na przykład liczba osób w próbie, które uczęszczały do ​​szkoły średniej, ale nie zostały zaliczone, liczba osób, które wzięły udział w kursie w college'u, ale nie ukończył studiów i tak dalej. Poniższa tabela po prostu wskazuje częstotliwości wizyt pięćdziesięciu respondentów w kinie.

W badaniach często interesuje nas znalezienie korelacji między dwiema lub więcej zmiennymi, np. Wykształcenie i dochód i płodność, proste tabele (zilustrowane powyżej) pokazujące rozkład częstotliwości respondentów w odniesieniu do jednej cechy, np. Wykształcenie lub dochód lub płodność, nie pomagają nam dostrzec związku między dwiema lub więcej zmiennymi.

Sposobem zobaczenia związku jest przygotowanie tabel przekrojów lub tabel podziału. Takie tabele umożliwiają grupowanie spraw, które występują wspólnie w dwóch lub więcej kategoriach, na przykład zestawienie liczby przypadków, które mają wysokie wykształcenie, niskie dochody i mają od 2 do 3 dzieci lub liczbę przypadków, które są niski poziom wykształcenia, niski dochód i od 4 do 5 dzieci i tak dalej. Najbardziej podstawową formą cross-tabulacji, którą studenci znają, jest tabela czasu kolegium.

Załóżmy, że badacz chce zobaczyć związek między trzema zmiennymi, mianowicie: zawód, dochód i płodność. Musi zastosować schemat tabelaryczny, który pozwoli na wszystkie możliwe kombinacje różnych kategorii tych trzech zmiennych.

Zestawienie danych na hipotetycznej próbie 100 osób można przedstawić w następujący sposób:

W powyższej tabeli wskazaliśmy liczbę dzieci w rzędach. Ta zmienna płodności została podzielona na pięć kategorii, tj. Bez problemu, od 1 do 2, od 3 do 4, od 5 do 6, 7 i więcej. Tak więc na marginesie po lewej stronie mamy te 5 kategorii płodności. Wskazywaliśmy dochód 100 respondentów w kolumnach.

Zmienna dochodowa została podzielona na pięć kategorii, tj. Poniżej Rs.200, Rs.201-400, 401-600, 601-800, 801-1000. Tak więc mamy pięć kolumn odpowiadających tym kategoriom.

Ponownie, ponieważ mamy jeszcze jedną zmienną, tj. Zawód, aby się pomieścić, kolumny dochodów zostały podzielone na dwie części odpowiadające dwóm kategoriom, w których zawody zostały podzielone, tj. Zawód obroży i zawód fizyczny .

Tak więc mamy dziesięć pionowych kolumn, odpowiadających dochodom i zajęciu. Liczba poziomych rzędów, które mamy dla kategorii zmiennej płodności, wynosi pięć. Tak więc mamy dziesięć kolumn przecinających pięć rzędów tworzących bryłę stołu.

Przecięcie kolumn i wierszy zaowocowało 50 (pięćdziesięcioma) komórkami lub ramkami. Każde z tych pól lub komórek mieści określoną liczbę przypadków, które różnią się od przypadków w innych komórkach, jeśli chodzi o dochód lub zawód, płodność lub dowolne dwa z nich lub we wszystkich z nich. Przeczytajmy tabelę, aby dowiedzieć się, co ona reprezentuje.

Z ogólnej próby 100 przypadków, jest 25 osób, które mają od 3 do 4 problemów. Spośród tych 25 osób, czytających z lewej strony, 5 osób (z 3 do 4 dzieci) ma dochody poniżej Rs200 / - i są zatrudnione w zawodach białych kołnierzyków.

Two persons (with between 3 and 4 children) have income below Rs.200 and are employed in blue- collar occupations. Let us now take the second row. Of the total respondents, 38 have between 1 and 2 children. 11 (in the 7th cell) who have between 1 and 2 children are from the income group Rs.601 to Rs.800 and are employed in white-collar occupation.

This exercise should make it very clear that cross-tabulation is an essential step in the discovery of or testing of relationships among the variables contained in the data.

Tabulation is a means to present data in a summarized form in a way that facilitates the required statistical calculations. Data may, however, be presented in other ways, ie, instead of presenting them in a tabular form, the researcher may present them in the form of diagrams or graphs. Such diagrammatic or graphic representations do have the merit of being intelligible to a less knowledgeable reader.

But they suffer from the limitation that they are not so useful as a basis for statistical calculations. Let us now proceed to discuss the next operation, ie, the statistical analysis of data. Tabulation is a prerequisite or a first step in this direction.

Step # 4. Statistical Analysis of Data :

In research, we are not concerned with each individual respondent. The purpose of research is broader than this. That is, we wish to know much more than simply that a given respondent, for example, has extremely favourable attitude toward disarmament and that another respondent has moderately unfavorable attitudes toward the same issue. But this information is just not enough.

Social science researches are generally directed toward providing information about a particular population of respondents mostly via a sample. The sample of the totality might be asked certain questions related to the problem of our study, or be subjected to some form of observation.

Let us suppose that we have asked a sample of a thousand college students studying in 'post-graduate' classes a series of questions with a view to securing information about their study habits. Our research would thus be directed toward providing information about the 'population' of 'post-graduate' students of which the thousand cases is a sample.

As a necessary step to characterizing this 'population', we would have to describe or summarize the information about study habits that we have obtained on the sample thereof. Tabulation is just a part of this step. In addition, we must estimate the reliability of generalizations of the 'population' from the obtained data. Statistical methods are useful in fulfilling both these ends.