Top 4 Charakterystyka dobrego testu

Ten artykuł rzuca światło na cztery ważne cechy dobrego testu. Cztery cechy to: 1. Wiarygodność 2. Ważność 3. Obiektywność 4. Użyteczność.

Charakterystyka # 1. Niezawodność:

Słownikowe znaczenie niezawodności to spójność, zależność lub zaufanie. Tak więc w pomiarach niezawodność jest zgodnością, z jaką test daje ten sam wynik w mierzeniu tego, co mierzy. Wynik testu nazywa się wiarygodny, gdy mamy powody, by uważać wynik za stabilny i godny zaufania. Stabilność i wiarygodność zależą od stopnia, w jakim wynik jest wskaźnikiem wiarygodności czasowej "jest wolny od przypadkowego błędu. Dlatego niezawodność można zdefiniować jako stopień zgodności między dwoma pomiarami tej samej rzeczy.

Na przykład, przeprowadziliśmy test osiągów na grupie A i ustaliliśmy średni wynik 55. Znów po 3 dniach otrzymaliśmy ten sam test na grupie A i ustaliliśmy średni wynik 55. Wskazuje on, że przyrząd pomiarowy (test Osiągnięć) zapewnia stabilny lub niezawodny wynik. Z drugiej strony, jeśli w drugim pomiarze test daje średnią punktację około 77, wtedy możemy powiedzieć, że wyniki testu nie są spójne.

Według słów Gronlunda i Linna (1995) "rzetelność odnosi się do spójności pomiaru - czyli do tego, jak spójne wyniki testów lub inne wyniki oceny są od jednego pomiaru do drugiego".

CV Good (1973) określił niezawodność jako "wartość, z jaką urządzenie pomiarowe mierzy coś; stopień, w jakim test lub inny instrument oceny mierzy konsekwentnie to, co faktycznie mierzy. "

Według Ebela i Frisbie (1991) "termin niezawodność oznacza spójność, z jaką zestaw wyników testów mierzy to, co mierzą".

Teoretycznie niezawodność definiuje się jako stosunek rzeczywistej punktacji i obserwowanej wariancji wyników.

Według Davisa (1946) "stopień względnych dokładności pomiaru zbioru wyników testu jest definiowany jako wiarygodność."

Tak więc niezawodność odpowiada na następujące pytania:

Gronlund i Linn (1995)

Jak podobne są wyniki testu, jeśli zagubiony jest podawany dwa razy?

Jak podobne są wyniki testu, jeśli stosuje się dwie równoważne formy testów?

Do jakiego stopnia wyniki każdego testu esejowego. Różnić się, gdy jest oceniany przez różnych nauczycieli?

Nie zawsze jest możliwe uzyskanie idealnie spójnych wyników. Ponieważ istnieje kilka czynników, takich jak zdrowie fizyczne, pamięć, zgadywanie, zmęczenie, zapominanie itp., Które mogą wpływać na wyniki z jednego pomiaru do drugiego. Te dodatkowe zmienne mogą wprowadzić pewien błąd do naszych wyników testów. Ten błąd jest nazywany błędami pomiarowymi. Tak więc przy ustalaniu niezawodności testu musimy wziąć pod uwagę ilość błędów występujących w pomiarze.

Charakter niezawodności:

1. Niezawodność odnosi się do spójności wyników uzyskanych za pomocą instrumentu, ale nie do samego instrumentu

2. Wiarygodność odnosi się do konkretnej interpretacji wyników testów. Na przykład wynik testu, który jest niezawodny przez pewien okres czasu, może nie być wiarygodny z jednego testu na inny równoważny test. Takiej niezawodności nie można traktować jako ogólnej charakterystyki.

3. Wiarygodność jest pojęciem statystycznym w celu ustalenia wiarygodności, że podajemy test grupie raz lub więcej niż raz. Następnie konsystencja jest określana w kategoriach przesunięć we względnej pozycji osoby w grupie lub oczekiwanej zmienności w wyniku danej osoby. Przesunięcie względnej pozycji osoby jest powiązane za pomocą współczynnika korelacji zwanego "Współczynnikiem Wiarygodności", a wielkość zmienności jest zgłaszana przez "Błąd standardowy pomiaru". Oba te procesy są statystyczne.

4. Wiarygodność jest konieczna, ale nie jest wystarczającym warunkiem ważności. Test, który nie jest wiarygodny, nie może być ważny. Ale nie jest tak, że test o wysokiej niezawodności będzie miał wysoką ważność. Ponieważ wysoce spójny test może mierzyć coś innego niż to, co chcemy zmierzyć.

Metody określania niezawodności:

W przypadku większości testów edukacyjnych współczynnik niezawodności zapewnia najbardziej widoczny statystyczny wskaźnik jakości, który jest zwykle dostępny. Oszacowanie wiarygodności testu dostarcza istotnych informacji do oceny ich jakości technicznej i motywowania do ich poprawy. Konsystencja wyniku testu wyrażana jest albo w kategoriach przesunięć pozycji danej osoby w grupie, albo pod względem wielkości zmienności w wyniku danej osoby.

Na podstawie tej oceny wiarygodności mieszczą się dwie ogólne klasyfikacje:

(ja) Współczynnik względnej niezawodności lub niezawodności:

W metodzie tej niezawodność określana jest jako współczynnik korelacji, zwany współczynnikiem niezawodności. Stąd określamy przesunięcie względnej pozycji wyniku jednostki przez współczynnik korelacji.

(ii) Bezwzględna niezawodność lub standardowy błąd pomiaru:

W metodzie tej niezawodność określana jest jako standardowy błąd pomiaru. Wskazuje on na wielkość zmienności wyniku danej osoby.

Metody określania względnej niezawodności lub współczynnika niezawodności:

Aby określić współczynnik niezawodności, musimy uzyskać dwa zestawy pomiarów w identycznych warunkach, a następnie porównać dwa zestawy. Jest to jednak tylko warunek teoretyczny, ponieważ z naszej strony niemożliwe jest uzyskanie dwóch pomiarów na dokładnie dwóch identycznych warunkach. Tak więc opracowano kilka metod w celu określenia względnej niezawodności.

Są one następujące (Gronlund i Linn-1995):

(i) Ta sama forma testu może być podawana dwa razy tej samej grupie osób.

(ii) Dwie osobne, ale równoważne formy testu mogą być podawane tym samym osobnikom.

(iii) Elementy testowe pojedynczego testu są podzielone na dwa osobne zestawy, a wyniki dwóch zestawów są skorelowane.

Metody są podobne, ponieważ wszystkie one wiążą się ze skorelowaniem dwóch zestawów danych, uzyskanych z tego samego instrumentu oceny lub z równoważnych form tej samej procedury. Współczynnik rzetelności należy interpretować w kategoriach badanych rodzajów konsystencji.

Różne rodzaje konsystencji są określane różnymi metodami. Są to następujące:

1. Spójność w pewnym okresie.

2. Spójność z różnymi formami instrumentów.

3. Spójność w samym instrumencie

Istnieją cztery metody określania współczynnika niezawodności, takie jak:

(a) Metoda ponownego testu.

(b) Formy ekwiwalentne / Forma równoległa.

(re) Metoda Rational Equivalence / Kuder-Richardson.

(a) Metoda ponownego testu:

Jest to najprostsza metoda określania niezawodności testu. Aby określić niezawodność w tej metodzie, test jest podawany i powtarzany w tej samej grupie. Następnie uzyskuje się korelację między pierwszym zestawem wyników a drugim zestawem wyników.

Wysoki współczynnik korelacji wskazuje na wysoką stabilność wyników testu. Według słów Gronlunda, miar stabilności w latach 80. i 90. są często zgłaszane dla standaryzowanych testów ponad okazjami w tym samym roku. Ale ta metoda ma pewne poważne wady. Przede wszystkim jaka powinna być przerwa między dwiema administracjami.

Jeśli zostanie podana w krótkim odstępie czasu, powiedzmy dzień lub dwa, to uczeń przypomni sobie pierwsze odpowiedzi i poświęci czas na nowy materiał. Zwiększy to ich wynik w drugiej administracji. Jeśli interwał jest zbyt długi, powiedzmy jeden rok, to efekt dojrzewania wpłynie na wyniki powtórzeń i zwiększy liczbę powtórzeń.

W obu przypadkach będzie dążyć do obniżenia niezawodności. Więc jaka powinna być różnica czasu między dwiema administracjami, zależy w dużej mierze od użycia i interpretacji wyników testów. Ze względu na trudności w kontrolowaniu warunków, które mają wpływ na wyniki powtórnego testowania, ogranicza stosowanie metody test-retest przy szacowaniu współczynnika niezawodności.

(b) Metody równoważne formularze / formularze równoległe:

Wiarygodność wyników testów można oszacować za pomocą metod formularzy równoważnych. Znany jest również pod nazwą Formy alternatywne lub metody formularzy równoległych. Kiedy można skonstruować dwie równoważne formy testów, korelacja między tymi dwoma może zostać uznana za miarę samooceny testu. W tym procesie dwie równoległe formy testów są podawane do tej samej grupy uczniów w krótkim odstępie czasu, następnie wyniki obu testów są skorelowane. Ta korelacja zapewnia indeks równoważności. Zwykle w przypadku standardowych testów psychologicznych i osiągnięć dostępne są równoważne formularze.

Oba testy wybrane do administracji powinny być równoległe pod względem zawartości, trudności, formatu i długości. W przypadku podania luki czasowej między administracjami dwóch form testów, współczynnik ocen testowych zapewnia miarę wiarygodności i równoważności. Ale główną wadą tej metody jest uzyskanie dwóch równoległych form testów. Gdy testy nie są dokładnie takie same pod względem treści, trudność, długość i porównanie wyników uzyskanych z tych testów może prowadzić do błędnych decyzji.

(c) Metoda połówkowa połówkowa:

Istnieją również metody, za pomocą których można ustalić niezawodność przez pojedyncze podanie pojedynczego testu. Jedną z takich metod jest metoda split-half. W tej metodzie test jest podawany grupie uczniów w zwykły sposób. Następnie test jest podzielony na dwie równoważne wartości i znaleziono korelację dla tych pół-testów.

Powszechną procedurą podziału testu jest pobranie wszystkich nieparzystych pozycji, tj. 1, 3, 5 itd. W jednej połowie i wszystkich pozycji o numerach parzystych, tj. 2, 4, 6, 8 itd. W drugiej połowie. Następnie wyniki obu połówki są skorelowane za pomocą wzoru Spearmana-Browna.

Na przykład poprzez korelację obu połówek znaleźliśmy współczynnik równy 0, 70.

Za pomocą wzoru (5.1) możemy uzyskać współczynnik rzetelności w pełnym teście jako:

Współczynnik rzetelności 0, 82, gdy współczynnik korelacji między półokresami wynosi 0, 70. Wskazuje, w jakim stopniu próbka elementów testowych jest niezawodną próbką mierzonej zawartości - wewnętrzna spójność.

Gronlund (1995) jest zdania, że "podzielona połowa niezawodności jest zazwyczaj większa niż równoważne formy rzetelności, ponieważ metoda połówkowa jest oparta na administrowaniu pojedynczym formularzem testowym." Ta metoda przekracza problem metody formularzy równoważnych wprowadzonej ze względu na różnice między formą, uwagą, szybkością pracy, wysiłkiem, zmęczeniem i treściami testowymi itp.

(d) Metoda Rational Equivalent / Kuder Richardson:

Równoważność racjonalna to kolejna metoda określania wiarygodności za pomocą formuły opracowanej przez Kudera i Richardsona. Podobnie jak metoda typu split-half metoda ta zapewnia również miarę wewnętrznej spójności. Nie wymaga podawania dwóch równorzędnych form testów, ani nie wymaga dzielenia testów na dwie równe połowy. Współczynnik rzetelności określa się za pomocą wzoru Kuder-Richardson-20, który brzmi tak.

Ta metoda dostarcza informacji o stopniu, w jakim przedmioty w teście mierzą podobne cechy. Choć prostota zastosowania tej metody sprawiła, że jest szeroko rozpowszechniona, wciąż ma pewne ograniczenia.

1. Metoda Kuder-Richardson i metoda połówkowa nie są odpowiednie do testów prędkości.

2. Zarówno metoda Kuder-Richardson, jak i metoda połówkowa nie mierzą spójności reakcji źrenic z dnia na dzień.

3. Metoda Kuder-Richardson jest uciążliwa w obliczaniu, chyba że dostępne są już informacje dotyczące proporcji mijania.

Metody określania bezwzględnej niezawodności lub standardowych błędów pomiaru:

Jeśli będziemy powtarzać test raz po raz, zauważymy pewne różnice w wynikach. Ponieważ uzyskany wynik jest indeksem rzeczywistego wyniku egzaminu plus: błędy pomiaru. HE Garrett (1985) zdefiniował prawdziwy wynik jako "miarę, którą można by uzyskać, przyjmując średnią nieskończoności dużą liczbę pomiarów danej osoby w podobnych testach w podobnych warunkach. Prawdziwego wyniku nie można oczywiście określić eksperymentalnie " .

Jeśli wyniki testu zawierają duży składnik błędu, jego niezawodność jest niska i jeśli zawiera niewielkie błędy, jego niezawodność jest wysoka. Tak więc stopień, w jakim prawdziwy wynik przekracza, błąd w uzyskanych wynikach może wskazywać współczynnik wiarygodności.

Ta zależność między prawdziwym wynikiem, uzyskanymi ocenami i błędem może być wyrażona matematycznie w następujący sposób:

Możemy znaleźć standardowy błąd pomiaru (SE), gdy podany jest współczynnik niezawodności i odchylenie standardowe rozkładu.

Wzór (Garrett-1985) do obliczenia standardowego błędu pomiaru jest następujący:

Na przykład w grupie 200 uczniów szkół średnich, współczynnik wiarygodności testu osiągnięć w matematyce wynosi 0, 70, Średni = 65 i o = 20. Lipu osiąga wynik 60. Co to jest SE tego wyniku.

Przez umieszczenie wartości we wzorze (5.3):

Tak więc prawdziwy wynik Lipu wynosi 60 ± 10, 95, czyli od 70, 50 do 49, 05.

Żaden uzyskany wynik nie mówi nam, czym jest prawdziwy wynik, ale wiedza o SE wskazuje różnicę między uzyskanym wynikiem a prawdziwym wynikiem. Gdy SE jest małe, wskazuje, że prawdziwy wynik jest bliższy uzyskanej punktacji, a także wskazuje, czy różnica między wynikami dwóch osób jest rzeczywistą różnicą lub różnicą z powodu błędów pomiaru.

Czynniki wpływające na niezawodność:

Istnieje szereg czynników, które wpływają na wskaźniki niezawodności. Tak więc, kiedy interpretujemy i używamy wyników, musimy być ostrożni i manipulować tymi czynnikami poprzez przygotowanie do testów i administrację.

Najważniejsze czynniki wpływające na wiarygodność testu, wyniki można podzielić na trzy kategorie:

1. Czynniki związane z testem.

2. Czynniki związane z badanym.

3. Czynniki związane z procedurą testowania.

1. Czynniki związane z testem:

(a) Długość testu:

Wzór Spearmana Browna wskazuje, że im dłuższy test, tym wyższa będzie niezawodność. Ponieważ dłuższy test zapewni odpowiednią próbkę zachowania. Inną przyczyną jest to, że czynnik zgadywania może zostać zneutralizowany w dłuższym teście.

Na przykład, jeśli damy jedno obliczenie, aby zmierzyć liczbową zdolność uczniów. Ci, którzy poprawnie wyliczyli są doskonali w umiejętnościach numerycznych, ci, którzy zawiedli, to kompletne niepowodzenia. Jeśli obliczenia są trudne, większość uczniów zawiedzie. Jeśli jest to łatwe, większość studentów obliczy to poprawnie. Tak więc wynik pojedynczego przedmiotu nigdy nie daje wiarygodnego wyniku.

(b) Treść testu:

Według Guilforda jednorodność zawartości testowej zwiększa również wiarygodność wyników testów. Test 50 przedmiotów na temat cywilizacji wedyjskiej zapewni bardziej wiarygodne wyniki niż test 50 przedmiotów z historii Indii. Według Ebela (1991) "tematyka niektórych przedmiotów, takich jak matematyka i język obcy, jest ściślej uporządkowana, z większą współzależnością faktów, zasad zdolności i osiągnięć, niż w literaturze przedmiotu lub historii". Tak więc ta jednorodność treści jest również czynnikiem, który daje wysoką niezawodność.

(c) Charakterystyka przedmiotów:

Poziom trudności i klarowność ekspresji elementu testowego wpływa również na wiarygodność wyników testów. Jeśli elementy testowe są zbyt łatwe lub trudne dla członków grupy, będą dążyć do uzyskania wyników o niskiej niezawodności. Ponieważ oba testy mają ograniczony rozkład wyników.

(d) Spread of Scores:

Według Gronlunda i Minna (1995), "inne rzeczy są równe, im większy jest rozrzut wyników, tym wyższa będzie ocena wiarygodności." Kiedy rozrzut wyników jest duży, istnieje większe prawdopodobieństwo, że dana osoba pozostanie w tym samym względna pozycja w grupie z jednego testu do drugiego. Można powiedzieć, że błędy pomiaru wpływają mniej na względną pozycję jednostki, gdy rozrzut wyników jest duży.

Na przykład w grupie A uczniowie mają zapewnione oceny od 30 do 80, a w grupie B uczniowie mają zapewnione oceny w przedziale od 65 do 75 lat. Jeśli przeprowadzimy testy po raz drugi w grupie A, wyniki testów poszczególnych osób mogą się różnić o kilka punktów, z bardzo niewielkim przesunięciem we względnej pozycji członków grupy. Dzieje się tak dlatego, że rozrzut wyników w grupie A jest duży.

Z drugiej strony, wyniki w grupie B mają większe szanse na przesunięcie pozycji podczas drugiego podania testu. Ponieważ rozpowszechnianie wyników to zaledwie 10 punktów od najwyższego wyniku do najniższego wyniku, zmiana kilku punktów może przynieść radykalne przesunięcie w stosunku do poszczególnych osób. Im większy rozrzut, tym większa niezawodność.

2. Czynniki związane z badanym:

Zmienność osiągnięć, mądrość testowa jednostek i motywacja uczniów wpływają również na wiarygodność wyników testów.

Poniżej przedstawiono niektóre ważne czynniki związane z testem, które wpływają na wiarygodność testu:

(a) Niejednorodność grupy:

Gdy grupa jest jednorodną grupą, rozpowszechnienie wyników testu będzie prawdopodobnie mniejsze, a gdy badana grupa jest heterogenną grupą, prawdopodobnie wyniki będą większe. Dlatego współczynnik niezawodności dla heterogenicznej grupy będzie więcej niż jednorodną grupą.

(b) Testuj mądrość uczniów:

Doświadczenie związane z wykonywaniem testów wpływa również na wiarygodność wyników testów. Praktyka studentów w zakresie wykonywania skomplikowanych testów zwiększa niezawodność testu. Ale gdy w grupie wszyscy uczniowie nie mają tego samego poziomu mądrości testu, prowadzi to do większych błędów pomiaru.

(c) Motywacja uczniów:

Gdy uczniowie nie są zmotywowani do podjęcia testu, nie będą reprezentować swoich najlepszych osiągnięć. To obniża wyniki testu.

3. Czynniki związane z procedurą badania:

Ponieważ czynniki związane z testem i czynniki związane z testem wpływają na wiarygodność wyników testów, również czynniki związane z procedurą testowania mają również wpływ na wyniki testów. Jeśli użytkownicy testu mogą kontrolować te czynniki, mogą zwiększyć spójność wyników testów.

(a) Limit czasu testu:

Według Ebela i Frisbie'ego (1991) "wyniki z testu przeprowadzonego w bardzo przyspieszonych warunkach będą zwykle wykazywać wyższy współczynnik niezawodności wewnętrznej, niż byłby uzyskany dla wyników z tego samego testu podanego tej samej grupie w bardziej hojnych terminach." kiedy uczniowie dostaną więcej czasu na wykonanie testu, mogą zgadnąć więcej, co może zwiększyć wyniki testu. Dlatego przyspieszenie testu może zwiększyć wiarygodność testu.

(b) Zdolność do oszukiwania podana uczniom:

Oszukiwanie przez uczniów podczas administrowania testami prowadzi do błędów pomiarowych. Niektórzy uczniowie mogą udzielić poprawnej odpowiedzi, kopiując ją z arkuszy oszukujących lub słuchając od innych uczniów bez znajomości poprawnej odpowiedzi. Spowoduje to wyższy wynik tych studentów, niż na to zasługują. To sprawi, że zaobserwowany wynik oszustów przewyższy ich rzeczywisty wynik.

Jak powinna wyglądać wyższa niezawodność?

Oczywiście urządzenia oceniające nigdy nie są całkowicie niezawodne. To, jak niewiarygodne może być i może być testowanie, zależy głównie od stopnia rozróżnienia pożądanego od wyników testu. (Rem-mers, 1967) Stopień współczynnika niezawodności zależy od charakteru testu, wielkości i zmienności grupy, celu, dla którego test był podawany i metody zastosowanej do oszacowania wiarygodności. Test o niskiej niezawodności może mieć wyższą ważność i dlatego może być stosowany. Ale według słów Remmersa (1967) "Najbardziej wystandaryzowany test opublikowany do użytku szkolnego ma współczynniki niezawodności co najmniej 0, 80 w populacji, dla której zostały zaprojektowane.

Kiedy wybiera się standardowy test interpretujący jego wyniki, nie wystarczy spojrzeć na wartość liczbową oszacowania niezawodności, należy również wziąć pod uwagę sposób, w jaki uzyskano ten szacunek. Gronlund (1976) zwrócił uwagę na znaczenie metod szacowania niezawodności.

Według niego "metoda split-half daje największe wartości liczbowe do współczynnika niezawodności. Równoważne metody formularzy i test ponownego testowania dają niższą wartość liczbową współczynnika niezawodności. Zazwyczaj te dwie metody zapewniają średni do dużego współczynnik niezawodności. Metody formularzy równoważnych zazwyczaj zapewniają najmniejszy współczynnik niezawodności dla danego testu. "

Dlatego można powiedzieć, że nauczyciel powinien dążyć do wystandaryzowanego testu, którego wiarygodność jest tak wysoka, jak to tylko możliwe. Musi jednak interpretować ten współczynnik wiarygodności w świetle grup uczniów, na których jest oparty, zmienności tej grupy i metod szacowania niezawodności.

Charakterystyka # 2. Ważność:

"Przy wyborze lub konstruowaniu instrumentu oceny najważniejszym pytaniem jest: W jakim stopniu wyniki będą służyć konkretnym zastosowaniom, do których są przeznaczone? To jest esencja słuszności. " -GRONLUND

Ważność jest najważniejszą cechą programu oceny, ponieważ dopóki test nie jest prawidłowy, nie spełnia żadnej użytecznej funkcji. Psycholodzy, pedagodzy, doradcy zawodowi wykorzystują wyniki testów do różnych celów. Oczywiście, żaden cel nie może być spełniony, nawet częściowo, jeśli testy nie mają wystarczająco wysokiego stopnia ważności. Ważność oznacza pełnię prawdy testu. Oznacza to, w jakim stopniu test mierzy to, co testujący zamierza zmierzyć.

Obejmuje dwa aspekty:

To, co jest mierzone i jak konsekwentnie jest mierzone. Nie jest to cecha testowa, ale odnosi się do znaczenia wyników testu i sposobu, w jaki używamy wyników do podejmowania decyzji. Podążanie za definicjami podanymi przez ekspertów da jasny obraz ważności.

Gronlund i Linn (1995) - "Ważność odnosi się do trafności interpretacji uzyskanej z wyników testów i innych wyników oceny w odniesieniu do konkretnego zastosowania."

Ebel i Frisbie (1991) - "Termin ważności, gdy stosuje się go do zestawu wyników testów, odnosi się do spójności (dokładności), z jaką wyniki mierzą szczególną zdolność poznawczą będącą przedmiotem zainteresowania."

CV Good (1973) - w słowniku edukacji określa zasadność jako "stopień, w jakim test lub inny instrument pomiarowy spełnia cel, do którego jest używany".

Anne Anastasi (1969) pisze: "ważność testu dotyczy tego, co test mierzy i jak dobrze to robi."

Według Davisa (1964), ważność jest to, w jakim stopniu kolejność rang w grupie badanych, dla których test jest odpowiedni, jest taka sama jak kolejność rang w tych samych zdaniach w nieruchomości lub cechach, że test jest używany do pomiaru . Ta właściwość lub charakterystyka jest nazywana kryterium. Ponieważ każdy test może być użyty do wielu różnych celów, może on mieć wiele ważności odpowiadających każdemu kryterium. "

Freeman (1962) definiuje "wskaźnik ważności pokazuje stopień, w jakim test mierzy to, co chce zmierzyć, w porównaniu z zaakceptowanymi kryteriami".

Lindquist (1942) powiedział: "ważność testu może być zdefiniowana jako dokładność, z jaką mierzy to, co ma mierzyć, lub jako stopień, w jakim zbliża się on do nieomylności w mierzeniu tego, co ma mierzyć."

Z powyższych definicji jasno wynika, że ważność urządzenia oceniającego to stopień, w jakim mierzy to, co ma mierzyć. Ważność zawsze dotyczy szczególnego wykorzystania wyników i trafności naszej proponowanej interpretacji.

Nie jest również konieczne, aby wiarygodny test mógł być również ważny. Załóżmy na przykład, że zegar jest ustawiony na dziesięć minut. Jeśli zegar jest dobrą rzeczą, czas, który nam mówi, będzie niezawodny. Ponieważ daje stały wynik. Ale nie będzie to ważne, ponieważ zostało ocenione według "czasu standardowego". Oznacza to "pojęcie, że niezawodność jest koniecznym, ale niewystarczającym warunkiem ważności".

Charakter ważności:

1. Ważność odnosi się do trafności wyników testu, ale nie do samego instrumentu.

2. Ważność nie istnieje na zasadzie wszystko albo nic, ale jest to kwestia stopnia.

3. Testy nie są ważne dla wszystkich celów. Ważność jest zawsze specyficzna dla konkretnej interpretacji. Na przykład wyniki testu słownictwa mogą być bardzo ważne do testowania słownictwa, ale mogą nie być tak ważne, aby sprawdzić zdolność kompozycji ucznia.

4. Ważność nie jest innego rodzaju. Jest to koncepcja jednostkowa. Opiera się na różnych rodzajach dowodów.

Czynniki wpływające na ważność:

Podobnie jak w przypadku niezawodności, istnieje również kilka czynników, które wpływają na ważność wyników testów. Są pewne czynniki, o których jesteśmy czujni i możemy ich łatwo uniknąć. Ale są pewne czynniki, o których nie wiemy, i powoduje to, że wyniki testu są nieważne, zgodnie z ich przeznaczeniem.

Niektóre z tych czynników są następujące:

1. Czynniki w teście:

(i) Niejasne wskazówki dla uczniów, aby odpowiedzieć na test.

(ii) Trudności z czytaniem słownictwa i struktury zdania.

(iii) Zbyt łatwe lub zbyt trudne elementy testowe.

(iv) Niejednoznaczne stwierdzenia w pozycjach testowych.

(v) Nieodpowiednie elementy testowe do pomiaru określonego wyniku.

(vi) Nieodpowiedni czas na wykonanie testu.

(vii) Długość testu jest zbyt krótka.

(viii) Elementy testowe nie uporządkowane według kolejności trudności.

(ix) Dający się zidentyfikować wzór odpowiedzi.

Czynniki w administracji testowej i zdobywaniu punktów:

(i) Nieuczciwa pomoc dla indywidualnych studentów, którzy proszą o pomoc,

(ii) Oszukiwanie przez uczniów podczas testów.

(iii) Niesprawna ocena odpowiedzi typu esej.

(iv) Niewystarczający czas na wykonanie testu.

(v) Niekorzystny stan fizyczny i psychiczny w czasie badania.

Czynniki związane z testowanym:

(i) Sprawdź lęk uczniów.

(ii) Stan fizyczny i psychiczny ucznia,

(iii) Zestaw odpowiedzi - konsekwentna tendencja do podążania za określonym wzorcem w odpowiedzi na przedmioty.

Charakterystyka # 3. Obiektywność:

Obiektywność jest ważną cechą dobrego testu. Wpływa zarówno na ważność, jak i wiarygodność wyników testów. Obiektywność przyrządu pomiarowego zwiększa stopień, w jakim docierają do niego różne osoby oceniające otrzymanie odpowiedzi. CV Good (1973) określa obiektywność w testowaniu to "stopień, w jakim instrument jest wolny od osobistego błędu (osobistego nastawienia), czyli subiektywności po stronie sekretarza".

Gronlund i Linn (1995) stwierdzają: "Obiektywność testu odnosi się do stopnia, w jakim równie kompetentne wyniki uzyskują takie same wyniki. Test uznaje się za obiektywny, gdy pozwala wyeliminować osobistą opinię oceniającego i jego uprzedzenia. W tym kontekście istnieją dwa aspekty obiektywizmu, o których należy pamiętać podczas konstruowania testu. "

(i) Obiektywizm w punktacji.

(ii) Obiektywizm w interpretacji przedmiotów testowych przez testowanego.

(i) Obiektywizm punktowania:

Obiektywność oceny oznacza, że ta sama osoba lub inna osoba, która zaliczyła test w dowolnym momencie, otrzyma taki sam wynik, bez możliwości popełnienia błędu. Test, który ma być obiektywny, musi być koniecznie tak sformułowany, aby można mu było udzielić tylko poprawnej odpowiedzi. Innymi słowy, osobisty osąd osoby oceniającej scenariusz odpowiedzi nie powinien być czynnikiem wpływającym na wyniki testu. Aby wynik testu mógł być uzyskany w prosty i precyzyjny sposób, jeśli procedura punktowania jest obiektywna. Procedura punktacji powinna być taka, aby nie było wątpliwości, czy dany przedmiot jest właściwy, czy nie, czy częściowo słuszny, czy częściowo błędny.

(ii) Obiektywność przedmiotów testowych:

Przez obiektywność przedmiotu rozumiemy, że przedmiot musi wywołać jednoznaczną pojedynczą odpowiedź. Dobrze skonstruowane przedmioty testowe powinny prowadzić do jednej i tylko jednej interpretacji przez uczniów, którzy znają dany materiał. Oznacza to, że przedmioty testowe powinny być wolne od niejednoznaczności. Dana pozycja testowa powinna oznaczać to samo dla wszystkich uczniów, o których pyta producent testowy. Podwójne zdania o znaczeniu, przedmioty posiadające więcej niż jedną poprawną odpowiedź nie powinny być włączone do testu, ponieważ sprawiają, że test jest subiektywny.

Charakterystyka # 4. Użyteczność:

Użyteczność to kolejna ważna cecha przyrządów pomiarowych. Ponieważ nie można lekceważyć praktycznych aspektów instrumentów oceny. Test musi mieć praktyczną wartość z punktu widzenia czasu, ekonomii i administracji. Można to nazwać użytecznością.

Dlatego podczas konstruowania lub wyboru testu należy wziąć pod uwagę następujące praktyczne aspekty:

(i) Łatwość administrowania:

Oznacza to, że test powinien być łatwy w administrowaniu, aby mogli z niego korzystać nauczyciele ogólni. Dlatego należy podać proste i jasne wskazówki. Test powinien posiadać bardzo niewiele podtestów. Czas przeprowadzenia testu nie powinien być zbyt trudny.

(ii) Czas wymagany do administracji:

Należy podać odpowiedni termin na podjęcie testu. Jeżeli w celu zapewnienia wystarczającego czasu na wykonanie testu, sprawimy, że test będzie krótszy niż rzetelność testu zostanie zmniejszona. Gronlund i Linn (1995) są zdania, że "gdzieś od 20 do 60 minut czasu testowania dla każdego wyniku uzyskanego przez opublikowany test jest prawdopodobnie dość dobrym przewodnikiem".

(iii) Łatwość interpretacji i stosowania:

Innym ważnym aspektem wyników testów jest interpretacja wyników testów i zastosowanie wyników testów. Jeśli wyniki są źle interpretowane, z drugiej strony jest szkodliwe, jeśli nie zostanie zastosowane, to jest bezużyteczne.

(iv) Dostępność równoważnych formularzy:

Równoważne testy formularzy pomagają zweryfikować wątpliwe wyniki testów. Pomaga także wyeliminować czynnik pamięci podczas ponownego testowania uczniów w tej samej dziedzinie nauki. Dlatego powinny być dostępne równoważne formy tego samego testu pod względem zawartości, poziomu trudności i innych cech.

(v) Koszt testowania:

Test powinien być ekonomiczny z punktu widzenia przygotowania, podawania i punktowania.