Ölçme her zaman belirli bir amaç için yapılır. Amaç ölçmeye konu olan özellik bakımından kişiler hakkında değerlendirme yapmak ve elde edilen değerlendirme sonuçlarına göre belirli kararlar vermek için yapılır. Verilen kararların doğru ve isabetli olması, değerlendirmenin dayandığı ölçümün özellikle doğrudan ilgili ve olabildiğince az hatalı olmasına bağlıdır. Psikolojik özelliklerin ölçülmesinde genellikle ölçme araçları kullanılır ve bu araçlardan elde edilen puanların hatasız ya da az hatalı olması ve bu araçların belirli psikometrik niteliklere sahip olması gerekir.
Bunlar:
Geçerlilik ölçmek istenilen özelliğin, başka özelliklerle karıştırılmadan, doğru ve tam olarak ölçülebilmesidir. Diğer bir ifadeyle ölçme aracından elde edilen puanın amaca hizmet etme derecesidir.
Güvenilirlik ölçme işleminden elde edilen puanların tesadüfi hatalardan arınık olma derecesidir. Diğer bir ifadeyle puanların kararlı, tutarlı ve duyarlı olmasıdır.
Kullanışlılık ise ölçme aracının geliştirilmesinin, uygulanmasının ve puanlanmasının kolay ve ekonomik (zaman, para, emek, araç gereç vb. açıdan) olması ile ilgilidir.
Bir ölçme aracından elde edilen puanların hatasız ya da az hatalı olması geçerli ve güvenilir ölçme yapmanın tek koşuludur. Ölçme işlemlerinde hataları en aza indirebilmek için öncelikle hataların tanımlanması gerekir ki ölçme işlemini yapan kişi neye müdahale edeceğini, hangi durumlara karşı önlem alması gerektiğini bilsin.
1. Hata
Yalnızca eğitimde değil bütün bilim dallarında, hatta günlük yaşamımızda dahi yapılan ölçme işlemlerinde bile ölçme sonuçlarına hata karışma olasılığı vardır. Ölçme yapan kişilerin dikkati ve titizliği zamandan zamana değişebilir, ölçme aracına ilişkin bazı sorunlar söz konusu olabilir, ölçülen özelliğin doğası gereği bazı sıkıntılar olabilir, test katılımcısı yeterince güdülenmemiş olabilir, ölçme işleminin yapıldığı ortamdan kaynaklı sorunlar vb. olabilir.
Ölçmede gözlenen bir özelliğin gerçek değeri (sayı, sembol ya da sıfat) bulunmak istenir. Ancak ölçmeye karışan çeşitli hatalar nedeniyle gerçek değer (puan) ölçme yoluyla doğrudan elde edilemez. Psikometride gerçek puan kuramı olarak ele alınan bu kavram basit bir eşitlik ile gösterilir.
Bu çerçevede hatalar; kaynağı, yönü ve miktarı göz önünde tutularak sabit, sistematik ve tesadüfi olmak üzere üç türde incelenebilir:
a) Sabit Hata: Miktarı ölçmeden ölçmeye değişmeyen, diğer bir deyişle her ölçme işlemine aynı miktarda karışan hatalardır. Örneğin marketteki terazi, üzerinde herhangi bir nesne yokken terazi -120 g gösteriyorsa ne tartılırsa tartılsın 120 g eksik ölçülecektir. Bir öğretmen, sınavında herkese 10 puan fazla veriyorsa yine karışan hata sabit olacaktır.
b) Sistematik Hata: Ölçülen büyüklüğe, öğretmene ya da ölçme koşullarına göre miktarı değişen hatalardır. Örneğin marketteki terazi, her bir kilogramda 120 g eksik tartıyorsa üzerine konulan nesnenin ağırlığı arttıkça hata miktarı da artacaktır. Bir öğretmen, sınavında yazısı kötü olandan puan kırıyorsa yine karışan hata sistematik olacaktır.
Gerek sistematik gerekse sabit hatalarda ölçme sonuçlarına karışan hata miktarı, yönü ve kaynağı bellidir. Bu nedenle bu tür hataların ölçme sonuçlarına karışmasını engellemek ya da bu tür hataları düzeltmek görece daha kolaydır.
c) Tesadüfi (Rastlantısal) Hata: Şansla ortaya çıkan ne yönde ve ne ölçüde karıştığı genellikle bilinemeyen hatalardır. Ölçmelere tek yönlü olarak karışmaz, ölçme sonuçlarına bazen pozitif bazense negatif yönde etki eder. Sabit ve tesadüfi olmayan hatalar, tesadüfi değişken olma özelliğine sahiptir. Bu nedenle psikometride hata kuramı tesadüfi hatalar üstüne kurulmuştur. Tesadüfi hataların genellikle dört kaynağı olduğu kabul edilir. Bunlar:
Ölçme işlemini yapan kişiden / öğretmenden kaynaklanan hata: Öğretmenin test etme sürecine ilişkin davranışlarını iki aşamada ele alabiliriz:
Ölçme işlemi sürecinde: Test katılımcısının dikkatini dağıtacak ve/veya kaygısını artıracak davranışlar vb.
Ölçme işlemi sonrasında: Puanlamadaki dikkat ve titizliğin zamandan zamana değişmesi, yorgunluk, öncelik-sonralık yanılgısı, maddi hata vb.
Ölçme aracından kaynaklanan hata: Ölçme araçları hazırlanırken maddelerin iyi ifade edilmemesi, test katılımcılarının yanlış anlamalarına ve dolayısıyla hataya neden olacaktır. O nedenle hangi özellik ölçülürse ölçülsün, araçta kullanılan dilin dil bilgisi, imla kurallarına uygun olması; maddelerde anlatım bozukluğu bulunmaması, muğlâk ya da belirsiz (müphem) ifadelerin bulunmaması gerekir.
Ölçme aracından kaynaklanabilecek bir başka hata kaynağı ise aracın yapısı ile ilgilidir. Ölçtüğü özellik ve kapsam bakımından homojen (benzeşik) maddelerden oluşan bir araç, heterojen (ayrışık) maddelerden oluşan bir testten daha güvenilirdir. Diğer taraftan ölçülecek özellikler evrenini yeterince temsil etmeyen maddelerden oluşan bir araçtan elde edilen puanlara da hata karışmaktadır.
Ölçme aracının yapısıyla ilgili diğer bir konu ise aracın uzunluğudur. Madde sayısı ile güvenilirlik arasında doğru orantılı bir ilişki vardır ancak bu sonsuz bir doğru orantı anlamına gelmez. Ölçme aracındaki madde sayısı arttıkça bireyde yorgunluk, dikkat azalması vb. etkenler nedeniyle hata miktarı artacaktır.
Ölçme aracıyla ilgili diğer bir faktör ise bilişsel özellikleri ölçen testlerde eğer seçenek verilmişse şans başarısı karışma olasılığıdır. Bu durum ölçülen özelliğin gerçekte olduğundan yüksek görünmesine yol açmaktadır.
Bireyden / öğrenciden kaynaklanan hata: Bireylerin ölçme işlemi sürecinde içinde bulundukları fiziksel, fizyolojik ve psikolojik durumlar test puanına etki eder. Uykusuzluk, açlık, hastalık, ağrı, motivasyon eksikliği, kaygı vb. faktörler nedeniyle bireyler gerçek puanlarından uzaklaşabilirler. Ayrıca grubun homojen ya da heterojen olması da hata kaynağını arttıran ya da azaltan bir etkiye sahiptir. Daha heterojen gruplarda güvenirlik katsayısı artarken daha homojen gruplarda güvenirlik katsayısı azalır.
Fiziksel ortamdan kaynaklanan hata: Ölçme işleminin gerçekleştiği fiziksel ortama ilişkin bazı etmenler de ölçme sonuçlarına hata karıştırabilir. Sıcaklık, ışık, ses, koku, görsel uyarıcıların fazlalığı, ergonomi vb. etmenler hata miktarını artırabilir. Bu anlamda testler bireylere bu etmenler açısından eşit ve standart koşullar altında uygulanmalıdır, aksi takdirde hata miktarının artması kaçınılmazdır.
______________________________________________
2. Geçerlilik, Güvenirlik ve Hata İlişkisi
Geçerlilik tüm hata kaynaklarından etkilenirken klasik test kuramına göre güvenilirlik yalnızca tesadüfi hatalardan etkilenir.
Bu nedenle güvenilirlik, geçerlilik için bir ön şart ancak yeterli şart değildir. Diğer bir ifade ile bir testin güvenilir olması onun geçerli olacağı anlamına gelmez ancak bir test geçerli ise büyük olasılıkla güvenilirdir.
Bir ölçme aracının geçerliliği ve güvenilirliği diye bir şey yoktur, ölçme araçlarından elde edilen puanların geçerliliği ve güvenilirliği diye bir şey vardır.
Ölçme araçlarının psikometrik nitelikleri şu durumlara göre değişebilir:
a. Ölçme amacının değişmesi,
b. Uygulama grubunun değişmesi,
c. Dilin eskimesi / değişmesi,
d. Maddelerde ve/veya alt ölçeklerde yapılan değişiklikler,
e. Farklı kültürler,
f. Kuramsal bilgi birikiminde değişiklikler.
Geçerlilik ve güvenilirlik bir varlık-yokluk sorunu değil, derece sorunudur. Bu nedenle bir testten elde edilen puanlar yüksek düzeyde geçerli, orta düzeyde geçerli, düşük düzeyde geçerli; yüksek düzeyde güvenilir, orta düzeyde güvenilir, düşük düzeyde güvenilir biçiminde nitelendirilir.
Bir ölçme aracının puanlarından yapılan değerlendirmenin doğruluğu araştırmayı gerektirir. Bu puan gerçekten ölçmek istediğimiz özelliği gösteriyor mu? Aracın ölçmek istediğimizi ölçüp ölçmediği bir araştırma işidir. Araştırma ile değerlendirmenin doğruluğu incelenir. Bir testin şöhretli olması onun geçerli olduğu anlamına gelmez. Modern test kuramına göre geliştirilen ölçekler eleştiriye açıktır. Böylece testlerin niteliği ve test bilgisi gelişir.
______________________________________________
3. Kolerasyon
Geçerlilik ve güvenilirliği belirlemeye yönelik yöntemler genellikle korelasyon temelli analizlere dayanır. Bu nedenle bu aşamada kısaca korelasyon kavramına değinmek gerekmektedir. Korelasyon (co-relation), en az iki değişken arasında karşılıklı bir ilişki bulunup bulunmadığı, eğer ilişki varsa bu ilişkinin yönü ve miktarı hakkında bilgi veren istatistik bir tekniktir. “r” ile sembolize edilir.
Örneğin
• Öğrencilerin derse ilişkin tutumları ile ders başarıları arasında bir ilişki var mıdır?
• Öğretmenlerin ders saati yükleri ile iş doyumları arasında bir ilişki var mıdır?
• Saç uzunluğu ile zekâ arasında bir ilişki var mıdır?
Korelasyon -1 ile 1 arasında değer alır. Bu iki değer arasında matematiksel olarak sonsuz birim vardır ancak kullanışlılık açısından 100 birim negatif korelasyonda, 100 birim pozitif korelasyonda, sıfır ile birlikte toplam 201 birimlik bir skala üzerinden değişkenler arasındaki ilişkinin yönü ve miktarı değerlendirilir.
Pozitif korelasyon iki değişken arasında doğru orantılı ilişki anlamına gelir. Örneğin ders çalışma süresi ile sınav notu ya da gelir ile tüketim arasında pozitif bir korelasyonun elde edilmesi beklenir.
Negatif korelasyon, iki değişken arasında ters orantılı ilişki anlamına gelir. Örneğin ders süresi ile dikkat ya da yükseklik ile sıcaklık arasında negatif bir korelasyonun elde edilmesi beklenir. ∓1 mükemmel korelasyon anlamına gelir ancak 1 mükemmel doğru orantılı ilişki anlamına gelirken, -1 ise mükemmel ters orantılı ilişki anlamına gelir. Diğer taraftan sıfır korelasyon iki değişken arasında sistematik bir ilişkinin olmadığı anlamına gelir. Bu duruma mükemmel ilişkisizlik de denir. Örneğin öğretmenlerin boyları ile aylık ücretleri arasındaki korelasyonun sıfır olması beklenen bir durumdur.
Korelasyon katsayısı hakkında kabaca iki tür belirleme yapmak gerekir. Bunlardan birincisi yön, diğeri ise miktardır. Yön, negatif ya da pozitif olarak değerlendirilirken miktar, kabaca düşük, orta ya da yüksek olarak nitelendirilir. Miktar için kesin sınırlar olmamakla birlikte alanyazında genellikle kabul gören aralıklar aşağıda gösterilmiştir.
Not 1: Korelasyon mutlak değer olarak değerlendirilmelidir. Bir korelasyon katsayısının negatif ya da pozitif olması büyüklük-küçüklük belirtmez, yön bildirir.
Not 2: Korelasyon katsayısı ile neden-sonuç ilişkisi kurulamaz. Değişkenler arasında doğru ya da ters orantılı bir ilişki olması, söz konusu değişkenler arasında bir neden-sonuç ilişkisinin varlığı anlamına gelmez.
______________________________________________
4. Geçerlilik Sorgulama Yöntemleri
Geçerlilik sorgulama yöntemleri aşağıda gösterilmiştir.
4.1 - Kapsam Geçerliliği
Kapsam geçerliliği özellikle başarı testlerinde aranan bir geçerlilik sorgulamasıdır. Eğitimde öğretmen bir program dâhilinde önceden belirlenen davranışları kazandırmayı amaçlar. Belirli bir zaman sonra davranışların ne kadarının kazanıldığını belirlemek isteyen öğretmen, geliştirdiği testte öğretime konu olan içeriğin testte ne ölçüde temsil edildiğini belirlemek durumundadır. Bu anlamda kapsam geçerliliği bir testin ölçülmek istenen davranışları ne derece kapsadığıyla ilgilidir. Ne amaçla kullanılırsa kullanılsın test, kapsamı açısından ölçmeye konu olan davranışları yeterli ve dengeli bir biçimde temsil etmelidir. Bir testin kapsam geçerliliğinin yüksek olduğunun söylenebilmesi için
1. Testteki soruların / maddelerin ölçülecek özellikler evrenini (konu kapsamını / içeriği) yeterli ve dengeli bir biçimde ölçüyor olması ve
2. Her bir sorunun / maddenin ölçmek istediği özelliği doğrudan ölçmesi, diğer bir deyişle kazanımla doğrudan ilgili olması gerekir.
Testin kapsam geçerliliğinin yüksek olduğunun söylenebilmesi için bu iki kriter birden sağlanmalıdır.
Kapsam geçerliliği sorgulama yöntemleri:
Mantıksal / rasyonel yöntemler: Bu yöntemler belirtke tablosu hazırlanması ve uzman görüşüne başvurulmasıdır.
Belirtke tablosunun hazırlanması: Bir kapsam geçerliliği sorgulamasında öncelikle ölçmeye konu olan kapsam dâhilinde davranışların belirlenmesi gerekir. Bu noktada en çok kullanılan yöntemlerden biri belirtke tablosu hazırlamaktır. Öğretmen satırda davranışları, sütunda hedefleri yazar; belirlediği madde sayısı doğrultusunda davranış ve hedefleri yeterli ve dengeli bir biçimde temsil eden alanları seçer.
Uzman görüşüne başvurulması: Uygulamada uzman ile kastedilen öncelikle ölçme ve değerlendirme tekniklerini de bilen bir alan uzmanıdır. Uzmana belirtke tablosu ve maddeler sunulur, uzmandan soruların / maddelerin konu kapsamını yeterli ve dengeli bir biçimde ölçme durumunu ve soruların / maddelerin kazanımlarla doğrudan ilgili olma durumunu değerlendirmesi istenir.
İstatistiksel yöntemler: Uzmanlardan alınan dönütler betimsel / muhakemeye dayalı bir yolla çözümlenebilir ya da uzmanların “uygundur / uygun değildir” ya da “uygundur / düzeltme gerekir / soru kullanılmamalıdır” vb. biçimde değerlendirme yapması istenebilir. Eğer uzmandan ikinci yolla dönüt istenmişse uzmanlar arasında uyuşum olup olmadığı, çeşitli istatistiksel yöntemlerle test edilir. Alanda uzmanlar arasında uyumu test eden pek çok indeks bulunmaktadır.
4.2 - Ölçüt Dayanıklı Geçerlilik
Ölçme aracından elde edilen puanların ölçüt bir puanla (testin tahmin etmeye çalıştığı ve geçerliliği yüksek bir puan) karşılaştırılarak geliştirilen ölçme aracının geçerliliğine ilişkin nitelendirme yapılır.
Yordama Geçerliliği: Yordama, tahmin demektir ancak her tahmin yordama değildir. Bir tahminin yordama olabilmesi için elde geçerli ve güvenilir bir veri olması ve bu verinin sınanabilir, sayısal nitelikte, belirli analizlere tabi tutuluyor olması gerekiyor. Diğer bir deyişle yordama, eldeki bu nitelikteki veriden yola çıkarak geleceğe, henüz gerçekleşmemiş bir olguya ilişkin yapılan tahmindir.
Yordama geçerliliğinde ölçme aracından elde edilen puanlar, ölçme aracının tahmin ettiği puanla (ölçüt puan) karşılaştırılır ve tahminin ne ölçüde doğru olduğu belirlenmeye çalışılır. Ölçüt puan testin tahmin etmeye çalıştığı özelliktir. Yordama geçerliliğinde ölçüt puan gelecekte belli olacağından beklemek gerekmektedir. Yordama geçerliliğinde geçerlilik katsayısının 0 ile 1 arasında değişmesi beklenir.
Yordama geçerliliğinde en zor ve önemli nokta ölçütün doğru bir biçimde belirlenmesidir. Ölçütün belirlenmesinde şu noktalar dikkate alınmalıdır: Ölçüt(ün);
1. Ölçme aracının yordamaya çalıştığı değişkenle doğrudan ilgili olmalı, ölçme aracı hangi özelliği kestirmeyi amaçlıyorsa onun doğrudan bir temsili olmalıdır.
2. Kararlı olmalı, günden güne değişmemelidir. Açıktır ki kendisi kararsız olan bir özellik hiçbir araçla yordanamaz.
3. Bireylerin özelliğini gerçekten yansıtan nesnel ve güvenilir bir ölçüt olmalıdır. Söz gelimi okulda alınan notlar bir ölçüt olarak alınmışsa öğrencilere verilen notlara başarının dışındaki etmenler etki etmemelidir.
4. Elde edilmesi kolay ve ekonomik olmalıdır.
Zamandaş Geçerlilik: Bu geçerlilik türü alanyazında hâlihazır geçerlilik, benzer ölçekler geçerliliği, uygunluk geçerliliği adı ile de anılmaktadır.
Zamandaş geçerlilik sorgulamalarında ölçüt puan eş zamanlı olarak elde edilebilir. Geliştirilen ölçme aracı ile ilişkili olabilecek nitelikleri ölçen ve geçerliliği yüksek bir aracın puanı ölçüt puan olarak ele alınabilir. Daha sonra geliştirilen ölçme aracı ve ölçüt araç aynı zamanda uygulanıp iki araçtan elde edilen puanlar arasındaki ilişki incelenir.
Zamandaş geçerliliğinde geçerlilik katsayısının –1 ile 1 arasında değişmesi beklenir. Ölçüte bağlı olarak geçerlilik katsayısı ∓1’e yaklaştıkça artar, 0’a yaklaştıkça düşer.
Zamandaş geçerlilikte de en zor ve önemli nokta ölçütün doğru bir biçimde belirlenmesidir. Ölçütün belirlenmesinde şu noktalar dikkate alınmalıdır: Ölçüt(ün);
1. Ölçme aracının ölçmeye yöneldiği özellikle doğrudan ilişkili olmalıdır. Bu ilişki doğru orantılı ya da ters orantılı olabilir.
2. Geçerliliği yüksek olmalıdır. Geçerliliği olmayan bir ölçüt puanla bakılacak korelasyonun düşük olması kaçınılmazdır.
4.3 - Yapı Geçerliliği
Beşerî bilimlerde atılganlık, güvensizlik, içe dönüklük vb. özelliklerin ölçülmesi amacıyla ölçme aracı geliştirmek için önce, söz konusu olan özellik ya da özellikleri belirlemek yani yapıyı tanımlamak; daha sonra, tanımlanmış yapıdan sınanabilir denenceler çıkarmak ve çıkarılan denenceleri sınamak için deneysel ve istatistiksel çalışmalar yapmak gerekmektedir. Yapı, birbirleriyle ilgili olduğu düşünülen belli ögelerin ya da ögeler arasındaki ilişkilerin oluşturduğu bir örüntüdür. Bu anlamda, bir testin yapısını geçerleme süreci, temelde testin maddelerine verilen yanıtlar arasındaki ilişkilerin analizine dayanır.
Yapı geçerliliği, bir testin dayandığı kuramsal temelleri ne derece iyi örneklediğiyle ilgilidir. İnsan davranışları ve özellikleri çoğunlukla soyut bir yapıya sahiptir. Zekâ, sevgi, merak, sosyal uyum ve ruh sağlığı gibi soyut kavramları psikolojik testlerle ölçebilmek için önce bu kavramların içeriğinin bilinmesi gerekir. Birey ne tür davranışlar gösterdiği zaman hangi niteliklerin varlığına ya da yokluğuna karar verilebileceğine ilişkin ölçütler geliştirilmesi gerekmektedir. Yapı geçerliliği bir yandan testin ölçtüğü niteliklerin neler olduğunu araştırma, diğer yandan testi alan kişilerin elde ettikleri puanların ne anlama geldiğini açıklama çabalarıyla ilgilidir. Örneğin bir kişi, geleneksel aile biçimi ile çocuk yetiştirme biçimi arasındaki ilişkiyi incelemek amacıyla bir ölçek geliştirip bu ölçeğin yapı geçerliliğini ortaya koymak istediğinde, geleneksel aile yapısı ve çocuk yetiştirme kavramlarının ne anlamlara geldiğini, ölçme aracındaki maddelerin bu anlamlara uygunluğunu araştırarak yapı geçerliliği konusunda karar verebilir.
______________________________________________
5. Güvenirlik
Güvenilir bir ölçme aracı, aynı özellikle ilgili olarak arka arkaya yapılan ölçmelerde yaklaşık olarak aynı sayısal sonucu verir; diğer bir ifadeyle bir test, aynı gruba iki ya da üç kez uygulandığında gruptaki her bir kişi bütün uygulamalarda yaklaşık olarak aynı puanı almalıdır. Bir testin ölçmek istediği özelliği ölçebilmesi için o testin söz konusu olan özelliği kararlı olarak ölçmesi gerekir. Güvenirlik çalışmalarının odak noktası şudur: “Eğer kişi iki defa teste tabi tutulursa iki testten aldığı puanlar birbirine benzer midir ya da birbirine ne kadar yakındır?” Bu noktada gözlenen puan, gerçek puan, ölçmenin standart hatası ve güvenirlik katsayısı kavramlarına değinmek gerekmektedir.
Örneğin Murat, üç dakikalık bir sözcük çalışmasında 162 sözcük ya da diğer bir ifadeyle dakikada 54 sözcük yazmıştır. Bu puan Murat’ın becerisini ne ölçüde yansıtmaktadır. Varsayalım ki dakikada 50 sözcük yazılması yeterli kabul edilmektedir. Murat bu düzeyin gerçekten üzerinde midir? Murat geçen hafta dakikada 45 sözcük yazmıştır. Murat’ın bugünkü puanı olanı olan 54, onun kendisini geliştirdiğinin göstergesi midir ya da bir değişim dalgalanması mıdır?
İki ölçüm arasındaki uyumsuzluğun birçok nedeni olabilir. Bir hareketten diğerine, “dikkat ve çaba” değişebilir. Özellikle uzun periyotlarda puan değişmesi, fiziksel büyüme, öğrenme ya da sağlık ve kişilikteki değişimlerden kaynaklanabilir. Yine ikinci ölçümde daha açık soruların kullanılması diğer bir faktör olabilir. İki ölçüm arasındaki puan farklarını yorumlayabilmek için gerçek puan kuramına bakalım.
Psikometride hata kavramı istenmeyen değişkene işaret eder. Ölçme hataları giderilene kadar sürdürülmeli ve böylece gerçek puan elde edilmelidir. Ancak davranış örneği sınırlı olduğu için gözlenen puan gerçek puandan farklılık gösterir. Buradaki farklılık ölçme hatasıdır. Geleneksel olarak hataların varlığı gözlenen puanın gerçek puandan yüksek ya da düşük olmasına neden olur.
Örneğin yarışlara hazırlanan bir koşucu, bir mesafeyi farklı zamanlarda 23.7, 24.0, 24.2,... 25.1, 25.2 saniyelerde koşmuş olsun. Bu ölçümlerin ortalaması 24.7 ise gerçek puanı 24.7’dir. Koşucu bu puana daha önce 23.7 saniyede koştuğu ölçümü göstererek itiraz edebilir. Bu durumda koşucuya 23.7 ve 25.2 saniyede koştuğu durumlara birçok faktörün etkisinin olabileceği ve 23.7 saniyede tekrar koşmasının belki de hiç olanaklı olamayacağını, gerçek puanının 24.7 olduğunu söyleyebiliriz. Bu söylem gerçek puan kuramına dayanır.
X = T + E
X = Bireylerin ölçme aracından elde ettiği gözlenen puanı
T = Bireylerin gözlenemeyen gerçek puanı
E = Ölçmeye karışan hata miktarı
Varsayımsal olarak bir ölçme işleminde hata miktarı sıfır ise eşitlik X = T + 0 ve dolayısıyla X = T olmuş olur. Diğer bir ifade ile gözlenen puan, gerçek puana eşit olmuş olur. Ölçme işleminde hata miktarı arttıkça gözlenen puanın gerçek puana olan farkı artmaya başlar.
Ölçmenin standart hatası yükseldikçe ölçme işlemi bireylere rastgele puan vermekten farklı olmayacaktır. Bu nedenle ölçme işlemlerinde güvenilirliğin kestirilmesi çok önemlidir.
Güvenilirlik katsayısı 0 ile 1 arasında değişir. Güvenilirlik katsayısı için alanyazında genellikle 0.70 ve üstü ölçütü kabul edilir. Ancak bu değerin de çok yüksek bir değer olmadığı, 0.70-0.80 arası güvenilirliğin ancak ön bilgi elde etmek amacıyla kullanılabileceği ifade edilir. Genel yetenek gibi bilişsel özellikleri ölçen testlerde güvenilirlik katsayısının 0.90 ve üzerinde olması arzu edilir.
Güvenilirlik, genellikle birden çok uygulamaya dayalı yöntemler ve tek uygulamaya dayalı yöntemler başlıkları altında ele alınır. Birden çok uygulamaya dayalı yöntemler altında test-tekrar test ve eşdeğer (paralel) testler yöntemleri, tek uygulamaya dayalı yöntemler altında ise eşdeğer yarılar, KR-20, KR-21, Cronbach alfa, Hoyt’un varyans analizi, McDonald omega vb. yöntemler yer almaktadır.
5.1 - Test - Tekrar Test Yöntemi
Bu yöntem ile test güvenilirliğini test etmek için bir test, aynı gruba, belli bir zaman aralığıyla iki kez uygulanır. Daha sonra bireylerin birinci uygulamadan aldıkları puanlarla ikinci uygulamadan aldıkları puanlar arasındaki korelasyon hesaplanır. Elde edilen korelasyon katsayısına kararlılık (devamlılık / istikrarlılık) katsayısı adı verilir.
Güvenilirliğin kararlılık, tutarlılık ve duyarlılık sorunu olduğuna daha önce değinilmişti. Bu yöntemle elde edilen güvenilirlik kanıtı, güvenilirliğin yalnızca kararlılık boyutuna karşılık gelir; güvenilirliğe ilişkin tümel bir sonuç ortaya koymaz. Bu nedenle bir ölçme aracının güvenilirliğine ilişkin kanıt toplamak isteyen bir kişi kararlılığın yanı sıra tutarlılığa ve duyarlılığa ilişkin sorgulamaları yapmak durumundadır.
Bu yöntem, ölçülen özelliğin kararlı olduğu durumlarda uygulanması gereken bir yöntemdir. Testin ölçtüğü özellik sürekli değişkenlik gösteriyorsa bu yöntemle testin güvenirliği hesaplanmamalıdır. Diğer bir deyişle bu yöntem daha çok iki uygulama arasında kolaylıkla değişmeyen özellikleri ölçen testler için uygundur. Örneğin genel zihin yetenekleri, kişilik testleri, ilgi envanterleri, tutum ölçekleri vb. gibi testlerin kararlılık bağlamında güvenilirlikleri bu yöntemle hesaplanabilir.
Test-tekrar test yöntemi, başarı testleri için çok tercih edilmemektedir. Çünkü kısa vadede başarı kolay değişebilen, kararsızlık gösterebilen bir özelliktir. Bu yöntem daha çok yetenek testleri, kişilik envanterleri vb. psikolojik ölçme araçlarından elde edilen puanların güvenilirlik kanıtlarını üretmek için tercih edilmektedir.
Birden çok uygulamaya dayalı yöntemler alanyazında genellikle benzer ölçekler geçerliliği, hâlihazır geçerlilik, uygunluk geçerliliği olarak da geçer.
5.2 - Test Yarılama (Eşdeğer Yarılar / İki Yarı Güvenirliği) Yöntemi
Bu yöntemle güvenilirliği tahmin etmede uygulanmış bir test iki eşdeğer yarıya bölünür ve bireylerin iki yarıdan aldıkları puanlar arasındaki tutarlılık incelenir. Buradaki en temel sorunlardan biri testin iki eşdeğer yarıya nasıl bölünmesi gerektiği ile ilgilidir. En sık başvurulan yöntemler: a) ilk yarı ve son yarı b) tek ve çift ve c) rastlantısaldır. İlk ve son yarı yöntemi her test için uygun değildir. Uygun olmadığı durumlar: Testteki
• maddeler basitten zora doğru sıralanmış ise
• maddeler konu içeriklerine ya da faktörlere göre kümelenerek yerleştirilmiş ise
• madde sayısı çok fazla ise
Bu yöntemle güvenilirliği tahmin etmede, uygulanmış bir test iki eşdeğer yarıya bölünür ve bireylerin iki yarıdan aldıkları puanlar arasındaki tutarlılık incelenir. Şekil 11’de de görüldüğü üzere iki eşdeğer yarıdan alınan toplam puanlar arasında korelasyon hesaplanır ancak elde edilen katsayı korelasyonun yarı puanlar üzerinden elde edilmesi nedeniyle testin tamamına ilişkin bir tutarlılık bilgisi vermez, yarısına ilişkin verir. Diğer bir ifadeyle elde edilen katsayı eşdeğer yarılardan birinin güvenilirliği olarak kabul edilir. Testin tümüne ilişkin bir güvenilirlik katsayısı Spearman-Brown formülü aracılığıyla hesaplanır. Elde edilen katsayı testin tamamına ilişkin iç tutarlılık bağlamındaki güvenilirlik katsayısı olarak kabul edilir.
5.3 - Kuder - Richardson 20 ve 21 Yöntemleri
Kuder-Richarson 20 ve 21 ya da kısaca KR-20 ve KR-21, testin kendi içinde tutarlı bir bütün oluşturup oluşturmadığı ile ilgili bilgi verir. Bu nedenle her iki yöntemle de testin iç tutarlılığı değerlendirildiğinden bu yöntemlerden elde edilen katsayıya iç tutarlılık katsayısı adı verilir.
KR-20 ve KR-21 ile güvenilirlik kestirimi, puanlamanın kategorik olduğu ölçme araçları için uygundur. Puanlamanın kategorik olması, doğru yanıtlara 1 puan, yanlış ve boş bırakılan maddelere 0 puan vererek puanlamanın yapıldığı ya da maddenin yanıtının iki seçenekli verildiği durumlardır. Eğer testteki maddeler farklı ağırlıklarla puanlanmışsa ya da test puanları şans başarısı için düzeltilmişse bu formüller kullanılmaz.
5.4 - Cronbach Alfa Yöntemi
Eğer ölçme aracının puanlaması çok kategorili ise KR-20 ile aynı mantık üzerine kurulu Cronbach alfa hesaplanır. Elde edilen katsayının ismi yine iç tutarlılık katsayısıdır. Derecelendirme ölçekleri puanlamanın çok kategorili olduğu araçlara örnek verilebilir.
______________________________________________
6. Güvenilirliği ve Geçerliliği Artırma Yolları
Güvenilirlik temelde tesadüfi hatalardan arınık olma durumu ise şüphesiz ki tesadüfi hata kaynaklarını azaltmaya yönelik eylemler güvenilirliği artıracaktır. Ancak bu noktada güvenilirliği artıran temel kavramlar ve eylemler konusunun ayrıntılarına girelim:
1. Bir testteki madde sayısı arttıkça birimler küçüldüğünden duyarlılık artar, bu nedenle hata miktarı azalacağından güvenilirlik artar.
2. Bir ölçme işleminde genel bir ilke olarak puanlayıcı sayısı arttıkça güvenilirlik artar. Birden çok kişinin yaptığı puanlamanın ortalamasını almak, bir kişinin verdiği puandan daha güvenilir olma eğilimindedir.
3. Puanlama nesnelliği, güvenilirliği büyük ölçüde etkiler. Bir testin farklı kişiler tarafından puanlanması ya da aynı kişinin farklı zamanlarda verdiği puanlar arasındaki tutarlılığa puanlama güvenilirliği adı verilir. Bir testten elde edilen puan, puanlayıcıya ya da zamana göre değişmiyorsa testin güvenilirliği artar. Elbette kullanılan ölçme aracının puanlamasının nesnel ve öznel olması bu noktada çok önemlidir. Çoktan seçmeli, derecelendirme ölçeği, kontrol listeleri gibi araçlar puanlaması nesnel araçlara örnek iken açık uçlu sorulardan oluşan araçlar, mülakatlar vb. ise puanlaması öznel araçlara örnek olarak verilebilir. Öznel araçların puanlama biçiminin mümkün olduğunca standartlaştırılarak nesnel hâle getirilmesi güvenilirlik açısından önemlidir.
4. KR-20 ve KR-21 yöntemlerinde bahsedildiği gibi testteki maddeler açısından benzeşiklik (homojenlik) arttıkça güvenilirliğin artması, diğer taraftan ayrışıklık (heterojenlik) arttıkça güvenilirliğin düşmesi beklenen bir durumdur.
5. Testten elde edilen puanların güvenilirlik kestirimi için veri elde edilecek grubun (örneklem) büyüklüğü arttıkça grubun heterojenleşmesinden dolayı güvenilirlik artar.
6. Aslında bir üst maddeyle de paralel bir biçimde maksimum performansı ölçen testlerde ortalama güçlüğe yaklaştıkça (????????????=.50) grup heterojenleşir ve dolayısıyla güvenilirlik artar. Heterojen gruplarda testin ölçmeye konu olan özelliğe sahip olanla olmayanı ayırt etme gücünün artması beklenir. Grubun ölçülen özellik bağlamında heterojenleşmesi, büyük ölçüde örneklem sayısının artmasına ve eğer bilişsel bir özellik ölçülüyorsa testin ortalama güçlüğe yaklaşmasına bağlıdır.
7. Maddelerin dil bilgisi kurallarına uygun, açık ve anlaşılır yazılması belki de güvenilirliği en çok artıran etmenlerden biridir. Bu koşul sağlanmadığı takdirde diğer koşulların çok fazla önemi olmayabilir. İyi madde yazarı olmanın temel özelliklerinden biri de ana dilini iyi kullanma becerisidir. Dolayısıyla test yazar(lar)ının dil bilgisi ve imla kurallarına uygun bir biçimde maddeleri yazması, maddede yoklamak istediklerini yalın ve kısa bir biçimde ifade etmesi gerekir. İdealde bu konudaki temel ilke, bir maddenin tüm öğrenciler tarafından aynı biçimde anlaşılmasıdır.
8. Öğrencilere test uygulaması öncesinde ve gerekliyse süreçte yönerge vermek, test almaya güdülenme ve hazırbulunuşluluğun artması açısından önemlidir. Buna yönelik alınacak önlemler özellikle bireyden kaynaklanabilecek hataları asgariye indirir.
9. Fiziksel ortamın ses, sıcaklık, ışık, koku, dikkat dağıtıcı uyarıcılar, ergonomi vb. etmenler açısından uygun hâle getirilmesi yine güvenilirliği artıran bir başka etmendir. Fiziksel uyarıcılar açısından yanıtlama davranışını etkileyebilecek her türlü etmen güvenilirliği düşürecektir. Bu nedenle test uygulayıcılarının test ortamını düzenleme bağlamında sorumlulukları vardır. Özellikle zekâ, başarı gibi bilişsel özelliklerin ölçülmesinde bu etmenlerin önemi daha da artmaktadır.
10. Eğer süreli bir test uygulaması ise sürenin yeterli verilmesi gerekir. Eğer bir hız testi değilse tüm katılımcıların maddelerin tümüne ulaşması beklenen bir durumdur. Tabii ki hız testleri bu durumdan bağımsız olarak değerlendirilebilir.
11. Uygulamada bireylerin dikkatini dağıtacak ve/veya kaygısını artıracak davranışlardan kaçınılması, puanlama ya da veri girişi yapılırken dikkatli ve titiz davranılması ölçme işlemini yapan kişiden kaynaklanabilecek hataları azaltacağından dolayı güvenilirliği artırır.
12. Maddelerin teste düzgün yerleştirilmesi, okumayı güçleştirecek bir unsurun bulunmaması; test katılımcısının yaşına, gelişim düzeyine uygun bir punto büyüklüğü kullanılması; baskı hataları bulunmaması vb. etmenler güvenilirliği artırır.
Güvenilirliği artıran faktörler geçerliliği de artırır. Ancak geçerlilik yalnızca tesadüfi hatalardan değil, aynı zamanda sabit ve sistematik hatalardan da etkilenir. O nedenle öğretmenin tesadüfi hataların yanı sıra sabit ve sistematik hatalardan arındırmaya yönelik alacağı tüm tedbirler geçerliliği de artıracaktır.