İçindekiler · 18 Bölüm
Ölçme ve Değerlendirmeye Giriş — Ünitenin KPSS'deki Yeri
Ölçme ve Değerlendirme, KPSS Eğitim Bilimleri sınavının en yüksek soru ağırlıklı ünitelerinden biridir. Yıllık ortalama 4-5 soru bu konudan gelir; sorular hem kavram tanımı hem de senaryo yorumu biçiminde çıkar. Aday için iyi haber şudur: ünite, kavramlar net ayırt edildiğinde kolay net üretilen bir alandır; çünkü her kavramın kendine ait tetik kelimeleri ve ayırt edici örnekleri vardır.
Ölçme ve Değerlendirme Niçin Bir Bütün Olarak Ele Alınır?
Eğitim sürecinin üç temel sorusu vardır: Ne öğreteceğim? Nasıl öğreteceğim? Öğrettiğimi kontrol edebiliyor muyum? İlk iki soruya program geliştirme ve öğretim yöntemleri cevap verirken, üçüncü soruya cevap veren alan ölçme ve değerlendirmedir. Bu yüzden ünite, hedef-davranış-içerik-süreç döngüsünün kapanış halkasıdır; öğretim hizmetinin niteliğini bize objektif veri ile gösteren araçlar bütünüdür.
Ünitenin Ana Yapısı
KPSS'de Ölçme ve Değerlendirme ünitesi iki büyük başlık altında ele alınır:
- Temel Kavramlar: Ölçme türleri, ölçek türleri, değerlendirme türleri, ölçüt türleri, ölçme aracı nitelikleri (geçerlik-güvenirlik-kullanışlılık), hata türleri ve madde analizi.
- İstatistik ve Test Araçları: Merkezi eğilim ölçüleri (ortalama, medyan, mod), merkezi yayılma ölçüleri (standart sapma, ranj, varyans) ve test türleri (çoktan seçmeli, performans, portfolyo, rubrik). Bu başlık bir sonraki konuda ayrıntılı işlenecektir.
Bu Rehberin Yol Haritası
Aşağıdaki bölümlerde sırasıyla ölçme tanımı ve unsurları, ölçme türleri, ölçek türleri, değerlendirme süreçleri, mutlak-bağıl ayrımı, ölçme aracının üç temel niteliği, geçerlik ve güvenirlik türleri, geçerlik-güvenirlik ilişkisi, kullanışlılık, hata türleri ve madde analizi ele alınacaktır. Ünite, sınav tipi çözümlü senaryolar ile kapanır.
KPSS İpucu: Ölçme-Değerlendirme ünitesinde en sık çıkan üç ayrım: ölçek türleri (sınıflama-sıralama-eşit aralıklı-eşit oranlı), mutlak vs bağıl ölçüt ve geçerlik-güvenirlik ilişkisi. Bu üç ayrım netleştiyse 4 sorudan en az 3'ü kazanılır.
Özet: Bu rehber, ölçme ve değerlendirmenin temel kavramlarını ve ölçme aracı niteliklerini KPSS sorularına yetecek netlikte ele alır. İstatistik kavramları ve test türleri bir sonraki konuda detaylandırılacaktır.
Ölçme: Tanımı, Birim ve Sıfır Kavramı
Ölçme, bir nesnenin ya da bireyin sahip olduğu özelliği sayı veya sembollerle ifade etme sürecidir. Tanımın anahtar üç kelimesi şunlardır: özellik, sayı/sembol, kural. Bir özellik gözlemlenir, bu özelliğe önceden belirlenmiş bir kurala göre sayı ya da sembol atanır; ortaya çıkan değer ölçüm olarak adlandırılır.
Ölçmenin Üç Temel Unsuru
- Ölçülecek Özellik: Boy, ağırlık, sıcaklık, başarı, tutum, ilgi, kaygı vb. — gözlenebilir ya da soyut olabilir.
- Birim: Ölçmede kullanılan standart büyüklüktür. Metre, kilogram, derece gibi fiziksel birimler veya "doğru cevap sayısı" gibi soyut birimler kullanılabilir.
- Kural: Hangi koşulda hangi sayının atanacağını belirleyen kuraldır. "Her doğru cevap 1 puan" bir kuraldır.
Sıfır Kavramının Önemi
Ölçmede sıfır iki farklı anlamda kullanılır. Bu ayrım, ölçek türlerini doğru sınıflandırmanın anahtarıdır.
- Mutlak (gerçek) sıfır: Ölçülen özelliğin hiç olmadığı noktadır. 0 kg, ağırlığın yokluğunu ifade eder.
- Bağıl (yapay) sıfır: Anlaşma ile belirlenmiş, özelliğin yokluğunu ifade etmeyen sıfırdır. 0 °C, sıcaklığın yokluğu değil; suyun donma noktasıdır.
Ölçmenin Amacı
Ölçmenin tek başına bir anlamı yoktur; bir karar vermeye veri sağlamak için yapılır. Bir öğrencinin sınavdan 60 puan alması yalnızca bir sayıdır; bu sayının başarılı mı başarısız mı sayılacağı değerlendirme aşamasında belirlenir. Bu nedenle ölçme, değerlendirmenin ön koşuludur; ölçme yapılmadan değerlendirme yapılamaz.
Ölçme Aracı, Ölçme Yöntemi ve Ölçme Süreci
Üç kavram sıkça karıştırılır:
- Ölçme aracı: Ölçme için kullanılan somut materyaldir. Mezura, terazi, sınav kâğıdı, tutum ölçeği bir araçtır.
- Ölçme yöntemi: Aracın kullanılma biçimidir. Bireysel uygulama, grup uygulaması, gözlem, test bir yöntemdir.
- Ölçme süreci: Aracın bir yöntemle uygulanıp ölçüm değerinin elde edilmesine kadar geçen tüm aşamaların bütünüdür.
Ölçmenin Niceliksel ve Niteliksel Boyutu
Eğitim ortamında ölçmenin iki yüzü vardır. Niceliksel ölçme sayısal değerlerle ifade edilir; sınav puanı, doğru cevap sayısı, çalışma saati gibi. Niteliksel ölçme ise sözel ifadelerle yapılır; "iyi", "orta", "zayıf" gibi semboller kullanılır. KPSS'de "ölçme" denildiğinde genelde niceliksel ölçme kastedilir; ancak rubrik ve gözlem formları niteliksel ölçme örneğidir.
Tetik Kelime: "sayı/sembol atama", "özelliğin miktarını belirleme", "puan, derece, sayım" → ölçmedir. Bir cümlede karar/yargı/kıyaslama varsa o cümle değerlendirme cümlesidir.
Dikkat: Ölçme bir süreçtir; ölçüm bu sürecin sonucudur. "Sınavda 80 aldı" ifadesindeki 80 ölçüm değeridir; sınavın yapılması, soruların puanlanması ölçme sürecidir. Sınav sorularında kavramlar genellikle bu nüansta ayırt edilir.
Ölçme Türleri: Doğrudan, Dolaylı ve Türetilmiş Ölçme
Ölçmeler, gözlemin ve özelliğin doğrudan erişilebilir olup olmamasına göre üç türe ayrılır. Bu sınıflandırma, hangi araçla nelerin ölçüldüğünü anlamak için kritiktir.
Doğrudan Ölçme
Tanım: Ölçülecek özelliğin doğrudan kendisinin gözlenip ifade edilebildiği ölçmedir. Araçla özellik arasında aracı bir kavram bulunmaz.
- Örnekler: Boyun metre ile ölçülmesi, ağırlığın terazi ile ölçülmesi, sıvının ölçü kabı ile ölçülmesi, sıcaklığın termometre ile ölçülmesi.
- Tetik Kelime: "doğrudan gözlem", "fiziksel araç", "somut özellik".
Dolaylı Ölçme
Tanım: Ölçülecek özelliğin doğrudan gözlenememesi nedeniyle, o özelliğin başka davranış ya da göstergeler aracılığıyla ölçülmesidir. Soyut özellikler bu yolla ölçülür.
- Örnekler: Zekâ, başarı, tutum, ilgi, kaygı, motivasyon, kişilik gibi soyut özelliklerin testler veya ölçeklerle belirlenmesi.
- Tetik Kelime: "soyut özellik", "test", "tutum ölçeği", "davranış göstergeleri".
Türetilmiş Ölçme
Tanım: İki ya da daha fazla doğrudan ölçme sonucunun matematiksel işleme tabi tutulmasıyla elde edilen ölçmedir. Doğrudan ölçmelerden hesaplanır.
- Örnekler: Hız (yol/zaman), yoğunluk (kütle/hacim), beden kitle indeksi (kilo/boy²), bir sınıfın puan ortalaması, doğum oranı (canlı doğum/nüfus).
- Tetik Kelime: "hesaplama", "iki ölçümün oranı", "formülle bulma", "indeks", "ortalama".
Eğitim Ortamında Üç Türün Birlikte Kullanımı
Sınıfta üç ölçme türü farklı amaçlar için bir arada kullanılır. Bir öğretmen öğrencinin boyunu mezura ile (doğrudan), başarısını sınavla (dolaylı) ve çalışma verimliliğini başarı / saat oranıyla (türetilmiş) ölçebilir. Hangi ölçme türünün uygun olduğu, ölçülecek özelliğin doğasına bağlıdır; soyut özellikler asla doğrudan ölçülemez.
Sınav Tipi Karşılaştırma
| Ölçme Türü | Tetik | Örnek |
|---|---|---|
| Doğrudan | Fiziksel araç | Boy ölçümü |
| Dolaylı | Soyut özellik | Zekâ testi |
| Türetilmiş | Hesaplama | Hız hesabı |
Dikkat: Soyut nitelikler (zekâ, tutum, kaygı) doğrudan ölçülemez; bunlar dolaylı ölçme ile elde edilir. Sınav sorularında "öğrencinin matematik başarısını ölçmek" ifadesi geçerse bu dolaylı ölçmedir; çünkü başarı doğrudan görülemez, sınav sonuçlarından çıkarsanır.
Ölçek Türleri: Sınıflama, Sıralama, Eşit Aralıklı, Eşit Oranlı
Ölçek türleri, ölçme sonuçlarının matematiksel olarak ne kadar bilgi taşıdığını belirler. Stevens (1946) tarafından tanımlanan dört düzey vardır: sınıflama, sıralama, eşit aralıklı ve eşit oranlı. KPSS'de ölçek tanıma soruları her sınavda en az bir kez çıkar.
Sınıflama (Nominal) Ölçek
Tanım: Sayılar yalnızca kategorilere ayırma amacıyla kullanılır. Aralarında büyüklük-küçüklük ilişkisi yoktur, matematiksel işlem yapılamaz.
- Cinsiyet kodu (1: kadın, 2: erkek), kan grubu, plaka kodu, futbolcu forma numarası, telefon numarası.
- Yapılabilen istatistik: Sıklık, mod.
Sıralama (Ordinal) Ölçek
Tanım: Birimler arasında büyüklük sırası vardır ancak aralarındaki fark eşit değildir. Birinci ile ikinci arasındaki fark, ikinci ile üçüncü arasındaki farka eşit olmayabilir.
- Sınıfta öğrencilerin başarı sıralaması (1., 2., 3. derece), boy sıralaması, yarış derecesi (altın, gümüş, bronz).
- Yapılabilen istatistik: Mod, medyan, sıklık.
Eşit Aralıklı (Interval) Ölçek
Tanım: Birimler arasındaki fark eşittir ancak gerçek sıfır noktası yoktur. Sıfır yapay olarak belirlenmiştir; özelliğin yokluğunu ifade etmez.
- Sıcaklık (Celsius / Fahrenheit), takvim yılı, IQ puanı, başarı testi puanı, tutum ölçeği puanı.
- Yapılabilen istatistik: Toplama, çıkarma, ortalama, standart sapma. Oranlama yapılamaz: 40 °C, 20 °C'nin iki katı sıcak değildir.
Eşit Oranlı (Ratio) Ölçek
Tanım: Birimler arasındaki fark eşittir ve gerçek sıfır noktası vardır. Sıfır, özelliğin tamamen yokluğunu ifade eder. En üst düzey ölçektir.
- Boy (cm), ağırlık (kg), zaman (saniye), uzaklık, para, yaş, sınıftaki öğrenci sayısı.
- Yapılabilen istatistik: Tüm matematiksel işlemler. Oranlama mümkündür: 80 kg, 40 kg'ın iki katıdır.
Karşılaştırma Tablosu — Sıfır ve İşlemler
| Ölçek | Sıralama | Eşit Aralık | Mutlak Sıfır | Oranlama |
|---|---|---|---|---|
| Sınıflama | Yok | Yok | Yok | Yok |
| Sıralama | Var | Yok | Yok | Yok |
| Eşit Aralıklı | Var | Var | Yok | Yok |
| Eşit Oranlı | Var | Var | Var | Var |
KPSS İpucu: Eşit aralıklı ile eşit oranlı arasındaki tek fark gerçek sıfırtır. Sıcaklık, takvim, başarı puanı, IQ → eşit aralıklı; boy, kilo, para, yaş → eşit oranlı. Sınav sorusunda "0 değeri ne anlama geliyor?" sorusunu kendine sor: özelliğin yokluğunu ifade ediyorsa eşit oranlı, yapay bir başlangıç noktasıysa eşit aralıklı.
Dikkat: Klasik tuzak: sınav sorularındaki başarı puanı eşit aralıklı ölçektir. Çünkü "0 puan" öğrencinin hiçbir bilgisinin olmadığı anlamına gelmez; sorulan sorulara cevap verememesi anlamına gelir. Bu nedenle "Ali 80, Ayşe 40 alırsa Ali Ayşe'nin iki katı bilgilidir" denemez.
Değerlendirme: Ölçüm + Ölçüt = Karar
Değerlendirme, ölçüm sonuçlarının önceden belirlenmiş bir ölçütle karşılaştırılarak bir karara varılması sürecidir. Üç temel unsuru vardır: ölçüm, ölçüt, karar. Ölçme nesnel bir süreçken değerlendirme öznel bir yargılama içerir.
Değerlendirmenin Üç Unsuru
- Ölçüm: Ölçme süreci sonucunda elde edilen sayı veya sembol. Örneğin sınavdan alınan 65 puan.
- Ölçüt (Kriter): Ölçümün karşılaştırıldığı referans değer. "Geçme notu 50'dir" cümlesindeki 50 ölçüttür.
- Karar: Ölçüm ölçütle karşılaştırıldıktan sonra ulaşılan sonuç. "Başarılı / başarısız", "geçti / kaldı".
Ölçme ile Değerlendirmenin Farkı
| Boyut | Ölçme | Değerlendirme |
|---|---|---|
| Doğa | Nesnel, sayısal | Öznel, yargı |
| Çıktı | Ölçüm değeri | Karar |
| Ölçüt İhtiyacı | Yok | Var |
| Sıra | Önce gelir | Sonra gelir |
Tipik Senaryolar
- "Ahmet sınavdan 75 aldı." → Sadece ölçüm bildirilmiştir; ölçüt yok, karar yok.
- "Ahmet sınavdan 75 aldı, geçme notu 50 idi, başarılıdır." → Ölçüm + ölçüt + karar = değerlendirme.
- "Sınıfın ortalaması 60'tı, Ahmet 75 aldı; ortalamanın üzerinde başarılıdır." → Bağıl ölçüt kullanılarak değerlendirme.
- "Sınıfta 30 öğrenci var." → Yalnızca sayım, henüz ne ölçme ne değerlendirme; kuralla atanmış birim yok.
- "Ahmet okulun en başarılı öğrencisidir." → Ölçüt belirsiz olsa da karar verilmiş, dolaylı bir değerlendirme cümlesidir.
Değerlendirmenin Üç Olası Çıktısı
Değerlendirme süreci sonunda elde edilen karar türü, sınav sorularında ipucu olarak kullanılır:
- Geçti / kaldı: İkili karar; düzey belirleyici sınavların tipik çıktısıdır.
- Düzey ataması: A1, A2, B1 gibi seviyeler; yeterlik sınavlarının çıktısıdır.
- Sıralama puanı: KPSS, ÜSYM yerleştirmelerinin çıktısı; bağıl değerlendirme sonucudur.
Tetik Kelime: "başarılı / başarısız", "geçti / kaldı", "yeterli / yetersiz", "iyi / kötü" → değerlendirmedir. Sayı kullanılmış olsa bile bir karar veriliyorsa o cümle değerlendirme cümlesidir.
Dikkat: Ölçme yapılmadan değerlendirme yapılamaz. Ancak ölçme yapılıp değerlendirme yapılmayabilir. "Sınavdan 80 aldı" sadece ölçmedir; "80 aldı, geçti" değerlendirmedir. Sınav sorularında bir cümlenin yalnızca sayı ya da hem sayı hem yargı içermesi türü ayırır.
Değerlendirme Türleri: Tanılayıcı, Biçimlendirici, Düzey Belirleyici
Değerlendirme, öğretim sürecinin hangi aşamasında ve hangi amaçla yapıldığına göre üç temel türe ayrılır. Bu sınıflandırma KPSS'de senaryolu sorularla en sık çıkan başlıklardan biridir.
Tanılayıcı (Diagnostik) Değerlendirme — "Önce"
Ne zaman? Öğretim başlamadan önce.
Amaç: Öğrencinin hazırbulunuşluk düzeyini, ön bilgi ve becerilerini, eksiklerini, ilgi ve yeteneklerini belirlemek; uygun kümeye ya da düzeye yerleştirmek.
Kullanım Alanları: Ön test, hazırbulunuşluk testi, seviye tespit, gruplama, önkoşul belirleme.
- Sınav tetiği: "öğretime başlamadan", "düzey belirleme", "seviye tespit", "yerleştirme", "ön bilgi tespiti".
Biçimlendirici (Formatif) Değerlendirme — "Sırasında"
Ne zaman? Öğretim sürecinin içinde, ünite ya da konu sürecinde.
Amaç: Öğrenmedeki eksiklikleri belirlemek, eksik kazanımları tamamlamak, öğretim sürecini geliştirmek. Not için değil, sürecin iyileştirilmesi içindir.
Kullanım Alanları: Ünite içi izleme testleri, kısa sınavlar, ödev kontrolü, dönüt-düzeltme uygulamaları.
- Sınav tetiği: "süreç içinde", "öğrenme eksiklikleri", "geri bildirim verme", "dönüt-düzeltme", "öğretimi iyileştirme".
Düzey Belirleyici (Summatif) Değerlendirme — "Sonunda"
Ne zaman? Öğretim sürecinin sonunda, bir dönemin ya da bir kursun bitiminde.
Amaç: Öğrencinin hedeflere ulaşma düzeyini belirlemek, başarı kararı vermek, not vermek, sertifikalandırmak. Geçti-kaldı, başarılı-başarısız kararı bu aşamada verilir.
Kullanım Alanları: Dönem sonu sınavları, bitirme sınavları, KPSS, AYT, üniversite final sınavları, mezuniyet sınavları.
- Sınav tetiği: "süreç sonunda", "geçti-kaldı kararı", "diploma", "sertifika", "nihai başarı".
Üç Türün Kıyaslama Tablosu
| Tür | Zaman | Amaç | Nota Etki |
|---|---|---|---|
| Tanılayıcı | Önce | Yerleştirme | Yok |
| Biçimlendirici | Sırasında | Eksik tamamlama | Yok |
| Düzey Belirleyici | Sonunda | Başarı kararı | Var |
KPSS İpucu: Senaryo sorusunda üç anahtar bilgi ara: ne zaman yapılıyor (önce/sırasında/sonunda)? Sonuç nota katılıyor mu? Karar veriliyor mu? Bu üçü tespit edildiğinde tür kesinleşir.
Dikkat: Klasik tuzak: bir sınav sorusunda "öğretmen ünite sonunda kısa bir test yaptı, eksiklikleri belirledi, ek öğretim hizmeti sundu, sonuçları nota katmadı" denir. Bu biçimlendiricidir, summatif değildir; çünkü amaç eksik tespit, sonuçlar nota katılmamış. "Ünite sonu" ifadesi otomatik olarak summatif anlamına gelmez.
Mutlak ve Bağıl Değerlendirme: Ölçüt Kimden Gelir?
Değerlendirmenin temel ayrımı, ölçütün nereden geldiğine dayanır. Ölçüt önceden belirlenmişse mutlak, gruba göre belirlenmişse bağıldır. KPSS'de bu ayrım her sınavda en az bir kez sorulur.
Mutlak (Norm-Bağımsız) Değerlendirme
Tanım: Ölçüt önceden, gruptan bağımsız olarak belirlenir. Hedef davranışların öğrenilip öğrenilmediği temel alınır.
- Örnek ölçüt: "70 ve üzeri başarılıdır", "80 puan alan ehliyet alır", "Üç bölümün hepsinden 60 alan geçer".
- Karar: Bireyin performansı sabit standartla karşılaştırılır.
- Avantaj: Adil, hedef odaklı, kazanım merkezli; her birey kendi başarısını bilir.
- Tetik Kelime: "önceden belirlenmiş", "sabit ölçüt", "x puan ve üzeri", "hedef davranış".
Bağıl (Norm-Bağımlı) Değerlendirme
Tanım: Ölçüt, grubun performansına göre belirlenir. Bireyin performansı diğer bireylerle karşılaştırılır.
- Örnek ölçüt: "İlk %10 başarılıdır", "Ortalamanın üzerindekiler geçer", "İlk 1000'e girenler atanır".
- Karar: Bireyin performansı, grubun ortalama veya sıralaması ile karşılaştırılır.
- Kullanım: Yarışmalı sınavlar (KPSS, ÜSYM tabanlı sınavlar), seçme amaçlı sınavlar.
- Tetik Kelime: "grubun ortalamasına göre", "ilk %x", "sınavda ilk n", "norm puanı".
İki Değerlendirme Türünün Tipik Örnekleri
- Mutlak: Sürücü kursu sınavı (70 puan ve üzeri başarılı), MEB seviye tespit sınavı, ehliyet, dil yeterlik (B1-B2-C1).
- Bağıl: KPSS yerleştirme (taban puana göre), üniversite tercihi (kontenjan), spor yarışması, Olimpiyat sınavı.
Karma Sistemler: İki Ölçütün Bir Arada Kullanımı
Pratikte birçok sınav iki ölçütü birlikte kullanır. KPSS'de adayların sınava girebilmesi için en az 50 puan barajı (mutlak ölçüt) vardır; ancak atama sıralı yapıldığı için yerleşmek için ilk x kişi arasına girmek (bağıl ölçüt) gerekir. Üniversite giriş sınavlarında da benzer şekilde belirli bir barem (mutlak) ile sıralama (bağıl) birlikte uygulanır. Bu nedenle bir sınav sorusunda "Hem 50 puan barajını geçen hem de ilk 200 kişi arasına giren..." ifadesi görüldüğünde her iki ölçütün de kullanıldığı söylenmelidir.
Mutlak vs Bağıl Karşılaştırma Tablosu
| Boyut | Mutlak | Bağıl |
|---|---|---|
| Ölçüt Kaynağı | Önceden belirlenir | Grup performansı |
| Karşılaştırma | Birey - standart | Birey - grup |
| Tipik Sınav | Yeterlik sınavı | Seçme sınavı |
| Hedef | Hedefe ulaşmak | Sıralamada üstün olmak |
KPSS İpucu: Sınavda hızlı eleme: "puan / sayı sabitse" mutlak, "yüzde / sıralama varsa" bağıldır. KPSS'nin kendisi bağıl değerlendirme yapar (ilk x kişi atanır), ancak baraj puanı (örn. 50) mutlak ölçüttür. Sınavda iki ölçüt birlikte kullanılabilir.
Ölçme Aracının Üç Temel Niteliği: Geçerlik, Güvenirlik, Kullanışlılık
Bir ölçme aracının kalitesi üç temel nitelik üzerinden değerlendirilir: geçerlik, güvenirlik, kullanışlılık. Bu üçlü arasında katı bir hiyerarşi vardır; sınav sorularının çoğu bu hiyerarşinin doğru anlaşılmasını ister.
Üçlü Hiyerarşi
Üç nitelik şu sıraya göre önemlidir:
- Geçerlik (Validity): En önemli nitelik. Test, ölçmek istediğini ne ölçüde doğru ölçüyor?
- Güvenirlik (Reliability): İkincil nitelik. Test, tutarlı sonuçlar veriyor mu?
- Kullanışlılık (Practicality / Usability): Pratik nitelik. Test ekonomik, uygulanabilir, puanlanabilir mi?
Niteliklerin Tek Cümlelik Tanımları
- Geçerlik: Aracın amacına uygunluk derecesidir. Boyu ölçmek için terazi geçerli değildir.
- Güvenirlik: Aracın tutarlılık ve kararlılık derecesidir. Aynı koşulda aynı sonucu veriyor mu?
- Kullanışlılık: Aracın ekonomiklik ve pratiklik derecesidir. Hazırlama, uygulama, puanlama kolaylığı.
Hiyerarşinin Mantığı: Neden Geçerlik Önce Gelir?
Bir araç ölçmek istediğini ölçmüyorsa, ne kadar tutarlı veya pratik olursa olsun değersizdir. Geçersiz bir araç tutarlı yanlış ölçer; bu fayda değil zarar üretir. Bu nedenle test geliştirme sürecinde önce geçerlik, sonra güvenirlik, en son kullanışlılık göz önünde bulundurulur. Bu hiyerarşi ders kitaplarında tartışmasız kabul edilen kuraldır.
Test Geliştirme Sürecinde Üçlünün Sırası
Pratikte bir testin geliştirilmesi şu adımları izler:
- Hedef belirleme: Hangi yapı (kavram, beceri, davranış) ölçülecek?
- Belirtke tablosu hazırlama: Hedef ile içerik eşleştirilerek kapsam geçerliği güvence altına alınır.
- Pilot uygulama: Test bir örneklem üzerinde denenir; madde analizi yapılır, güvenirlik katsayıları hesaplanır.
- Madde revizyonu: Düşük ayırt edicilikteki maddeler çıkarılır, ifade hataları düzeltilir.
- Asıl uygulama: Test tüm gruba uygulanır; geçerlik kanıtları (faktör analizi, ölçüt geçerliği) toplanır.
- Kullanışlılık denetimi: Süre, maliyet, puanlama prosedürü gözden geçirilir.
Üç Niteliğin İlişki Tablosu
| Nitelik | Soru | Önem |
|---|---|---|
| Geçerlik | Doğru şeyi mi ölçüyor? | 1. derece |
| Güvenirlik | Tutarlı mı ölçüyor? | 2. derece |
| Kullanışlılık | Pratik mi? | 3. derece |
KPSS İpucu: Sınavda "en önemli nitelik nedir?" tipi soruda cevap her zaman geçerliktir. "Bir test geçerliyse aynı zamanda..." diye başlayan soruda doğru cevap güvenilirdir. "Bir test güvenilirse aynı zamanda..." sorusunun cevabı geçerli olabilir de olmayabilir de.
Dikkat: Üç nitelik birbirinden bağımsız değildir. Geçerlik güvenirliği kapsar; güvenirlik geçerliliğin ön koşuludur. Detayı geçerlik-güvenirlik ilişkisi bölümünde işlenecek.
Geçerlik Türleri: Kapsam, Yapı, Görünüş, Yordama, Uyum, Ölçüt
Geçerlik tek bir şey değildir; ölçme aracının hangi yönden doğru ölçtüğüne göre alt türlere ayrılır. KPSS'de en sık kapsam ve yapı geçerliği soruları çıkar.
Kapsam (İçerik) Geçerliği — Content Validity
Tanım: Testin, ölçülmek istenen konu alanını ne ölçüde temsil ettiğidir. Müfredattaki tüm önemli konuları ve hedef davranışları kapsamalıdır.
Nasıl artırılır? Belirtke tablosu hazırlanarak. Belirtke tablosu, hedefler ile içeriği iki boyutlu eşleştiren bir tablodur. Her ünite ve hedef davranışın testte ne ağırlıkta yer alacağını gösterir.
- Sınav tetiği: "müfredattaki konuların temsili", "hedef davranışların kapsanması", "belirtke tablosu", "ünite ağırlıkları".
Yapı Geçerliği — Construct Validity
Tanım: Testin, ölçmek istediği kuramsal (soyut) yapıyı ne ölçüde doğru ölçtüğüdür. Zekâ, kaygı, motivasyon gibi gözlemlenemeyen kavramların geçerliği bu yolla belirlenir.
Nasıl belirlenir? Faktör analizi, iç tutarlılık çalışmaları, yakınsak ve ayırt edici geçerlik kanıtları toplanarak.
- Sınav tetiği: "soyut bir kavram", "kuramsal yapı", "faktör analizi", "yakınsak / ayırt edici geçerlik".
Görünüş Geçerliği — Face Validity
Tanım: Testin görünüşünün, neyi ölçtüğüne dair yüzeysel izlenim vermesidir. Bilimsel kanıt değil, izlenim düzeyindedir.
- Örnek: Bir matematik testinin sayılar ve işlemler içermesi görünüş geçerliği sağlar; ancak gerçek geçerlik için içerik analizi gerekir.
- Sınav tetiği: "ilk bakışta", "izlenim", "yüzeysel görünüm".
Yordama (Yordayıcı) Geçerliği — Predictive Validity
Tanım: Testin, gelecekteki bir performansı ne ölçüde doğru tahmin ettiğidir. Test puanı ile dış ölçüt arasında zaman aralığı vardır.
- Örnek: Üniversite giriş sınavı puanları ile mezuniyet GPA'si arasındaki ilişki. İşe alım sınavı ile 6 ay sonraki performans arasındaki korelasyon.
- Sınav tetiği: "gelecekteki başarıyı tahmin", "yordama", "x ay/yıl sonra".
Uyum (Zamandaş / Eş Zamanlı) Geçerliği — Concurrent Validity
Tanım: Testin, aynı anda ölçülen başka bir ölçütle uyumudur. Test ile dış ölçüt eş zamanlı alınır.
- Örnek: Yeni geliştirilen bir kaygı testinin, kabul gören başka bir kaygı testi ile aynı anda uygulanıp puanların karşılaştırılması.
- Sınav tetiği: "eş zamanlı", "aynı anda", "şu anki performansla".
Ölçüt Geçerliği — Criterion Validity (Şemsiye Kavram)
Yordama ve uyum geçerliği birlikte ölçüt geçerliğini oluşturur. Test puanının dış bir ölçütle ilişkisini araştırır; ölçüt aynı anda alınırsa uyum, sonra alınırsa yordama olur.
Geçerliği Etkileyen Faktörler
- Kapsam yetersizliği: Testte sadece bir konunun yer alması.
- Soruların belirsizliği: Yanlış anlaşılan, çok uzun veya muğlak ifadeler.
- Test süresinin yetersizliği: Öğrenci tüm soruları cevaplayamaz, ölçme eksik kalır.
- Düzeyin uygunsuzluğu: Çok kolay veya çok zor sorular gerçek başarıyı yansıtmaz.
- Hile ve kopya: Sonuçları çarpıtır.
KPSS İpucu: Kapsam ve yapı geçerliği en sık karıştırılır. Kapsam = içeriği temsil (müfredat, ünite); yapı = soyut kavramı yansıtma (zekâ, kaygı). Senaryoda "müfredat" geçiyorsa kapsam, "soyut kavram" geçiyorsa yapı.
Dikkat: Yordama ile uyum geçerliği arasındaki tek fark zamandır. Aynı anda alınırsa uyum, ileride alınırsa yordama. Sınav sorularında "6 ay sonra ölçüm" gibi ifadeler yordamayı; "aynı anda iki test uygulandı" ifadeleri uyumu işaret eder.
Güvenirlik Türleri: Test-Tekrar Test, Paralel Form, İç Tutarlılık
Güvenirlik, ölçme aracının tutarlı ve kararlı sonuçlar verme derecesidir. Aynı testin aynı koşullarda aynı sonucu vermesi beklenir. Güvenirlik dört farklı yöntemle hesaplanır.
Test-Tekrar Test Güvenirliği — Kararlılık
Yöntem: Aynı test, aynı gruba, belirli bir zaman aralığıyla (genellikle 2-4 hafta) iki kez uygulanır. İki uygulama arasındaki korelasyon hesaplanır.
- Ölçtüğü: Zamana karşı kararlılık.
- Sınırlılık: Hatırlama etkisi (ilk uygulamayı hatırlama). Bu nedenle aralık çok kısa olmamalı.
- Tetik kelime: "iki kez aynı testi", "x hafta sonra tekrar", "kararlılık".
Paralel (Eşdeğer) Form Güvenirliği
Yöntem: Aynı içeriği ölçen, iki farklı eşdeğer test hazırlanır ve aynı gruba uygulanır. İki testin puanları arasındaki korelasyon hesaplanır.
- Ölçtüğü: Form ekvivalansı.
- Avantaj: Hatırlama etkisi yoktur; iki form farklı sorulardan oluşur.
- Sınırlılık: İki eşdeğer form hazırlamak zordur ve maliyetlidir.
- Tetik kelime: "iki farklı paralel test", "eşdeğer formlar".
İç Tutarlılık — Tek Uygulama Yöntemleri
Tek bir uygulama ile testin maddelerinin birbirleriyle uyumlu olup olmadığını ölçer. Üç ana yaklaşım vardır.
İkiye Bölme (Split-Half) Yöntemi
- Test maddeleri ikiye bölünür (genellikle tek-çift), iki yarı puanları arasındaki korelasyon hesaplanır.
- Spearman-Brown formülü ile düzeltilir.
KR-20 ve KR-21 (Kuder-Richardson)
- Maddelerin iki kategorili (doğru/yanlış) olduğu testlerde kullanılır (çoktan seçmeli, doğru-yanlış).
- KR-20 her madde için ayrı zorluk hesaplar; KR-21 ortalama zorluğu kullanır (daha basit ama daha az hassas).
Cronbach Alfa (α)
- Maddelerin çok kategorili (likert, derecelendirme) olduğu ölçeklerde kullanılır.
- Tutum, ilgi, kişilik ölçeklerinin standart güvenirlik göstergesidir.
- 0,70 ve üzeri kabul edilebilir, 0,80 üzeri iyi, 0,90 üzeri mükemmel sayılır.
Puanlayıcılar Arası Güvenirlik — Objektiflik
Yöntem: Aynı sınav kâğıdı iki ya da daha fazla puanlayıcı tarafından okutulur, puanlamalar arasındaki tutarlılık hesaplanır.
- Özellikle açık uçlu, kompozisyon, performans değerlendirme gibi öznelliği yüksek araçlarda önem taşır.
- Rubrik kullanımı puanlayıcılar arası güvenirliği artırır.
- Tetik kelime: "farklı puanlayıcılar", "iki öğretmen", "objektiflik".
Güvenirliği Etkileyen Faktörler
- Soru sayısı: Soru sayısı arttıkça güvenirlik artar (pozitif).
- Test süresi: Yetersiz süre güvenirliği düşürür.
- Soruların güçlüğü: Çok kolay veya çok zor sorular güvenirliği düşürür; orta güçlükteki sorular en yüksek güvenirlik üretir.
- Grup homojenliği: Heterojen grup (yüksek varyans) güvenirliği artırır; homojen grup düşürür.
- Uygulama koşulları: Gürültü, ışık, sıcaklık gibi dış faktörler.
- Puanlayıcı tutumu: Yorgunluk, hoşgörü, hale etkisi.
KPSS İpucu: Güvenirlik türü ayrımında kaç uygulama sorusunu sor: tek uygulama → iç tutarlılık (KR / Cronbach / split-half); iki uygulama aynı test → test-tekrar test; iki uygulama farklı paralel test → paralel form. Açık uçlu sınavda iki puanlayıcı varsa puanlayıcılar arası güvenirlik.
Geçerlik ve Güvenirlik İlişkisi: Hiyerarşi ve Yön
Geçerlik ve güvenirlik birbirinden bağımsız değildir. Aralarında tek yönlü bir ilişki vardır ve sınav sorularının çoğu bu ilişkinin yönünü doğru anlamayı test eder.
Temel İlke: Güvenirlik Geçerliğin Ön Koşuludur
- Bir test güvenilir olmadan geçerli olamaz.
- Bir test güvenilir olabilir ama geçerli olmayabilir.
- Bir test geçerliyse aynı zamanda güvenilirdir.
Mantık Tablosu
| Durum | Sonuç |
|---|---|
| Geçerli | Mutlaka güvenilir (zorunlu) |
| Geçerli değil | Güvenilir olabilir veya olmayabilir |
| Güvenilir | Geçerli olabilir veya olmayabilir |
| Güvenilir değil | Mutlaka geçerli değildir (zorunlu) |
Klasik Hedef Tahtası Benzetmesi
Üç hedef tahtası senaryosu ile ilişki net görülür:
- Birinci tahta: Tüm oklar merkeze yakın ve birbirine yakın → geçerli ve güvenilir. (İdeal durum)
- İkinci tahta: Tüm oklar köşede ama birbirine yakın → güvenilir ama geçerli değil. (Tutarlı yanlış)
- Üçüncü tahta: Oklar her yere dağılmış → ne güvenilir ne geçerli. (Tamamen hatalı)
"Merkeze yakın ama dağınık" diye bir senaryo mümkün değildir; çünkü dağılım varsa tutarlılık yok demektir, yani güvenirlik düşük; güvenirlik düşükse geçerlik de düşüktür.
Pratik Senaryolar
- Bir terazi sürekli 2 kg fazla gösteriyorsa: tutarlı yanlış → güvenilir ama geçerli değil.
- Bir terazi her tartımda farklı sayı gösteriyorsa: ne güvenilir ne geçerli.
- Bir terazi her tartımda doğru sayıyı gösteriyorsa: geçerli ve dolayısıyla güvenilir.
Ölçme Aracında Hangi Hata Hangi Niteliği Etkiler?
Geçerlik ve güvenirlik ilişkisini kavramanın bir başka yolu hata türlerini izlemektir:
- Sabit hata sıralamayı bozmadığı için güvenirliği etkilemez; ancak ölçümün doğru değeri üretmemesine yol açtığı için geçerliği düşürür. Bu durum "güvenilir ama geçerli değil" senaryosunun klasik örneğidir.
- Tesadüfi hata ölçümleri rastgele dağıttığı için güvenirliği doğrudan düşürür; güvenirlik düştüğü için geçerlik de düşer. Bu durum "ne güvenilir ne geçerli" senaryosudur.
- Hatasız ölçümlere yaklaşıldığında her iki nitelik de yükselir; bu "geçerli ve güvenilir" idealine karşılık gelir.
KPSS İpucu: Kısa kural: "Her geçerli ölçme güvenilirdir, ama her güvenilir ölçme geçerli değildir." Sınav sorusunda bu cümlenin yön ihlal edilmiş hali hatalı seçenektir. "Güvenilir her test geçerlidir" sözü yanlıştır.
Dikkat: Klasik tuzak: senaryoda "test farklı zamanlarda farklı sonuç verdi" denirse güvenirlik düşüktür ve dolayısıyla geçerlik de düşüktür. "Test sürekli 5 puan eksik gösterdi" denirse güvenilir ama geçerli değildir; sabit hata vardır.
Kullanışlılık: Maliyet, Zaman, Uygulama, Puanlama
Kullanışlılık, ölçme aracının pratik açıdan ekonomik ve uygulanabilir olmasıdır. Üç temel niteliğin en alt sırasında yer alır; geçerlik ve güvenirlik bulunmadan kullanışlılık tek başına yeterli değildir, ancak iyi bir aracın bu özelliği taşıması beklenir.
Kullanışlılığın Beş Boyutu
- Hazırlama Kolaylığı: Aracın geliştirilmesi için harcanan emek ve zaman. Çoktan seçmeli test hazırlamak performans değerlendirmeden daha kolaydır.
- Uygulama Kolaylığı: Aracın saha uygulamasının kolay olması. Bireysel zekâ testleri grup uygulamalı testlerden daha az kullanışlıdır.
- Puanlama Kolaylığı: Cevapların değerlendirilmesinin kolay ve hızlı olması. Optik okuyucu ile puanlanabilen testler kullanışlıdır; açık uçlu sorular el ile okunduğu için kullanışlılığı düşüktür.
- Maliyet Düşüklüğü: Materyal, zaman ve insan kaynağı açısından ekonomiklik.
- Yorum Kolaylığı: Sonuçların anlaşılır ve raporlanabilir olması.
Tipik Senaryolar
- Yüksek kullanışlılık: Çoktan seçmeli test (hızlı puanlama, geniş kitle, optik okuma).
- Düşük kullanışlılık: Performans değerlendirme, portfolyo, mülakat (uzun süre, bireysel uygulama, öznel puanlama).
Üç Niteliğin Birlikte Değerlendirilmesi
Bir test yalnızca kullanışlı olduğu için tercih edilmez. Geçerli, güvenilir ve kullanışlı olduğunda en iyi seçimdir. Ancak kullanışlılık, geçerlik ve güvenirlik aynı düzeydeyken iki araç arasında karar verici olur.
Hiyerarşi Cümlesi
Bir ölçme aracı için "önce geçerli, sonra güvenilir, sonra kullanışlı olmalı" ilkesi hiçbir zaman ihlal edilmez. Çok kullanışlı ama geçersiz bir aracı tercih etmek profesyonel hata sayılır.
Pratik Karar Tablosu — Hangi Aracı Seçmeli?
| Amaç | Uygun Araç | Sebep |
|---|---|---|
| Geniş kitleye seçme sınavı | Çoktan seçmeli | Yüksek kullanışlılık + objektiflik |
| Üst düzey beceri ölçümü | Performans + rubrik | Yüksek geçerlik |
| Süreç odaklı izleme | Portfolyo | Süreç verisi + bireyselleştirme |
KPSS İpucu: Kullanışlılık tetik kelimeleri: "ekonomik", "kısa sürede", "hızlı puanlama", "az maliyet", "geniş kitle". Senaryoda bunlar geçiyorsa cevap kullanışlılıktır.
Dikkat: Klasik sınav tuzağı: bir araç çok kullanışlı olabilir ama geçerliği veya güvenirliği düşük olabilir. Örneğin "5 dakikalık 5 soruluk test" çok kullanışlıdır ancak kapsam geçerliği düşüktür; konunun tamamını temsil edemez.
Ölçmede Hata Türleri: Sabit, Sistematik, Tesadüfi
Hiçbir ölçme tam doğru değildir; her ölçmede mutlaka belirli bir hata payı bulunur. Hatalar üç türe ayrılır: sabit, sistematik, tesadüfi. Bu sınıflandırma, hata kaynağının tespiti ve düzeltme yöntemi için kritiktir.
Sabit Hata
Tanım: Tüm ölçüm sonuçlarına aynı miktarda eklenen veya çıkarılan hatadır. Yön ve büyüklük sabittir.
- Örnek: Bir terazi her tartımda 200 g fazla gösteriyor. Bir öğretmen tüm öğrencilere kâğıt başına 5 puan ekliyor.
- Kaynak: Aracın kalibrasyon hatası, puanlayıcının sistematik tutumu.
- Etkisi: Sıralamayı değiştirmez; ortalamayı kaydırır. Geçerliliği düşürür ancak güvenirliği etkilemez.
Sistematik (Yanlı) Hata
Tanım: Belirli bir kaynaktan düzenli oluşan hatadır. Sabit hatadan farkı, miktarın kişiden kişiye değişebilmesidir.
- Örnek: Hale etkisi (öğrenci ders davranışı iyiyse sınavda da iyi puan alma eğilimi). Cinsiyet, çevre veya tanışıklık etkisiyle bir gruba sürekli yüksek not verme.
- Kaynak: Puanlayıcı önyargısı, kültürel etken, dil avantajı, soru sıralama etkisi.
- Etkisi: Hem güvenirliği hem geçerliği düşürür. Düzeltilmesi zordur; nesnel araç ve rubrik kullanımı azaltır.
Tesadüfi (Rastgele) Hata
Tanım: Kaynağı belli olmayan, rastgele ortaya çıkan, kişiden kişiye ve ölçümden ölçüme farklı olan hatadır.
- Örnek: Sınav sırasında dışarıdan gelen bir gürültü, öğrencinin o gün hasta olması, dikkat eksikliği, sınav salonundaki sıcaklık değişimi.
- Kaynak: Anlık koşullar, öğrenci ruh hâli, dış uyarıcılar.
- Etkisi: Güvenirliği doğrudan düşürür; tekrar uygulamada farklı sonuçlar üretir. Geçerliği de etkiler.
Hatanın Kaynakları
Ölçme hatası dört ana kaynaktan beslenir:
- Ölçme aracı: Aracın kalibrasyon hatası, soru ifadelerinin belirsizliği, çeldirici zayıflığı.
- Uygulayan / puanlayan kişi: Yorgunluk, önyargı, hale etkisi, yetersiz eğitim.
- Ölçülen birey: O günkü ruh hâli, motivasyon, dikkat dağınıklığı, sınav kaygısı.
- Çevresel koşullar: Aydınlatma, gürültü, sıcaklık, oturma düzeni.
Hata Türlerinin Karşılaştırması
| Hata | Yön | Miktar | Güvenirliğe Etki |
|---|---|---|---|
| Sabit | Tek yön | Aynı | Etkilemez |
| Sistematik | Tek yön | Değişken | Düşürür |
| Tesadüfi | Rastgele | Değişken | Düşürür (en çok) |
KPSS İpucu: Hata türü ayrımında iki soru: hata aynı miktarda mı (sabit) yoksa kişiden kişiye değişiyor mu (sistematik / tesadüfi)? Hata düzenli bir kaynaktan mı (sistematik) yoksa rastgele mi (tesadüfi) oluşuyor? Bu iki soru türü kesinleştirir.
Dikkat: Klasik sınav tuzağı: "Tüm öğrencilere 5 puan ek vermek" → sabit hata. "Hale etkisiyle parlak öğrenciye yüksek not verme" → sistematik hata. "Sınav sırasında gürültü" → tesadüfi hata. Üçü de hatadır ancak farklı türlerdir.
Madde Analizi: Madde Güçlüğü (p) ve Ayırt Ediciliği (d)
Madde analizi, bir testin uygulanmasından sonra her sorunun nicel olarak değerlendirilmesidir. İki temel indeks vardır: madde güçlüğü (p) ve madde ayırt ediciliği (d). KPSS'de bu indekslerin formülleri ve ideal değer aralıkları sıkça sorulur.
Madde Güçlüğü (p)
Tanım: Bir maddeye doğru cevap veren öğrencilerin oranıdır. 0 ile 1 arasında değer alır.
Formül: p = (Doğru cevap sayısı) / (Toplam cevaplayıcı sayısı)
- p = 0: Hiç kimse doğru cevap verememiş → çok zor.
- p = 1: Herkes doğru cevap vermiş → çok kolay.
- p = 0,50: İdeal güçlük. En yüksek ayırt edici güç bu civarda elde edilir.
Kabul aralığı: 0,30 - 0,70 arası iyi sayılır. 0,30 altı çok zor, 0,70 üstü çok kolay maddeler test geliştirmede çıkarılmaya aday olur.
Madde Ayırt Ediciliği (d)
Tanım: Bir maddenin, iyi öğrenenleri kötü öğrenenlerden ayırt edebilme derecesidir. -1 ile +1 arasında değer alır.
Formül: d = p_üst − p_alt
- p_üst: Üst grubun doğru cevap oranı (genellikle en başarılı %27).
- p_alt: Alt grubun doğru cevap oranı (genellikle en başarısız %27).
Ayırt Edicilik Değer Yorumu
| d Değeri | Yorum | Karar |
|---|---|---|
| ≥ 0,40 | Çok iyi | Aynen kullanılır |
| 0,30 - 0,39 | İyi | Kullanılır |
| 0,20 - 0,29 | Orta | Düzeltilmeli |
| < 0,20 | Düşük | Çıkarılır |
| Negatif (d < 0) | Hatalı | Mutlaka çıkarılır |
Negatif d değeri çok kritiktir: alt grup üst gruptan daha fazla doğru cevap vermiş demektir. Bu, sorunun cevabının yanlış kodlandığı veya soruda hata olduğu anlamına gelir; soru mutlaka çıkarılmalı veya düzeltilmelidir.
Tipik Hesaplama Örneği
100 öğrencilik bir sınıfta üst %27 = 27 öğrenci, alt %27 = 27 öğrenci alınır. Bir maddede üst grubun 22'si, alt grubun 8'i doğru yapmıştır. Hesaplama:
- p_üst = 22/27 = 0,81
- p_alt = 8/27 = 0,30
- d = 0,81 − 0,30 = 0,51 → çok iyi ayırt edici.
- Genel p = 30/54 = 0,55 → orta güçlük (üst+alt grup ortalaması).
p ve d Arasındaki İlişki
Madde güçlüğü 0,50 civarındayken ayırt edicilik en yüksek değerine ulaşır. Çok kolay (p ≥ 0,90) veya çok zor (p ≤ 0,10) maddelerde ayırt edicilik düşer; çünkü neredeyse herkes doğru veya yanlış yapmıştır, gruplar arası fark oluşamaz.
Çeldirici Analizi
Çoktan seçmeli testlerde her seçeneğin (çeldiricinin) ne kadar işlev gördüğü de incelenir. Etkili çeldirici şu özelliklere sahiptir:
- Alt grup öğrencileri tarafından yeterince işaretlenir (genellikle her çeldirici en az %5 işaretlenmeli).
- Üst grup öğrencileri tarafından az işaretlenir; çünkü üst grup doğru cevabı bulur.
- Hiç işaretlenmeyen çeldirici işlev görmüyor demektir; testte yeri yoktur, değiştirilmelidir.
Çeldirici analizi madde analizinin bir parçasıdır ve testin hem güvenirliğine hem geçerliğine katkı sağlar.
KPSS İpucu: Madde analizi sorularında üç sayı: p (güçlük) 0-1, d (ayırt edicilik) -1/+1, ideal p ≈ 0,50, ideal d ≥ 0,40. Negatif d değerini gören soruyu mutlaka çıkar; bu kalıp her sınavda en az bir kez çıkar.
Dikkat: Klasik tuzak: madde güçlüğü oran verir, ayırt edicilik fark verir. p her zaman 0-1 arası, d ise -1 ile +1 arası. Sınav sorusunda "−0,15 ayırt edicilik" görürseniz cevap "soru hatalı, çıkarılmalı" olmalıdır.
Çözümlü Sınav Senaryoları
Aşağıda KPSS'de bu üniteden gelmesi muhtemel altı klasik senaryo, ayrım anahtarları ve doğru cevap mantığı ile birlikte verilmiştir. Senaryolar tetik kelimelere dikkat çekmek için seçilmiştir.
Senaryo 1 — Ölçek Türü Ayırma
Senaryo: "Ahmet sınavda 80, Ayşe 40 puan aldı. Buna göre Ahmet, Ayşe'den iki kat daha bilgilidir." Bu yargı doğru mudur?
Çözüm: Sınav puanı eşit aralıklı ölçektir; gerçek sıfır noktası yoktur (0 puan, hiçbir bilginin olmadığı anlamına gelmez). Eşit aralıklı ölçeklerde oranlama yapılamaz. Bu yüzden "iki kat" yargısı yanlıştır.
Cevap: Yargı yanlıştır; çünkü sınav puanı eşit aralıklı ölçektir.
Senaryo 2 — Mutlak ya da Bağıl Ölçüt
Senaryo: Bir kurumda iki ayrı sınav yapılıyor. Birincide "60 ve üzeri puan alan başarılı"; ikincide "ilk 50'ye giren işe alınır" denmektedir. Ölçütler hangi tür değerlendirmeye aittir?
Çözüm: "60 puan" ifadesi gruptan bağımsız sabit bir standarttır → mutlak ölçüt. "İlk 50'ye girmek" sıralamaya, dolayısıyla grup performansına bağlıdır → bağıl ölçüt.
Cevap: Birinci sınav mutlak, ikincisi bağıl ölçüt kullanır.
Senaryo 3 — Geçerlik mi Güvenirlik mi?
Senaryo: Bir terazi her tartımda aynı 2 kg fazla sonuç vermektedir. Bu terazi nasıl bir araçtır?
Çözüm: Terazi tutarlıdır (aynı sonucu veriyor), bu nedenle güvenilirdir. Ancak gerçek ağırlığı doğru ölçmediği için geçerli değildir. Hata türü: sabit hata.
Cevap: Güvenilir ama geçerli olmayan bir araç.
Senaryo 4 — Geçerlik Türü Ayrımı
Senaryo: Bir öğretmen hazırladığı testin müfredattaki tüm üniteleri ve hedef davranışları kapsayıp kapsamadığını kontrol etmek için bir tablo hazırlamaktadır. Hangi geçerlik türü ve hangi araçtan söz edilmektedir?
Çözüm: "Müfredattaki ünite ve hedeflerin kapsanması" → kapsam geçerliği. Bu geçerliği artırmak için kullanılan araç → belirtke tablosu. Yapı geçerliği ile karıştırılmamalı; yapı, soyut kuramsal kavramları ölçer.
Cevap: Kapsam geçerliği — belirtke tablosu.
Senaryo 5 — Güvenirlik Yöntemi
Senaryo: 50 maddelik bir tutum ölçeğinin maddelerinin birbirleriyle uyumlu olup olmadığını tek bir uygulama ile incelemek isteyen bir araştırmacı en uygun olarak hangi yöntemi kullanır?
Çözüm: Tek uygulama → iç tutarlılık. Tutum ölçeği maddeleri çok kategorili (likert tipi) olduğu için → Cronbach Alfa (α). KR-20 doğru-yanlış maddelerde, test-tekrar test ise iki uygulamada kullanılır.
Cevap: Cronbach Alfa katsayısı.
Senaryo 6 — Hata Türü Sınıflama
Senaryo: Bir öğretmen sınav kâğıtlarını okurken sınıfın gözde öğrencisinin yazısını gördüğünde fark etmeksizin daha hoşgörülü puanlama yapmaktadır. Bu durum hangi hata türünü ifade eder?
Çözüm: Hata öğrenciden öğrenciye değişiyor (hepsine aynı değil) ve belirli bir kaynaktan düzenli oluşuyor (öğrenci tanışıklığı). Bu sistematik hatanın klasik örneği olan hale etkisidir.
Cevap: Sistematik hata (hale etkisi).
KPSS İpucu: Senaryo sorularında üç adımlı çözüm: tetik kelimeyi tespit et, hangi kavram ailesine ait olduğunu belirle, en kapsayıcı seçeneği işaretle. İki güçlü aday varsa kavramın tanım sınırını düşün (örneğin "müfredat" → kapsam değil yapı geçerliği değildir).
Üst Düzey Kavramlar: Duyarlılık, Objektiflik, Ayırıcılık
Geçerlik, güvenirlik ve kullanışlılığın yanında ölçme aracının kalitesini etkileyen üç tamamlayıcı nitelik daha vardır: duyarlılık, objektiflik ve ayırıcılık. KPSS'de daha az sorulsa da senaryolarda ipucu olarak görünebilir.
Duyarlılık (Hassasiyet)
Tanım: Ölçme aracının bireyler arasındaki küçük farkları ayırt edebilme gücüdür. Birim ne kadar küçükse araç o kadar duyarlıdır.
- Mutfak terazisi 1 g'a, hassas terazi 0,001 g'a kadar ölçebilir; ikincisi daha duyarlıdır.
- Bir testte 5'lik puanlama yerine 1'lik puanlama daha duyarlıdır.
- Tetik kelime: "küçük farkları ayırt etmek", "ince ayrıntı", "hassas ölçüm".
Objektiflik (Nesnellik)
Tanım: Ölçme sonucunun puanlayıcıdan puanlayıcıya değişmemesi özelliğidir. Aynı kâğıt farklı puanlayıcılar tarafından okunduğunda aynı puan elde edilmelidir.
- Çoktan seçmeli testler en objektif araçlardır.
- Açık uçlu sorular ve kompozisyonlarda objektiflik düşüktür; rubrik kullanımı objektifliği artırır.
- Objektiflik puanlayıcılar arası güvenirlik ile ölçülür.
- Tetik kelime: "puanlayıcıdan bağımsız", "iki öğretmen aynı puanı verdi", "öznellik düşük".
Ayırıcılık (Discrimination)
Tanım: Ölçme aracının başarılı ile başarısız öğrencileri ayırt edebilme derecesidir. Madde analizinde ele alınan ayırt edicilik (d) bu kavramın somut göstergesidir.
- Bir test başarılı öğrencilerin yüksek, başarısızların düşük puan almasına yol açıyorsa ayırıcıdır.
- Aşırı kolay veya aşırı zor testler ayırıcılık üretemez.
- Tetik kelime: "iyi öğrenciyi kötü öğrenciden ayırma", "üst-alt grup farkı".
Üç Niteliğin Birbirleriyle İlişkisi
- Duyarlılık birim hassasiyeti ile ilgilidir; küçük farklar ölçülür.
- Objektiflik puanlayıcı bağımsızlığı ile ilgilidir; aynı sonuç elde edilir.
- Ayırıcılık grupları ayırma ile ilgilidir; iyi-kötü ayrımı yapılır.
Tamamlayıcı Niteliklerin Pratik Etkileri
Bir testin yalnızca üç temel niteliği değil, bu üç tamamlayıcı niteliği de aynı anda iyileştirilmek istenir. Birim küçültmek (puanlama 5'lik yerine 1'lik yapmak) duyarlılığı artırır; rubrik kullanımı objektifliği artırır; orta güçlükte madde seçimi ayırıcılığı artırır. Bu üç stratejiyi birlikte uygulayan testler hem geçerlik hem güvenirlik açısından üst düzeye ulaşır.
KPSS İpucu: Üç niteliği ayırırken kendine sor: araç birey içinde küçük fark mı ölçüyor (duyarlılık), puanlayıcılar arasında tutarlılık mı sağlıyor (objektiflik) yoksa gruplar arası fark mı yakalıyor (ayırıcılık)?
Dikkat: Objektiflik ile güvenirlik karıştırılmasın. Güvenirlik testin tutarlılığıdır; objektiflik ise puanlayıcılar arası uyumdur. Objektiflik güvenirliğin bir alt boyutu sayılır; objektif ölçme genellikle güvenilir, öznel ölçme genellikle güvenilir değildir.
Alternatif Ölçme ve Değerlendirme Araçları
Klasik çoktan seçmeli ve yazılı sınavların yanında yapılandırmacı paradigmayla birlikte sınıfa giren araçlar, öğrencinin süreç içinde sergilediği davranışları ve üst düzey becerilerini ölçer. Bu araçların ayrıntılı puanlama tekniği bir sonraki rehberde (Ölçme — İstatistik ve Test Araçları) işlenir; bu bölümde her aracın tetik kelimesi ve ayırt edici özelliği kısaca özetlenir ki sınav senaryolarında karıştırılmasın.
Üst Düzey Bilişsel Ölçme Araçları
| Araç | Yapı / İşleyiş | Tetik Kelime |
|---|---|---|
| Yapılandırılmış Grid | 9-12 küçük kareye yerleştirilmiş kavram, sayı veya görsel; öğrenci bir soruya uyan kareleri seçer ve mantıklı bir sıraya dizer. Hem doğru kareleri seçme hem doğru sıralama puanlanır. | 9'lu/12'li kare, "uygun olanları seç ve sırala" |
| Tanılayıcı Dallanmış Ağaç | Doğru/yanlış tarzı ardışık önermelerde her cevaba göre farklı dala yönlendirilir; öğrenci ağaçta ilerleyerek sonuca ulaşır. Yanılgıların hangi adımda oluştuğu izlenebilir. | Doğru-yanlış dal, ardışık karar, hata dalı |
| Kavram Haritası (Ölçme Aracı Olarak) | Topic 4'te teknik olarak işlenen aracın ölçme kullanımı: öğrencinin ürettiği harita kavramları, bağlantıları ve hiyerarşisini gösterir; rubrikle puanlanır. Bilişsel yapı haritalanır. | Merkezi kavram, bağlantı çizgileri, bilişsel yapı |
| Anlam Çözümleme Tablosu | İki eksende kavram-özellik matrisi; öğrenci her hücrede ilişki olup olmadığını işaretler. Sınıflama becerisini ölçer. | İki boyutlu kavram-özellik matrisi |
| Kelime İlişkilendirme Testi | Anahtar bir kavram verilir; öğrenci sınırlı sürede aklına gelen ilişkili kelimeleri yazar. Kavramsal genişlik ve şema haritalanır. | Anahtar kavram, çağrışım listesi |
Süreç ve Performans Değerlendirme Araçları
| Araç | Yapı / İşleyiş | Tetik Kelime |
|---|---|---|
| Performans Görevi | Öğrenci gerçek hayata yakın kısa süreli bir görevi (deney, sunum, model) tek başına ya da grupla yerine getirir. Süreç ve ürün birlikte değerlendirilir. | Gerçek hayat görevi, gözlenebilir uygulama |
| Proje Görevi | Performans görevinin uzun süreli ve disiplinler arası hâli. Süre haftalar/aylardır; sonunda somut ürün ortaya çıkar. | Uzun süreli, disiplinler arası, somut ürün |
| Portfolyo (Ürün Dosyası) | Öğrencinin dönem boyunca ürettiği seçilmiş çalışmaların biriktiği klasör. Gelişim sürecini, üst bilişsel düşünmeyi ve öz seçimi gösterir. | Süreç boyunca biriktirme, gelişim izleme |
| Gözlem Formu | Önceden belirlenmiş davranış listesinin (kontrol listesi veya derecelendirme) öğretmen tarafından sınıf içinde sistematik olarak işaretlendiği araç. | Davranış listesi, sistematik gözlem |
| Görüşme | Öğretmen-öğrenci yüz yüze sözel etkileşimle bilgi/tutum/üst biliş ölçümü. Yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış olabilir. | Yüz yüze sözel, sondaj soru |
Öz, Akran ve Rubrik ile Değerlendirme
| Araç | Kim Değerlendirir? | Asıl Hedef |
|---|---|---|
| Öz Değerlendirme | Öğrenci kendisini | Üst biliş, öz farkındalık, sorumluluk |
| Akran Değerlendirmesi | Sınıf arkadaşı arkadaşını | Sosyal beceri, eleştirel düşünme, geri bildirim verme |
| Rubrik (Dereceli Puanlama Anahtarı) | Öğretmen veya akran (rubrik kullanır) | Performans/proje görevini ölçütlere göre nesnelleştirme. Bütüncül veya analitik olabilir. |
| Kontrol Listesi | Öğretmen veya öğrenci | Bir davranışın/ürünün gerçekleşip gerçekleşmediğini iki seçenekle (var/yok) işaretleme |
KPSS İpucu — Hızlı Tetik: "9'lu kare + sırala" → yapılandırılmış grid; "doğru-yanlış dalları" → tanılayıcı dallanmış ağaç; "merkezi kavramdan dallanan harita" → kavram haritası; "öğrenci kendi gelişimini izledi/dosyasını biriktirdi" → portfolyo; "sınıf arkadaşı puanladı" → akran değerlendirme; "ölçütlü puanlama anahtarı" → rubrik.
Dikkat — Performans vs Proje: İki araç da "yaparak öğrenme"yi ölçer; ayırt edici fark süredir. Performans kısa süreli (bir ders, bir hafta); proje uzun süreli (haftalar/aylar) ve genellikle disiplinler arasıdır. Senaryoda "üç ayda bir model üretti" geçiyorsa proje; "ders saatinde deneyi yaptı" geçiyorsa performans görevidir.
Ünitenin Üç Adımlı Hazırlık Planı ve Özet
Ölçme ve Değerlendirme — Temel Kavramlar ünitesi geniş bir kavram ağı içerir. Sınav öncesinde son hafta verimli kullanılırsa bu ünite KPSS'de en yüksek net üretebilen üç üniteden biri haline gelir. Aşağıdaki üç adımlı hazırlık planı bu hedefe yönelik tasarlanmıştır.
Birinci Adım: Karşılaştırma Tablolarını Tek Sayfaya Yaz
Ünitenin altı temel karşılaştırma tablosunu tek sayfaya el yazısıyla yaz. Yazma işi ezberi pekiştirir. Bu altı tablo şudur:
- Ölçme türleri (doğrudan / dolaylı / türetilmiş).
- Ölçek türleri (sınıflama / sıralama / eşit aralıklı / eşit oranlı).
- Değerlendirme türleri (tanılayıcı / biçimlendirici / düzey belirleyici).
- Mutlak ile bağıl ölçüt.
- Geçerlik türleri (kapsam / yapı / yordama / uyum / görünüş).
- Güvenirlik türleri (test-tekrar test / paralel form / iç tutarlılık / puanlayıcılar arası).
İkinci Adım: Tetik Kelime Listesini Ezberle
Senaryo sorularının tamamı tetik kelimeler üzerine kuruludur. En kritik tetiklerin listesi:
- "Müfredat / üniteler" → kapsam geçerliği.
- "Soyut kavram / kuramsal yapı" → yapı geçerliği.
- "6 ay sonra / gelecekte" → yordama geçerliği.
- "Aynı anda / eş zamanlı" → uyum geçerliği.
- "İki kez aynı test" → test-tekrar test güvenirliği.
- "İki paralel test" → paralel form güvenirliği.
- "Tek uygulama, çok kategorili madde" → Cronbach Alfa.
- "Tek uygulama, doğru-yanlış" → KR-20 / KR-21.
- "İki puanlayıcı" → puanlayıcılar arası güvenirlik / objektiflik.
- "Tüm öğrencilere aynı miktar eklendi" → sabit hata.
- "Hale etkisi / önyargı" → sistematik hata.
- "Gürültü / ruh hâli" → tesadüfi hata.
- "Önceden 70 puan" → mutlak ölçüt.
- "İlk 50 / ilk %20" → bağıl ölçüt.
Üçüncü Adım: Sık Karıştırılan Üçlü Çiftleri Pekiştir
Sınav tuzaklarının yoğunlaştığı dört kritik ikili:
- Eşit aralıklı vs eşit oranlı: Tek fark gerçek sıfır. Sıcaklık, takvim, başarı puanı eşit aralıklı; boy, kilo, para eşit oranlı.
- Kapsam vs yapı geçerliği: Müfredat = kapsam; soyut kavram = yapı.
- Mutlak vs bağıl ölçüt: Sabit puan = mutlak; sıralama / oran = bağıl.
- Sabit vs sistematik hata: Aynı miktar = sabit; değişken miktar düzenli kaynak = sistematik.
Geçerlik-Güvenirlik İlişkisi: Tek Cümlelik Anahtar
"Her geçerli ölçme güvenilirdir, fakat her güvenilir ölçme geçerli değildir." Bu cümleyi sınav anında zihinde tutan aday geçerlik-güvenirlik ilişkisi sorularını kaybetmez.
Ünitenin Üç Cümlelik Özeti
Birinci cümle: Ölçme bir özelliği sayı veya sembolle ifade etme süreci, değerlendirme ölçüm sonucunu bir ölçütle karşılaştırarak karar verme sürecidir; ikisi sıralı ama farklı kavramlardır. İkinci cümle: Ölçek türleri (sınıflama-sıralama-eşit aralıklı-eşit oranlı), değerlendirme türleri (tanılayıcı-biçimlendirici-düzey belirleyici) ve ölçüt türleri (mutlak-bağıl) sınavda sürekli karşımıza çıkan üç ana ayrımdır. Üçüncü cümle: Ölçme aracının üç temel niteliği (geçerlik > güvenirlik > kullanışlılık) sıralı bir hiyerarşi oluşturur; geçerlik güvenirliği kapsar, hata türleri bu nitelikleri farklı yönlerden etkiler, madde analizi (p ve d) ise testin niteliğini somut sayılarla değerlendirir.
Bir Sonraki Konuya Köprü
Bu ünitede ölçme ve değerlendirmenin temel kavramları ile ölçme aracı niteliklerini ele aldık. Bir sonraki konu olan Ölçme — İstatistik ve Test Araçları bölümünde merkezi eğilim ölçüleri (ortalama, medyan, mod), merkezi yayılma ölçüleri (standart sapma, ranj, varyans), normal dağılım ve test türleri (çoktan seçmeli, açık uçlu, performans, portfolyo, rubrik) işlenecektir. İstatistik kavramları bu üniteyi sayısal araçlarla tamamlayacak, test türleri ise hangi durumda hangi ölçme aracının seçileceğine ilişkin pratik rehber sunacaktır.
Özet: Bu ünite KPSS Eğitim Bilimleri sınavının en stratejik ünitelerindendir. Karşılaştırma tabloları, tetik kelimeler ve sık karıştırılan ikiliklere hâkim olan aday yıllık 4-5 net çıkarmayı kolaylıkla başarır. İstatistik bölümünde kavramları sayısal verilerle tamamlamaya hazır olun.
Bu Makaleden
Anahtar Bilgiler
- Ölçme: bir özelliği sayı veya sembolle ifade etme süreci; üç unsuru özellik, birim ve kuraldır.
- Ölçme türleri: doğrudan (boy-kilo), dolaylı (zekâ-tutum-başarı), türetilmiş (hız-yoğunluk).
- Sıfır kavramı: gerçek sıfır özelliğin yokluğunu ifade eder, yapay sıfır anlaşmaya dayalıdır.
- Ölçek türleri: sınıflama (kategori), sıralama (büyüklük), eşit aralıklı (eşit fark, yapay sıfır), eşit oranlı (eşit fark, gerçek sıfır).
- Sınav puanı eşit aralıklı ölçektir; "iki kat bilgili" gibi oranlama yapılamaz çünkü 0 puan bilgi yokluğu anlamına gelmez.
- Değerlendirme: ölçüm + ölçüt = karar; ölçme yapılmadan değerlendirme yapılamaz, ölçme yapılıp değerlendirme yapılmayabilir.
- Değerlendirme türleri: tanılayıcı (önce, yerleştirme), biçimlendirici (sırasında, eksik tamamlama, nota katılmaz), düzey belirleyici (sonunda, geçti-kaldı kararı, nota katılır).
- Mutlak ölçüt önceden gruptan bağımsız belirlenir (60 ve üzeri başarılı), bağıl ölçüt grup performansına göre belirlenir (ilk 50, ortalama üstü).
- Ölçme aracının üç temel niteliği hiyerarşik sırayla: geçerlik > güvenirlik > kullanışlılık.
- Geçerlik türleri: kapsam (müfredat-belirtke tablosu), yapı (soyut kuramsal yapı), görünüş (yüzeysel izlenim), yordama (gelecek tahmin), uyum (eş zamanlı).
- Güvenirlik türleri: test-tekrar test (iki uygulama aynı test), paralel form (iki uygulama eşdeğer test), iç tutarlılık (KR-20 doğru-yanlış, Cronbach alfa likert), puanlayıcılar arası (objektiflik).
- Geçerlik-güvenirlik ilişkisi tek yönlüdür: her geçerli ölçme güvenilirdir, ama her güvenilir ölçme geçerli değildir.
- Kullanışlılık: hazırlama-uygulama-puanlama kolaylığı + maliyet düşüklüğü; en az önemli niteliktir ancak iki eşdeğer araç arasında karar verici olabilir.
- Hata türleri: sabit (aynı miktar tüm ölçümlere, sıralamayı bozmaz, güvenirliği etkilemez), sistematik (düzenli kaynak, kişiden kişiye değişir, hale etkisi), tesadüfi (rastgele, güvenirliği en çok düşürür).
- Madde güçlüğü (p): doğru cevap oranı; 0-1 arası, ideal 0,30-0,70, en yüksek ayırt edicilik p=0,50 civarında.
- Madde ayırt ediciliği (d): üst grup oranı − alt grup oranı; -1/+1 arası, d≥0,40 çok iyi, d<0,20 çıkarılır, negatif d soruda hata vardır mutlaka çıkarılır.
- Tamamlayıcı nitelikler: duyarlılık (küçük farkları ayırma), objektiflik (puanlayıcı bağımsızlığı, puanlayıcılar arası güvenirlik), ayırıcılık (gruplar arası fark).
- Sınav tetikleri: müfredat→kapsam, soyut kavram→yapı, 6 ay sonra→yordama, eş zamanlı→uyum, iki paralel test→paralel form, tek uygulama likert→Cronbach alfa, hale etkisi→sistematik hata.
Öğrendiklerini Pekiştir
Bu konuda kendini sına
Sıkça Sorulanlar
Bu konuda merak edilenler
Ölçme ve Değerlendirme — Temel Kavramlar ve Ölçme Aracı Nitelikleri konusu KPSS sınavında çıkar mı?
Evet, Ölçme ve Değerlendirme — Temel Kavramlar ve Ölçme Aracı Nitelikleri konusu KPSS sınav müfredatında yer almaktadır. SoruCozme'de bu konuya özel test soruları ve konu anlatımı bulunmaktadır.
Ölçme ve Değerlendirme — Temel Kavramlar ve Ölçme Aracı Nitelikleri konusunda test çözebilir miyim?
Evet, Ölçme ve Değerlendirme — Temel Kavramlar ve Ölçme Aracı Nitelikleri konusunda SoruCozme platformunda ücretsiz test soruları mevcuttur. Konu anlatımını okuduktan sonra hemen test çözerek öğrendiğinizi pekiştirebilirsiniz.
SoruCozme'de kaç soru ve kaç konu var?
SoruCozme platformunda 16.000+ soru ve 474 konu bulunmaktadır. KPSS, DGS, YDS, TYT, Ehliyet, İngilizce ve Açık Öğretim sınavlarına yönelik tüm içerikler ücretsizdir.
İlgili Video Anlatımları
Bu konunun videosu henüz hazır değil; benzer Eğitim Bilimleri konularını izleyebilirsin.



