Teori tes secara umum terbagi menjadi dua, yaitu teori tes klasik dan teori tes modern. Perbedaan mendasarnya adalah teori tes klasik berfokus pada paket tes dan teori tes modern berfokus pada item-item penyusun paket tes. Tes merupakan instrumen pengukuran atau alat ukur untuk mengetahui posisi seseorang dalam rentang kontinum kemampuan yang diujikan. Instrumen pengukuran yang baik adalah yang objektif, valid, dan reliabel.
Di banyak lingkungan pendidikan di seluruh dunia, termasuk Indonesia, teori tes klasik secara tradisional digunakan sebagai kerangka kerja untuk pengembangan tes, analisis tes, dan evaluasi. Teori tes klasik memberikan pendekatan langsung dan mudah diakses bagi guru untuk menganalisis sifat psikometrik tes mereka, seperti memperkirakan reliabilitas, mengevaluasi kualitas item, dan membuat kesimpulan tentang kinerja siswa.
Fokus teori tes klasik pada kualitas tes secara keseluruhan, tingkat kesulitan item, dan kemampuan diskriminasi item telah membuatnya menjadi kerangka kerja yang diadopsi secara luas untuk konstruksi dan analisis tes.Â
Dalam psikologi, hal ini merupakan patokan kualitas tes psikologi sebelum teori tes modern berkembang.
Dalam dunia pendidikan, hal ini memungkinkan guru untuk menginterpretasikan nilai ujian dan memberikan umpan balik yang bermakna kepada siswa berdasarkan kinerja relatif mereka.
Di sisi lain, teori tes modern secara umum terdiri atas Item Response Theory (IRT) dan Model Rasch. Kedua model ini merupakan kerangka kerja psikometri yang lebih maju dan semakin populer dalam beberapa tahun terakhir. IRT dan Rasch berfokus pada sifat-sifat item tes individu dan karakteristik peserta tes. Keduanya memperhitungkan kemungkinan respons yang benar terhadap item berdasarkan parameter item (misalnya, kesulitan item dan diskriminasi) dan tingkat kemampuan peserta tes. Keduanya memberikan pengukuran yang lebih tepat dengan mempertimbangkan karakteristik item dan individu yang diuji.
Teori yang lebih modern memiliki keunggulan dibandingkan teori tes klasik , terutama dalam hal analisis dan kalibrasi penilaian skala besar, pengujian adaptif terkomputerisasi, dan penyetaraan bentuk pengujian yang berbeda. Ini memungkinkan estimasi kemampuan individu yang lebih tepat dan kalibrasi item yang lebih baik. Namun, teori yang lebih modern ini membutuhkan teknik dan perangkat lunak statistik yang lebih canggih untuk implementasi dibandingkan dengan teori tes klasik .
Penggunaan IRT dan Rasch di bidang psikologi dan pendidikan, termasuk Indonesia, bergantung pada berbagai faktor seperti sumber daya yang tersedia, tingkat keahlian di antara para cendikiawan, psikolog, dn guru, serta konteks penilaian dan pengukuran yang spesifik.
IRT dan Rasch sudah banyak digunakan oleh berbagai lembaga pendidikan dan penelitian serta biro psikologi di Indonesia untuk analisis psikometri tingkat lanjut. Meskipun demikian, teori tes klasik masih umum digunakan dan berfungsi sebagai kerangka kerja yang praktis dan dapat diakses oleh banyak guru dalam pengembangan dan analisis tes.
Pada teori tes klasik, terdapat beberapa permasalahan. Berikut adalah berbagai permasalahan tersebut:
#1 Bergantung pada kelompok sampel
Kelompok sampel merupakan elemen yang sangat penting dalam teori tes klasik, karena hasil tes dan interpretasinya sangat bergantung pada kelompok sampel yang menjadi peserta tes tertentu. Dua hal yang sangat berpengaruh pada kelompok sampel dalam teori tes klasikadalah statistik item dan ukuran keajegan tes. Pada tingkat per item, statistik yang dihasilkan dalam teori tes klasik seperti tingkat kesulitan dan daya pembeda sangat bergantung pada kelompok sampel. Soal yang "mudah" pada kelompok sampel A bisa jadi merupakan soal yang "sulit" jika diujikan pada kelompok sampel lain dengan karakteristik yang mirip. Pada tingkat paket tes, reliabilitas sangat bergantung pada varians yang dihasilkan oleh kelompok sampel. Mengingat betapa berpengaruhnya kelompok sampel dalam teori tes klasik, sebaiknya mekanisme sampling yang dilakukan dengan benar.
#2 Menggunakan raw scores (skor mentah)
Kelemahan teori tes klasik adalah dalam nilai statistik yang dihasilkan dan keputusan yang diambil dari skor yang dijumlahkan (sum scores atau composite scores). Skor yang dijumlahkan tersebut bersifat mentah (raw scores), alias kalau metode skoringnya salah diwakilkan angka nol (0) dan benar diwakilkan angka satu (1), maka totalnya adalah penjumlahan angka 0 dan 1 tersebut. Kenyataannya, secara sederhana akan lebih adil jika item yang lebh sulit bernilai lebih tinggi jika benar. Teori tes klasik tidak mempertimbangkan hal ini, semua soal dipukul rata valuenya.
Dalam teori tes klasik, raw scores ini ada yang mengalami transformasi. Meskipun demikian, hakikat makna raw scores tidak berubah.
Masalahnya, measuring is not counting: mengukur tidak sama dengan menghitung. Penggunaan raw scores adalah proses menghitung, bukan mengukur. Meskipun demikian, menghitung dapat menjadi tahap awal dalam mengukur. Raw scores yang sudah didapatkan dari proses counting dapat ditransformasi ke ukuran linear agar ada equal interval. Hal inilah yang menjadi fokus teori tes modern yang tidak ada pada teori tes klasik
#3 Bergantung pada paket tes
Skor yang dihasilkan dalam teori tes klasik sangat bergantung pada paket tes yang digunakan, begitu pula interpretasi dari skor ini. Raw scores sulit dibandingkan antara paket-paket tes. Tes dengan skor yang hanya dijumlahkan tidak comparable. Hal ini disebabkan oleh tingkat kesukaran yang berbeda. Untuk skor yang sama, butuh raw scores yang berbeda di form yang berbeda. Misalnya, untuk mendapat skor 199, seseorang perlu menjawab 98 soal (dari 100 soal) dengan benar pada form A atau 99 soal pada form B. Hal ini mengindikasikan bahwa kemampuan yang sama akan mendapatkan skor yang berbeda di form yang berbeda.
#4 Kenyataannya, asumsi reliabel sulit dicapai
Reliabilitas terdiri atas beberapa jenis, yaitu split-half, test-retest, alternate form, dan internal consistency. Umumnya, reliabilitas dijelaskan sebagai konsistensi tes atau ekuivalensi tes pada penggunaan yang berulang-ulang. Sifat konsisten dan ekuivalen ini, yang disebut sebagai asumsi paralel dalam reliabilitas, pada kenyataannya sangat sulit untuk dicapai. Bisa jadi konten tes terlihat paralel, namun secara statistik tidak. Paralel secara statistik berarti sama nilai rata-ratanya dan sama variansnya. Hal ini disebabkan oleh homogenitas item dan heterogenitas sampel. Biasanya, ketika item homogen maka tes tidak efektif, dan ketika tes efektif maka item tidak homogen. Hal ini dapat diatasi dengan salah satu dati 2 cara, yaitu mengganti desain item atau mengganti proses matematis yang ada.
#5 Skor tidak mudah disetarakan dan dibandingkan
Isu yang dibahas di sini adalah ketika ada skor yang sama pada form tes yang berbeda, maka apakah kedua tes tersebut setara? Pada teori tes klasik yang sangat bergantung pada paket tes dan kelompok sampel, tes sulit untuk setara. Artinya, skor yang sama pada 2 form yang berbeda belum tentu bermakna sama.
Penyetaraan tes dapat dilakukan dengan proses equiting. Meskipun demikian, hal ini tidak mudah dilakukan dalam teori tes klasik dan cenderung menghasilkan tingkat akurasi yang rendah.
#6 Eror pengukuran berlaku sama bagi setiap orang
Pada teori tes klasik, dihasilkan satu indeks reliabilitas untuk satu paket tes. Dari reliabilitas diketahui standar eror pengukuran untuk satu paket tes tersebut. Hal ini berarti bahwa hanya ada satu indeks eror pengukuran untuk semua orang, padahal eror pengukuran tidak hanya berasal dari tes saja, melainkan juga ada eror yang berasal dari setiap orang. Idealnya, standar eror pengukuran diterapkan pada setiap orang. Hal ini tidak dapat dilakukan dalam teori tes klasik.
#7 Kelemahan dalam test design (tidak memungkinkan untuk adaptive testing)
Teori tes klasik tidak dapat memfasilitasi tes yang memungkinkan untuk menyesuaikan level kemampuan setiap orang pada satu administrasi yang sama (no basis for individual-adaptive testing). Selain itu, teori tes klasik juga tidak dapat diterapkan pada criterion referenced testing karena penafsiran hasilnya sangat bergantung pada kelompok sampel. Isu-isu lainnya, seperti sulit mendeteksi item yang bias, sulit untuk melakukan penyetaraan tes secara vertikal (vertical equating), sulit untuk penerapan standar baku (standard setting), dan sulit untuk mendeteksi pola respons.
Manfaat mempelajari teori tes klasik & Penutup
Perlu dicatat bahwa teori tes klasik memang bukan metode ideal, apalagi sejak lahir IRT dan model Rasch. Meskipun demikian, teori tes klasik sangat bermanfaat sebagai gerbang mempelajari psikometri, sebelum mendalami IRT dan model Rasch.
Teori tes klasik perlu dipelajari karena materi ini merupakan materi dasar analisis item dalam psikometri. Sementara itu, secara praktis, teori tes klasik lebih mudah untuk dipelajari dan digunakan oleh para pendidik dan ilmuwan psikologi dalam merancang tes atau skala untuk kepentingan yang tidak beresiko tinggi dan memberi penilaian atas alat ukur tersebut.
Oleh karena itu, manfaat mempelajari teori tes klasik pada akhirnya kurang lebih sama dengan mengapa psikolog, ilmuwan psikologi, dan tenaga pendidik harus memahami prinsip-prinsip psikometri, yaitu agar dapat membuat dan menggunakan instrumen yang mampu mengukur kemampuan dan psikologis seseorang dengan baik dan tepat, lalu membuat evaluasi untuk penanganan lebih lanjut yang mampu memaksimalkan potensi banyak orang. (oni)
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H