Teori Tes Klasik, Teori Respons Butir, Perbedaan Teori Tes Klasik dan Teori Tes Modern Halaman all

Pembahasan ini yaitu mengenai teori tes klasik, teori tes respons butir, dan perbedaan atau perbandingan antara teori tes klasik dan teori tes modern.

A. Teori Tes Klasik
Alur dari pengembangan alat ukurnya yaitu dari construct, Test, Answer/Respons, Score dan kembali ke construct.
Penjelasan proses tersebut yaitu, dari construct menjadi test adalah bagian dari diskusi mengenai operasionalisasi konstruk, dan dari test untuk mendapatkan jawaban atau respons yaitu belajar tentang konstruksi alat ukur, dari jawaban menjadi score yaitu belajar prosedur penyekoran, kemudian dari score menjadi construct memerlukan proses inferensial yang berkaitan dengan teori/model pengukuran.

Teori pengukuran dibutuhkan karena beberapa hal sebagai berikut:
Teori digunakan sebagai dasar pengembangan alat ukur, teori menjelaskan asumsi atau kondisi ideal mengenai pengukuran atau alat ukur.
Teori digunakan sebagai dasar evaluasi alat ukur, kualitas alat ukur yang dikembangkan dievaluasi berdasarkan teori tersebut.

Teori pengukuran dibagi menjadi 2 yaitu, Teori Skor Murni Klasik (CTT) dan Teori Tes Modern (IRT).

Skor tampak yaitu skor yang dilaporkan dari hasil pengadministrasian tes (observed).

Teori skor murni klasik
X = T + E
Dengan,
X=Skor Tampak
T=Skor Murni
E=Eror Pengukuran

Skor tampak dihasilkan dari penjumlahan antara skor murni dan eror.
Hal ini dikarenakan pengukuran selalu mengandung eror.
Dekomposisi Skor Tampak, Skor tampak didalamnya mengandung informasi mengenai skor murni dan eror pengukuran.

Skor tampak (Observerd score) dibagi menjadi:
1. Skor Murni (True Score)
Skor yang menunjukkan atribut ukur yang ketepatan dan keakuratannya sempurna.
Skor murni harganya tidak dapat diketahui secara pasti, karena setiap pengukuran selalu menghasilkan eror. Namun, manusia bisa memprediksi dan mengestimasinya harga dari skor murni.
2. Eror Pengukuran (Error)
Error merupakan sesuatu yang menyesatkan yang menyababkan informasi yang dihasilkan dari sesuatu menjadi tidak akurat. X ke Y namun didalamnya terdapat adanya gangguan secara acak maupun secara sistematis yang menyebabkan Y menginterpertasikan X secara tidak akurat.

Ada perbedaan antara Error dan Incorrect, yaitu sama-sama memiliki arti tentang kesalahan, dalam bidang psikometrika makna eror berbeda dengan salah jawab (incorrect).

Error merupakan kesalahan yang menyesatkan sehingga informasi yang benar mejadi memiliki rendah unsur kebenarannya. Contohnya mendengar kata "kapal" padahal yang diucapkan adalah "kapan".
Incorrect adalah kesalahan yang dikarenakan pengambilan keputusan yang diambil tidak sesuai dengan sesuatu yang dijadikan acuan. Contohnya menjawab opsi A padahal kunci jawabannya adalah D.

Contoh bentuk-bentuk skor tampak yaitu Skor Mentah, Skor Terstandar, Skor Tes, Skor Subtes, dan Skor Persentil.

Ekstensifikasi Persamaan
- Ekstensifikasi Persamaan Antar Orang
Ketika pengukuran dilakukan pada sampel individu. Simbol I menunjukkan variasi individu.
-Ekstensifikasi Persamaan Antar Waktu
Ketika pengukuran dilakukan pada individu dengan beberapa kali sesi (trial) pengukuran. Simbol j menunjukkan sesi pengukuran.
Ekstensifikasi tersebut bisa juga dilakukan pada butir sehingga, ketika pengukuran dilakukan pada individu dengan beberapa kali pengukuran melalui butir tes. Simbol j menunjukkan butir pengukuran.

Asumsi Teori Skor Murni Klasik
1. e (X) = T
Skor Tampak (T) merupakan nilai harapan (expected value) yang didapatkan dari pengukuran, dalam hal ini adalah skor X sehingga simbolnya adalah e (X) = T. Nilai harapan ini didapatkan dari rerata dari skor tampak. Dengan demikian menunjukkan bahwa M (X) = T. Misalnya dilakukan pengukuran, didapatkan fruktuasi skor tampak ada yang meningkat ada yang menurun, namun ketika dirata-ratakan, rata-ratanya akan setara dengan setara skor murni.
Ketika dites dengan menggunakan alat yang sama, skor tampak kadang tinggi dan kadang rendah. Rerata skor tampak (X) yang sama dapatkan adalah mendekati skor murni (T).
2. e (E) = 0
Rerata dari eror pengukuran yang saya dapatkan adalah 0. Eror adalah sesuatu yang membuat skor tampak menjadi bias sehingga menjauhi skor murni.
Eror pengukuran dapat membuat skor tampak saya menjadi melebihi skor murni atau lebih rendah dari skor murni. Namun jika dirata-ratakan, maka rerata eror adalah 0.
Eror ada yang bersifat positif dan negatif.
Ketika dites dengan alat ukur yang sama sebanyak ribuan kali (tanpa kelelahan, kebosanan, faktor belajar) maka skor murni mendekati rerata skor tampak yang didapatkan.
3. pET = 0
Tidak ada hubungan antara eror dan t.
Prinsip ini menyatakan bahwa eror pengukuran menimpa pada individu secara acak. tidak pandang bulu, kemampuannya tinggi atau rendah semuanya mendapatkan eror. Baik ukurannya besar atau kecil, maupun arahnya positif atau negatif. Dengan demikian, skor individu dengan kemampuannya tinggi dan rendah sama-sama memiliki eror pengukuran yang bisa sama-sama besar.
Ada yang mendapatkan eror yang harganya positif, namun ada yang negatif, hal ini terjadi secara acak.
perumpamaannya semakin tinggi pohon, semakin besar angin yang menerpanya, korelasi antara T dan E sangat tinggi. Prinsip ini tidak berlaku di teori pengukuran klasik, karena besarnya angin (eror) menerpa siapa saja dengan kuantitas yang secara acak. Karena tidak didapatkan hubungan antara tingginya pohon dengan eror yang menimpa pohon tersebut.
4. pE1E2 = 0
Besarnya eror (E1) pada satu tes tidak berhubungan dengan eror pada tes di waktu yang lain atau tes dengan bentuk yang lain (E2).
Artinya eror pengukuran menimpa pada individu pada pengukuran pertama, kedua dan selanjutnya tidak berkolerasi.
Bisa jadi pada pengukuran pertama individu mendapatkan eror yang besar , tetapi belum tentu pada pengukuran selanjutnya mendapatkan eror yang besar lagi.
5. pE1T2 = 0
Besarnya eror (E1) pada satu tes tidak berhubungan dengan skor murni pada tes di waktu yang lain atau tes dengan bentuk yang lain (T1). Artinya eror pengukuran pada trial pertama (E1) tidak memiliki kaitan dengan kemampuan individu (T2) pada pengukuran setelah pengukuran pertama. Mengapa eror tidak berkolerasi dengan apapun, ini dikarenakan semua yang bersifat acak tidak memiliki kaitan dengan apapun. Di dalam eror pengukuran ada unsur keacakannya, di sisi lain distribusi eror akan mendekati kurva normal dengan rata-rata 0.

B. Teori Respons Butir
Suatu konsep yang dianggap sebagai sesuatu yang ideal dan sederhana yang dibuat untuk menilai atau menjelaskan fenomena empiris merupakan definisi dari model. Teori Respons Butir (Item Response Theory-IRT) juga dikenal dengan Teori Ciri Laten (Latent Trait Theory-LTT) atau lengkungan karakteristik butir (Item Characteristic Curve-ICC) atau Fungsi Karakteristik Butir (Items Characteristic Function-ICF) (Dali S.Naga, 1992: 160). Dengan adanya teori ini yaitu berdasarkan untuk memperbaiki kelemahan yang terdapat pada teori tes klasik yaitu adanya sifat group dependent dan item dependent.

Pada Model Linier, Misalnya menggunakan model linier untuk meninjau data, maka akan dilihat datanya dengan cara padang sesuatu yang linier. Semua data akan dilihat dengan menggunakan kaca mata linier. Dari berbagai macam model linier akan ditetapkan satu model yang paling tepat dengan kriteria yang ditetapkan. Sedangkan Model non linier, Misalnya menggunakan model non linier untuk meninjau data, maka akan melihat data dengan cara padang sesuatu yang linier.

Jenis-jenis model:

Model Kaku (strict), merupakan model yang cerewet, terlalu banyak hal yang harus dipenuhi. Misalnya tidak boleh ada lekukan dan lain sebagainya.
Model Luwes (loose), merupakan model yang tidak cerewet.

IRT tidak hanya berisi satu model, akan tetapi memiliki tiga jenis model.

Teori Response Butir menggunakan Model Kurva Logistik Ogive dan Model Kurva Normal Ogiver
Kedua kurva tersebut berbentuk seperti huruf "S"

Model-model teori respons butir

Persamaan yang digunakan oleh IRT terdiri dari dua komponen, yaitu orang (sumbu x) dan butir (sumbu y).
Parameter butir ada tiga (sekarang empat) jenis, yaitu
- daya diskriminasi
- tingkat kesulitan
- Tebakan semu

Masing-masing peneliti memiliki asumsi yang berbeda. Sehingga, dengan adanya perbedaan tersebut memunculkan perbedaan model-model di dalam teori respons butir.

Model logistik 3 parameter (3 PL)
(Daya Beda, Tingkat Kesulitan, Efek Tebakan)
Model Logistik 2 Parameter (2 PL)
(Daya Beda, Tingkat Kesulitan)
Daya beda butir bervariasi yang terlihat dari kemiringan yang berbeda-beda, baseline mendekati 0.
Model Logistik 1 Parameter (1 PL)
(Tingkat Kesulitan)
Daya beda butir bervariasi yang terlihat dari kemiringan yang sama dan baseline mendekati 0.

Perbandingan Model

Model-model teori respons butir

Teori Pengukuran terdapat 2 jenis yaitu Teori Klasik dan Teori Modern yang dibagi lagi menjadi 4 yaitu Rasch, 1 PL, 2 PL, 3 PL)

Model IRT 1 PL sederhana dan membutuhkan ukuran sampel yang tidak sebesar model 2 PL atau 3 PL, namun kurang dapat menunjukkan adanya butir yang problematik karena memiliki daya diskriminasi negatif.
Model IRT 3 PL memberikan informasi yang lebih lengkap dibanding dengan model yang lain akan tetapi membutuhkan ukuran sampel yang sangat besar dan seringkali menghasilkan proses analisis yang lama.
Model IRT 2 PL menjadi kompromi dari antara kelemahan dan kelebihan antara model IRT 1 PL dan Model IRT 3 PL.

Asumsi-Asumsi Teori Respon Butir (IRT), menurut Dali S.Naga (1992), persyaratan dan hakikat pada iRT, yaitu:
1. Unidimensi (mengukur satu dimensi)
2. Independensi Lokal
3. Invariansi Parameter

C. Perbedaan Teori Tes Klasik dan Teori Tes Modern
Ada beberapa perbedaan berdasarkan prinsip, yaitu:

1. Eror Standar Pengukuran

Prinsip Lama (CTT): Kesalahan standar pengukuran berlaku untuk semua skor dalam populasi tertentu.
Telah dianalisis suatu hasil tes dengan program ITEMAN (CTT), menghasilkan 1 standar eror, ini berlaku untuk semua.
Prinsip Baru (IRT): Kesalahan standar pengukuran berbeda di semua skor tetapi digeneralisasikan di seluruh populasi.
Telah dianalisis suatu hasil tes dengan IRT, dihasilkan menunjukkan adanya hasil yang berbeda-beda yang tergantung dari skor dari masing-masing orang.

2. Panjang Tes

Prinsip Lama (CTT): Tes yang panjang akan menghasilkan skor yang reliabel dibandingkan dengan tes yang pendek.
Prinsip baru (IRT): Tes yang pendek bisa menghasilkan skor yang lebih reliabel dibandingkan dengan tes yang panjang.

3. Perbandingan antar Tes

Prinsip Lama (CTT): Perbandingan skor antar tes akan optimal jika tes yang dibandingkan itu paralel.
Tes Paralel
- Rerata-Tingkat Kesulitan
- Varians-Keragaman
- Jumlah butir
- Eror Pengukuran
Prinsip Baru (IRT): Perbandingan skor antar tes akan optimal jika tes yang dibandingkan itu tingkat kesulitannya bervariasi.

4. Karakteristik Sampel

Prinsip Lama (CTT): Kualitas hasil pengukuran tergantung dari karakteristik sampel.
Prinsip Baru (IRT): Kualitas pengukuran tidak tergantung dari karakteristik sampel.

5. Makna Skor

Prinsip Lama (CTT): Makna terhadap skor kemampuan individu didapatkan dari perbandingannya dengan orang-orang di dalam norma.
Prinsip Baru (IRT): Makna terhadap skor kemampuan individu didapatkan dari selisihnya dari tingkat kesulitan butir.

6. Data Interval

Prinsip Lama (CTT): Data interval dapat dicapai dengan mendapatkan skor yang terdistribusi normal.
Prinsip Baru (IRT): Data interval bisa didapatkan dengan mengaplikasikan model pengukuran yang terjustifikasi.

7. Skala dengan Format Berbeda

Prinsip Lama (CTT): Butir-butir dengan format yang berbeda memberikan dampak berbeda-beda pada parameter butir.
Prinsip Baru (IRT): Butir-butir dengan format yang bervariasi akan mampu menghasilkan tes yang optimal.

8. Skor Perubahan

Prinsip Lama (CTT): Skor karena suatu perubahan (change score) tidak bisa dibandingkan dengan skor awalnya ketika skor inisialnya berbeda.
Prinsip Baru (IRT): Skor akibat dari suatu perubahan dapat dibandingkan meskipun skor inisialnya berbeda.

9. Eror Standar Pengukuran

Prinsip Lama (CTT): Analisis faktor pada butir yang bersifat biner (0;1) akan menghasilkan kumpulan butir berdasarkan artefak daripada faktor.
Prinsip Baru (IRT): Analisis faktor pada semua jenis data mentah akan menghasilkan informasi mengenai faktor yang komprehensif.

10. Eror Standar Pengukuran

Prinsip Lama (CCT): Fitur-fitur stimulus pada sebuah butir adalah aspek yang tidak seberapa penting jika dikaitkan dengan properti psikometris.
Prinsip Baru (IRT): Fitur-fitur stimulus pada sebuah butir dapat berkaitan dengan properti psikometris.

Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H

HALAMAN :

LIHAT SEMUA

Mohon tunggu...

Lihat Ilmu Sosbud Selengkapnya

Beri Komentar

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!

Teori Tes Klasik, Teori Respons Butir, Perbedaan Teori Tes Klasik dan Teori Tes Modern

teori tes

pengetahuan

ruang kelas

tugas di kompasiana

ilmu sosbud

Artikel Lainnya

LAPORKAN KONTEN

Mengasah Kemampuan Berpikir Kritis untuk Menyaring Informasi dan Memecahkan Masalah

Masa Senja, Masa Bahagia: Tips Menikmati Hidup di Era Modern

Sebuah Mimpi dan Kerja Keras