Pendahuluan
Keberhasilan suatu proses pendidikan dan pelatihan dapat diketahui salah satunya dengan melakukan evaluasi atau tes hasil pendidikan dan pelatihan. Evaluasi hasil belajar peserta didik merupakan salah satu cara yang dapat dilakukan untuk mengetahui kemajuan peserta didik terhadap kurikulum yang telah diajarkan selama waktu tertentu. Meskipun evaluasi bukanlah satu-satunya cara untuk mengungkap hasil belajar peserta didik, tetapi ia merupakan alat yang paling sering digunakan karena kepraktisan penggunaannya serta biaya yang murah.Â
Sebagai alat untuk mengukur kemampuan peserta didik setelah mengikuti kegiatan pendidikan  dan pelatihan selama selang waktu tertentu, maka eksistensi evaluasi menjadi sangat penting. Sebuah evaluasi yang baik, akan bisa mengungkapkan keadaan sebenarnya dari peserta didik, dan tes yang tidak baik tidak akan bisa mengungkap apa kemampuan sebenarnya peserta didik. Pemberian soal yang terlalu susah atau terlalu mudah bisa menyebabkan sulitnya membedakan kemampuan peserta didik. Oleh karena itu, diperlukan analisis terhadap soal evaluasi dengan harapan hasil evaluasi merepresentasikan kemampuan peserta didik.
Untuk melihat kualitas sebuah tes dapat dilakukan dengan menggunakan analisis kualitatif (teoretik) dan kuantitatif (empiris). Secara kualitatif tes dikatakan baik jika telah memenuhi persyaratan penyusunan dari sisi materi, konstruksi dan bahasa. Adapun secara kuantiatif dapat dilakukan dengan dua teknik yaitu teori tes klasik (classical true-score theory) dan teori respon butir (Item Response Theory). Dalam tulisan ini penulis hanya akan memberikan pengantar tentang analisis secara kuantitatif untuk soal pilihan ganda.
Teori Tes Klasik
Analisis butir soal secara klasik adalah proses penelaahan butir soal melalui informasi dari jawaban peserta tes guna meningkatkan mutu butir soal yang bersangkutan dengan menggunakan teori tes klasik. Pada teori tes klasik, analisis item tes dilakukan dengan memperhitungkan kedudukan item dalam suatu kelas atau kelompok. Karakteristik atau kualitas item sangat tergantung pada kelompok dimana diujicobakan sehingga kualitas item terikat pada sampel responden atau peserta tes yang memberikan respons(sample bounded).
Ada beberapa kelebihan analisis butir soal secara klasik adalah murah, sederhana, familiar, dapat dilaksanakan sehari-hari dengan cepat menggunakan komputer dan dapat menggunakan beberapa data dari peserta tes.
Analisis butir soal secara modern adalah penelaahan butir soal dengan menggunakan teori respon butir atau item response theory. Teori ini merupakan suatu teori yang menggunakan fungsi matematika untuk menghubungkan antara peluang menjawab benar suatu butir dengan kemampuan peserta didik.
Teori ini muncul karena adanya beberapa keterbatasan pada analisis secara klasik, yaitu:
Tingkat kemampuan dalam teori klasik adalah true score.Artinya, jika suatu tes sulit maka tingkat kemampuan peserta tes akan rendah.sebaiknya, jika suatu tes mudah maka tingkat kemampuan peserta tes tinggi.
Tingkat kesukaran butir soal didefinisikan sebagai proporsi peserta tes yang menjawab benar. Mudah atau sulitnya butir soal tergantung pada kemampuan peserta tes.
Daya pembeda, reliabilitas, dan validitas tes tergantung pada kondisi peserta tes.
Teori uji klasik merupakan satu dari masalah yang disampaikan oleh ahli psikologi Belanda Charles Spearmen dengan konsep korelasi (Crocker & Algina, 1986 dalam Ari Anggraini, 2009). Beberapa aspek yang diperhatikan dalam uji teori klasik yaitu tingkat kesukaran butir, daya pembeda butir, penyebaran pilihan jawaban, dan reliabilitas skor tes (Safari, 2000 dalamAri Anggraini, 2009).
- Tingkat Kesukaran Butir Soal (p)
Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada tingkat kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks. Indeks tingkat kesukaran ini pada umumnya dinyatakan dalam bentuk proporsi yang besarnya berkisar 0,00 – 1,00. Perhitungan indeks tingkat kesukaran ini dilakukan untuk setiap nomor soal. Rumus di bawah ini dipergunakan untuk soal pilihan ganda (Nitko, 1996).
Semakin besar nilai p, yaitu semakin besar proporsi peserta tes dalam menjawab benar, maka soal tersebut dianggap mudah. Semakin kecil nilai p maka soal tersebut dianggap sukar.
Pada teori uji klasik, tingkat kesukaran butir soal bergantung kepada kemampuan peserta ujian. Bagi peserta ujian yang berkemampuan tinggi, butir soal menjadi mudah. Bagi peserta ujian yang berkemampuan rendah, butir soal menjadi sukar. Pada butir soal yang mudah, tampak kemampuan peserta ujian menjadi tinggi. Sedangkan pada butir soal yang sukar, maka kemampuan peserta ujian menjadi rendah. Oleh karena itu, tingkat kesukaran butir soal tidak sepenuhnya menggambarkan ukuran karakteristik butir soal sesungguhnya, akan tetapi lebih merupakan kemampuan rata-rata kelompok peserta ujian. Klasifikasi tingkat kesukaran soal dalam Nitko (1996) adalah:Â
-    Jika nilai p di antara 0,00 – 0,30 soal tergolong sukar;
-    Jika nilai p di antara 0,31 – 0,70 soal tergolong sedang;
-    Jika nilai p di antara nilai 0,71 – 1,00 soal tergolong mudah.
- Daya Pembeda (DP)
Daya Pembeda soal adalahkemampuan suatu butir soal untuk membedakan antara peserta tes yang berkemampuan tinggi dan berkemampuan rendah. Fungsi dari daya pembeda tersebut adalah mendeteksi perbedaan individual yang sekecil-kecilnya diantara para peserta tes. Daya pembeda soal dapat diketahui dengan melihat besar kecilnya indeks daya pembeda atau angka yang menunjukkan besar kecilnya daya pembeda. Indeks daya pembeda berkisar antara -1,00 sampai dengan 1,00. Semakin tinggi nilai daya pembeda soal, maka semakin baik soal tersebut.
Daya pembeda soal untuk bentuk pilihan ganda dapat dihitung dengan rumus sebagai berikut :
Keterangan :
  DP = daya pembeda soal,Â
  BA  = jumlah jawaban benar pada kelompok atas,
  BB  = jumlah jawaban benar pada kelompok bawah,
  N   = jumlah peserta didik yang mengerjakan tes.
Menurut Crocker & Algina (1986) dalam Arie Anggraini (2009) Daya pembeda soal diklasifikasikan sebagai berikut :
- Jika DP ≥ 0,4 maka butir soal baik/diterima,
- Jika 0,3 ≤ DP < 0,4 maka butir soal cukup baik,
- Jika 0,2 ≤ DP < 0,3 maka butir soal perlu diperbaiki, dan
- Jika DP < 0,2 maka soal ditolak.
Pembagian kelompok diambil 25% dari urutan nilai terbaik sebagai kelompok atas dan 25% dari nilai terendah sebagai kelompok bawah. Hal ini terdapat dalam Anastasi & Urbina (1997) yang menyatakan bahwa secara umum persentase yang tepat antara 25%-33%.
Selain rumus di atas, untuk mengetahui daya pembeda soal bentuk pilihan ganda dapat digunakan rumus korelasi point biserial. Rumus khusus korelasi product moment yang dikenal dengan korelasi point biserial untuk data dalam bentuk dikotomi adalah sebagai berikut (Yen W.M (1992) dalam Djunaidi Lababa (2008)):
- Efektivitas Distraktor
Setiap tes pilihan ganda memiliki satu pertanyaan serta beberapa pilihan jawaban. Diantara pilihan jawaban yang ada, hanya satu yang benar. Selain jawaban yang benar tersebut, adalah jawaban yang salah. Jawaban yang salah itulah yang dikenal dengan distractor (pengecoh). Dengan demikian, efektifitas distraktor adalah seberapa baik pilihan yang salah tersebut dapat mengecoh peserta tes yang memang tidak mengetahui kunci jawaban yang tersedia. Semakin banyak peserta tes yang memilih distraktor tersebut, maka distaktor itu dapat menjalankan fungsinya dengan baik. Cara menganalisis fungsi distraktor dapat dilakukan dengan menganalisis pola penyebaran jawaban butir. Menurut Sudijono (2005) dalam Djunaidi Lababa (2008) pola penyebaran jawaban sebagaimana dikatakan adalah suatu pola yang dapat menggambarkan bagaimana peserta tes dapat menentukan pilihan jawabannya terhadap kemungkinan-kemungkinan jawaban yang telah dipasangkan pada setiap butir.
Fernandes (1984) menyatakan bahwa distraktor dapat dikatakan berfungsi apabila paling tidak dipilih oleh 2% peserta ujian. Distraktor yang tidak memenuhi kriteria tersebut sebaiknya diganti dengan distraktor lain yang mungkin lebih menarik minat peserta tes untuk memilihnya.
Daftar Pustaka :
Anggreyani, Ari. 2009. PENERAPAN TEORI UJI KLASIK DAN TEORI RESPON BUTIR DALAM MENGEVALUASI BUTIR SOAL (Studi Kasus : Soal Ujian Akhir Semester Tingkat Persiapan Bersama Institut Pertanian Bogor Mata Kuliah Fisika Tahun Ajaran 2008/2009). Statsistika IPB: Bogor
Lababa, Djunaidi. 2008. ANALISIS BUTIR SOAL DENGAN TEORI TES KLASIK: SEBUAH PENGANTAR. https://jurnaliqro.files.wordpress.com/2008/08/03-jun-29-36.pdf. [29/11/2016]
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H