Evaluasi adalah salah satu rangkaian tindakan yang bertujuan untuk meningkatkan kualitas, efisiensi atau produktivitas suatu lembaga dalam melaksanakan suatu program. Pengukuran adalah langkah-langkah atau tindakan yang harus dilakukan untuk menyelesaikan evaluasi. Alat ukur inilah yang memberikan informasi tentang letak seseorang pada atribut yang diukur, sehingga pengukuran  dengan tingkat validitas dan reliabilitas yang tinggi sangat diperlukan untuk mendapatkan hasil pengukuran yang menggambarkan hasil pengukuran yang sebenarnya. Tes dapat diartikan sebagai rangkaian pertanyaan yang harus dijawab untuk mengukur tingkat kemampuan seseorang atau untuk mengungkapkan aspek tertentu dari orang yang diuji.Â
Analisis soal dengan validitas dan reliabilitas yang baik diperlukan agar komposisi soal mudah, sedang, dan sukar terdistribusi secara proporsional sesuai dengan subjek tes. Ada dua pendekatan yang dapat digunakan untuk mempelajari butir soal, yaitu Teori Tes Klasik (CTT) dan Teori Respon Butir (IRT).
Classical Test Theory (Teori Tes Klasik)
Teori Tes Klasik (TTK) atau Classical Test Theory (CTT) merupakan teori pengukuran tertua dalam dunia pengukuran perilaku, di mana teori tes klasik ini merupakan teori yang  begitu mudah diterapkan dan modelnya cukup berguna dalam menggambarkan metode pengukuran behavioral di mana kesalahan dapat mempengaruhi titik pengamatan. Teori uji klasik ini merupakan upaya untuk menjelaskan  kesalahan pengukuran dimana model kesalahan pengukuran didasarkan pada koefisien korelasi.
Koefisien korelasi dalam teori uji klasik memiliki beberapa implikasi, yang pertama adalah sifat kesalahan acak dan yang kedua adalah bahwa pengukuran terdiri dari tiga komponen, yaitu: indikator yang diamati, indikator hipotetik yang mewakili nilai populasi murni, dan konsep hipotetik. yang menunjukkan besarnya perbedaan antara indikator nyata dan indikator yang diamati.
Rumus yang mewakili teori tes klasik adalah X = T + E, di mana X adalah skor semu, T adalah skor murni, dan E adalah skor kesalahan.
Menurut para ahli, Â pendekatan teori tes klasik memiliki beberapa kelemahan, yaitu:
- Statistik poin sangat bergantung pada sifat benda yang diuji,
- Estimasi kemampuan peserta ujian sangat bergantung pada hal yang diuji,
- Kesalahan standar estimasi skor berlaku untuk semua penguji, jadi ada tidak ada rata-rata kesalahan pengukuran tiap peserta dan poin,
- Informasi yang disajikan hanya terbatas pada jawaban benar atau salah, tidak memperhatikan pola respon penguji, dan
- Asumsi uji paralel sulit dipenuhi.
Namun, teori tes klasik ini masih banyak digunakan karena tidak membutuhkan jumlah responden yang banyak dan mudah dalam penerapannya. Oleh karena itu pengukuran yang melibatkan responden kecil seperti ulangan harian di bidang pendidikan atau pengukuran di bidang psikologi pada umumnya tetap menggunakan teori tes klasik ini.
 Item Response Theory (Teori Respon Butir)
Item Response Theory (IRT) adalah salah satu cara untuk menilai validitas item dengan membandingkan mean item performance dengan model-predicted performance pada kemampuan kelompok. Tujuan utama pengembangan teori respon butir adalah untuk melampaui teori tes klasik, yang tidak dapat dipisahkan dari  tes atau peserta tes. Bagian penting dari teori respon butir adalah probabilitas jawaban benar peserta tes, parameter soal, dan parameter peserta tes terkait satu sama lain dengan fungsi matematis atau model rumus matematis. Dalam rumus ini, probabilitas peserta tes untuk menjawab pertanyaan dipahami sebagai fungsi logistik dari berbagai parameter yang dimasukkan ke dalam model.
Teori respon butir, atau teori tes modern, dikembangkan berdasarkan dua hal, yaitu:
- Hasil tes seseorang dapat diprediksi berdasarkan kemampuan seseorang, dan
- Hubungan antara hasil tes dan kemampuan dinyatakan sebagai fungsi yang disebut item atau item kurva karakteristik.Â
Fungsi kurva karakteristik elemen (ICC) menunjukkan bahwa peserta tes berkemampuan tinggi  memiliki peluang yang lebih tinggi, sebaliknya peserta tes berkemampuan rendah menjawab pertanyaan dengan tingkat kesulitan yang tinggi. Kemampuan ini sering disebut sebagai potensi yang merupakan faktor dominan dalam prestasi akademik yang ditunjukkan oleh nilai tes. Dalam hal kesukaran soal, sifat invarian berarti bahwa indeks kesukaran  soal tidak  berubah, sekalipun orang yang diuji mahir atau tidak kompeten. Kondisi ini tidak berlaku untuk tes klasik, sehingga  invarian merupakan salah satu kekuatan dari teori respon. Tes teori modern, atau respons target, memiliki persyaratan yang lebih ketat daripada tes klasik, baik dalam hal asumsi  yang diperlukan dalam analisisnya maupun ukuran sampelnya.Â
Asumsi Teori Respon Butir
Dalam teori respon butir, model matematis menyiratkan bahwa probabilitas subjek untuk menjawab pertanyaan dengan benar tergantung pada kemampuan subjek dan karakteristik subjek. Artinya, peserta tes berkemampuan tinggi lebih mungkin menjawab dengan  benar daripada peserta tes berkemampuan rendah. Teori ini didasarkan pada tiga asumsi, yaitu unidimensi, independensi lokal, dan invariansi parameter.
- Unidimensi, yaitu: setiap butir tes hanya mengukur satu kemampuan,Â
- Independensi lokal, yaitu: sikap kemampuan yang memeengaruhi tes adalah konstan, sehingga respon peserta tes untuk setiap poin secara statistik independen,
- Invariansi parameter, yaitu: karakteristik butir soal tidak tergantung pada distribusi parameter kemampuan peserta tes dan parameter yang menjadi ciri peserta tes tidak bergantung dari ciri butir soal.