- Instrumen evaluasi dibagi menjadi dua bagian yang setara, dan korelasi antara skor kedua bagian ini digunakan untuk mengestimasi reliabilitas. Korelasi yang tinggi menunjukkan reliabilitas yang lebih tinggi.
- Â Test-Retest:
  - Instrumen evaluasi diberikan dua kali pada waktu yang berbeda kepada responden yang sama. Korelasi antara skor dari dua pengujian ini digunakan untuk mengestimasi reliabilitas. Korelasi yang tinggi menunjukkan reliabilitas yang lebih tinggi.
- Metode Equivalence/Parallel Forms:
  - Dua versi instrumen evaluasi yang setara diberikan kepada responden yang sama pada waktu yang sama. Korelasi antara skor dari kedua versi ini digunakan untuk mengestimasi reliabilitas.
- Â Metode Generalisability Theory:
  - Metode ini mempertimbangkan variasi faktor-faktor yang berpotensi mempengaruhi hasil evaluasi, seperti variasi antar penilai atau variasi antar item, untuk mengestimasi reliabilitas yang lebih komprehensif.
- Analisis Item Response Theory (IRT) :
  - Menggunakan model IRT untuk mengestimasi karakteristik item dan kemampuan peserta secara bersamaan, dengan mempertimbangkan tingkat kesulitan dan daya pembeda setiap item dalam instrumen evaluasi.
Pemilihan metode estimasi reliabilitas yang tepat tergantung pada karakteristik instrumen evaluasi, tujuan pengukuran, dan data yang tersedia. Kombinasi beberapa metode sering kali memberikan informasi reliabilitas yang lebih komprehensif dan dapat diandalkan.
8. Level Kelompok dan tingkat kesulitan tesÂ
Dalam menentukan reliabilitas suatu tes salah satu yang menjadi faktor penentunya merupakan level kelompok. Pada dasarnya level kelompok dan tingkat kesulitan tes ini sangat erat hubungannya. Sebab biasanya level kelompok ini dibuat dengan tujuan untuk melihat presisi pengukuran dari sebuah tes, namun tidak aturan formal yang menentukan antar hubungan keduanya ini. Penetapan level kelompok dan tingkat kesulitan tes ini kembali lagi bagaimana tes tersebut disusun.Â
Untuk penerapannya sendiri, biasanya level kelas dibentuk apabila jumlah responden atau jumlah peserta didik kurang dari 100 maka dibagilah pada 2 kategori, kelas atas kelas bawah. Dengan adanya kelas atas dan kelas bawah ini setelahnya dilihatlah, dalam suatu soal tersebut kelas manakah yang paling banyak menjawab soalnya, apabila kelas bawah yang lebih banyak menjawabnya maka dikatakan tingkat kesulitannya ialah sukar. Apabila tes tersebut terlalu mudah maka tidak dapat tingkat kemampuan secara individunya.Â
9. Homogenitas tesÂ
Faktor yang mendukung keajegan suatu tes ini merupakan homogenitas tes. Dijelaskan akan lebih reliabel 100 item tes PAI kelas XI daripada 100 item tes untuk mengukur PAI pada tingkat SMA. Begitpupun untuk mata pelajran lainnya, seperti pada mata pelajaram matematika yang memang lebih membutuhkan pengorganisiran yang lebih padat dengan saling ketergantungan yang erat antar bukti, aturan, kemampuan serta hasil. Â