Indeks Integritas sebagai kriteria seleksi: kendala teknis
Ketiadaan informasi tentang indeks ini hampir saja membuat penulis terkecoh karena mengira bahwa indeks ini diukur menggunakan KR-20 yang merupakan kasus khusus dari besaran alfa Cronbach [Sjitsma, 2009]  – suatu ukuran kehandalan internal perangkat soal-soal UN. Untung saja ada publikasi Manoppo dan Murdapi [2014] tentang evaluasi UN tahun 2011/2012 untuk mata pelajaran Kimia dari Provinsi Maluku. Mereka menggunakan suatu peringkat lunak berbasis online bernama INTEGRITYTM (yang diproduksi oleh Castle Rock Research Corp.) untuk menyelidiki tingkat kecurangan/kolusi antar peserta ujian mulai dari level kelas, sekolah, hingga lingkup yang lebih luas lagi yakni tingkat Kota/Kabupaten/Provinsi.
INTEGRITYTM menggunakan 5 perumusan statistik untuk tiba pada kesimpulan ada-tidaknya penyontekan (cheating) pada suatu pasangan siswa. Kelima perumusan ini adalah: indeks B [Angoff, 1974], G2 (Frary dkk., 1977], ACT Pair 1 [Hanson dkk., 1987], ACT Pair 2 [Hanson dkk., 1987], MESA [Belezza dan Belezza, 1991]. Tingkat penyontekan dinyatakan dalam kategori: rendah (low), sedang (moderate) dan tinggi (high). Kategori ini berbanding terbalik dengan False Positive – mengindikasikan ada penyontekan namun kenyataannya penyontekan tak terjadi. Semakin banyak ditemukan False Positive, kategorinya digolongkan pada tingkatlow, dan sebaliknya jika jumlah False Positive lebih sedikit, maka ia akan berkategori high.
Berdasarkan publikasi Manoppo dan Murdapi [2014] itu, tampak bahwa ada ketidakkonsistenan antara kelima rumusan dalam hal penggolongan pasangan yang masuk kedalam kategori penyontekan (low, medium ataupun high) dan jumlah pasangan yang ditemukan menyontek. Ketidakkonsistenan ini terjadi tidak saja pada evaluasi untuk satu kelas namun ia juga dijumpai pada evaluasi pada tingkat kota. Jadi, meskipun kita menyamakan ketiga kategori penyontekan itu, jumlah pasangan yang diindikasikan menyontek oleh masing-masing perumusan statistik itu tetap berbeda.Â
Fenomena ketidakkonsistenan ini sebenarnya telah ditemukan oleh Nelson [2006] dan Veldkamp [2008] yang mengkaji hasil ujian yang jumlah soalnya mencapai 60 item. Kelima statistik itu ternyata memberikan kategori penyontekan yang berbeda-beda untuk masing-masing pasangan yang terindikasi menyontek. Bahkan, berkas demonstrasi uji kolusi pada situs INTEGRITYTM [Castlerock, 2016] juga menunjukkan hal yang serupa yakni ada ketidakkonsistenan kategori pasangan-pasangan yang terindikasi melakukan kecurangan oleh kelima perumusan statistik itu. Sebelum digunakan untuk mengukur integritas peserta UN, pengguna pengukur kecurangan ini mesti menyelesaikan masalah ketidakkonsistenan ini. Setelah itu, ia juga harus membuktikan bahwa memang benar telah terjadi kecurangan pada pasangan-pasangan yang terindikasi menyontek.
Kendala lain: prinsip Ekuitas (kesetaraan)
Selain masalah teknis diatas, ada prinsip kesetaraan yang mesti diperhitungkan berkaitan dengan indeks integritas ini. Pertama, kehandalan soal ujian – sejauh mana tingkat kekonsistenan internal soal (item) yang diujikan. Ujian yang tergolong taruhan tingkat tinggi seperti UN minimal memiliki indeks Kuder-Richardson KR-20 sebesar 0,90 [Wells dan Wollack, 2003]. Kriteria ini belum terpenuhi sebab nilai indeks KR-20 untuk UN mata pelajaran Kimia hanya mencapai angka 0,77 [Manoppo dan Murdapi, 2014]. Â
Selain itu, bagaimana kehandalan 2 versi UN yakni Ujian Tulis (UTUL) dan Ujian Berbasis Komputer (UBK). Apakah perangkat soal ujian yang mereka kerjakan sudah setara dalam hal kehandalan? Kedua, durasi pelaksanaan UN. Memang tak ada perbedaan pada durasi pengerjaan soal suatu mata pelajaran bagi peserta UN versi UTUL maupun UBK. Namun, ada perbedaan antara kedua kelompok peserta UN yakni pada jumlah mata pelajaran yang diujikan per hari. Peserta UTUL mengerjakan 2 mata pelajaran tiap hari, sedangkan peserta UBK mengerjakan 1 mata pelajaran per hari.Â
Di kalangan peserta UBK sendiri pun ada perbedaan karena dalam sehari itu peserta dibagi pada 3 sesi kelompok ujian. Kembali isu kesetaraan mencuat, apakah hasil ujian mereka tak menggambarkan pengaruh perbedaan setting ujian? Dari literature, faktor waktu pengerjaan soal dan kelelahan kognitif (cognitive fatigue) ternyata mempengaruhi hasil ujian siswa [Pope dan Fillmore, 2015; Sievertsen dkk., 2016].
 Dengan adanya kendala teknis dan isu kesetaraan diatas, seyogyanya kementerian terkait terlebih dahulu melakukan asesmen lanjut tentang hasil UN dan mengumumkan hasilnya ke masyarakat sebelum menjadikan Indeks Integritas sebagai kriteria penentuan kelulusan SNMPTN. Â
Penutup: Taman pembelajar para penerus