#1 Bergantung pada kelompok sampel
Kelompok sampel merupakan elemen yang sangat penting dalam teori tes klasik, karena hasil tes dan interpretasinya sangat bergantung pada kelompok sampel yang menjadi peserta tes tertentu. Dua hal yang sangat berpengaruh pada kelompok sampel dalam teori tes klasikadalah statistik item dan ukuran keajegan tes. Pada tingkat per item, statistik yang dihasilkan dalam teori tes klasik seperti tingkat kesulitan dan daya pembeda sangat bergantung pada kelompok sampel. Soal yang "mudah" pada kelompok sampel A bisa jadi merupakan soal yang "sulit" jika diujikan pada kelompok sampel lain dengan karakteristik yang mirip. Pada tingkat paket tes, reliabilitas sangat bergantung pada varians yang dihasilkan oleh kelompok sampel. Mengingat betapa berpengaruhnya kelompok sampel dalam teori tes klasik, sebaiknya mekanisme sampling yang dilakukan dengan benar.
#2 Menggunakan raw scores (skor mentah)
Kelemahan teori tes klasik adalah dalam nilai statistik yang dihasilkan dan keputusan yang diambil dari skor yang dijumlahkan (sum scores atau composite scores). Skor yang dijumlahkan tersebut bersifat mentah (raw scores), alias kalau metode skoringnya salah diwakilkan angka nol (0) dan benar diwakilkan angka satu (1), maka totalnya adalah penjumlahan angka 0 dan 1 tersebut. Kenyataannya, secara sederhana akan lebih adil jika item yang lebh sulit bernilai lebih tinggi jika benar. Teori tes klasik tidak mempertimbangkan hal ini, semua soal dipukul rata valuenya.
Dalam teori tes klasik, raw scores ini ada yang mengalami transformasi. Meskipun demikian, hakikat makna raw scores tidak berubah.
Masalahnya, measuring is not counting: mengukur tidak sama dengan menghitung. Penggunaan raw scores adalah proses menghitung, bukan mengukur. Meskipun demikian, menghitung dapat menjadi tahap awal dalam mengukur. Raw scores yang sudah didapatkan dari proses counting dapat ditransformasi ke ukuran linear agar ada equal interval. Hal inilah yang menjadi fokus teori tes modern yang tidak ada pada teori tes klasik
#3 Bergantung pada paket tes
Skor yang dihasilkan dalam teori tes klasik sangat bergantung pada paket tes yang digunakan, begitu pula interpretasi dari skor ini. Raw scores sulit dibandingkan antara paket-paket tes. Tes dengan skor yang hanya dijumlahkan tidak comparable. Hal ini disebabkan oleh tingkat kesukaran yang berbeda. Untuk skor yang sama, butuh raw scores yang berbeda di form yang berbeda. Misalnya, untuk mendapat skor 199, seseorang perlu menjawab 98 soal (dari 100 soal) dengan benar pada form A atau 99 soal pada form B. Hal ini mengindikasikan bahwa kemampuan yang sama akan mendapatkan skor yang berbeda di form yang berbeda.
#4 Kenyataannya, asumsi reliabel sulit dicapai
Reliabilitas terdiri atas beberapa jenis, yaitu split-half, test-retest, alternate form, dan internal consistency. Umumnya, reliabilitas dijelaskan sebagai konsistensi tes atau ekuivalensi tes pada penggunaan yang berulang-ulang. Sifat konsisten dan ekuivalen ini, yang disebut sebagai asumsi paralel dalam reliabilitas, pada kenyataannya sangat sulit untuk dicapai. Bisa jadi konten tes terlihat paralel, namun secara statistik tidak. Paralel secara statistik berarti sama nilai rata-ratanya dan sama variansnya. Hal ini disebabkan oleh homogenitas item dan heterogenitas sampel. Biasanya, ketika item homogen maka tes tidak efektif, dan ketika tes efektif maka item tidak homogen. Hal ini dapat diatasi dengan salah satu dati 2 cara, yaitu mengganti desain item atau mengganti proses matematis yang ada.
#5 Skor tidak mudah disetarakan dan dibandingkan