Software OCR adalah penggunaan teknologi untuk membedakan karakter teks cetak atau tulisan tangan di dalam gambar digital dokumen fisik, seperti dokumen kertas yang dipindai. Software OCR singkatan dari (optical character recognition ) dengan proses dasar OCR melibatkan pemeriksaan teks dokumen dan menerjemahkan karakter menjadi kode yang dapat digunakan untuk pemrosesan data. OCR terkadang juga disebut sebagai pengenalan teks.
Sistem OCR terdiri dari kombinasi perangkat keras dan perangkat lunak yang digunakan untuk mengubah dokumen fisik menjadi teks yang dapat dibaca mesin. Perangkat keras, seperti pemindai optik atau papan sirkuit khusus digunakan untuk menyalin atau membaca teks sementara perangkat lunak biasanya menangani pemrosesan lanjutan. Perangkat lunak juga dapat memanfaatkan kecerdasan buatan (AI) untuk menerapkan metode pengenalan karakter cerdas (ICR) yang lebih canggih, seperti mengidentifikasi bahasa atau gaya tulisan tangan.
Proses OCR paling sering digunakan untuk mengubah dokumen legal atau bersejarah dalam bentuk cetak menjadi PDF. Setelah ditempatkan dalam soft copy ini, pengguna dapat mengedit, memformat, dan mencari dokumen seolah-olah dibuat dengan pengolah kata.