Bagaimana Algoritma Pengenalan Karakter Optik Mendefinisikan Ulang Proses Bisnis?

Diterbitkan: 2022-04-14

Memasukkan data dan memindahkannya dari satu tempat ke tempat lain adalah tugas yang memakan waktu dan berulang. Satu karyawan dapat dengan mudah menghabiskan hingga tiga jam sehari hanya untuk memindahkan data. Selain memakan waktu pekerja, penanganan data secara manual juga rawan terjadi kesalahan yang berujung pada kerugian pendapatan.

Sebuah laporan oleh Dun & Bradstreet, menyelidiki masa lalu dan masa depan data, mengungkapkan bahwa satu dari lima bisnis kehilangan uang karena data yang tidak lengkap. Teknologi pengenalan karakter optik (OCR) dapat membantu bisnis memecahkan masalah ini. Algoritme OCR dapat mengubah dokumen berbasis kertas menjadi teks yang dapat dicari dan dapat diedit.

Mereka juga dapat mengekstrak informasi dari file dan memasukkannya ke dalam bidang yang sesuai dalam sistem TI perusahaan. Jadi, bagaimana cara kerja OCR? Bagaimana teknologi ini dapat membantu Anda mencapai tujuan bisnis? Dan haruskah Anda menghubungi penyedia solusi kecerdasan buatan untuk membantu Anda membangun dan menyiapkan perangkat lunak OCR?

Apa itu pengenalan karakter optik, dan bagaimana cara kerjanya?

definisi OCR

Pengenalan karakter optik adalah teknologi yang mengubah teks yang diketik atau tulisan tangan dan gambar tercetak yang berisi teks menjadi format data digital yang dapat dibaca mesin. Algoritma OCR membantu mengubah sejumlah besar dokumen kertas menjadi file digital, memfasilitasi penyimpanan teks, pemrosesan, dan pencarian.

Sistem OCR terdiri dari perangkat keras dan perangkat lunak. Bagian perangkat keras dapat berupa pemindai optik atau perangkat sejenis yang dapat mengubah dokumen kertas menjadi format digital. Bagian perangkat lunak adalah algoritma OCR itu sendiri.

Bagaimana cara kerja OCR?

Sulit bagi komputer untuk mengenali karakter karena font yang berbeda dan variasi bagaimana satu huruf dapat ditulis. Surat tulisan tangan semakin memperumit masalah. Namun demikian, algoritma pengenalan karakter optik mengambil tantangan ini. Setiap solusi OCR beroperasi dalam empat langkah utama:

Akuisisi gambar

Prosesnya melibatkan penggunaan pemindai optik untuk menangkap salinan digital dari dokumen kertas. Dokumen harus disejajarkan dan berukuran dengan benar.

Pra-pemrosesan

Tujuan dari fase ini adalah membuat file input dapat digunakan oleh algoritma OCR. Kebisingan dan latar belakang dihilangkan. Pra-pemrosesan meliputi langkah-langkah berikut:

  • Analisis tata letak: mengidentifikasi teks, kolom, dan grafik sebagai blok
  • De-skew: memiringkan dokumen digital untuk membuat garis horizontal jika tidak disejajarkan dengan benar selama pemindaian
  • Penyempurnaan gambar: menghaluskan tepi, menghilangkan partikel debu, meningkatkan kontras antara teks dan latar belakang
  • Deteksi teks: beberapa algoritme mendeteksi kata-kata yang terpisah dan membaginya menjadi huruf-huruf sementara yang lain bekerja dengan teks secara langsung tanpa membaginya menjadi karakter.
  • Binarisasi: mengubah dokumen yang dipindai menjadi format hitam putih, di mana area gelap mewakili karakter (abjad atau numerik) dan area putih diidentifikasi sebagai latar belakang. Langkah ini membantu untuk mengenali font yang berbeda.

Selama fase ini, algoritma pengenalan karakter optik melakukan manipulasi yang berbeda untuk mengenali huruf dan angka. Ada dua pendekatan utama:

  • Pengenalan pola: Algoritme OCR dilatih pada berbagai jenis font, format teks, dan gaya tulisan tangan untuk membandingkan karakter berbeda dari file input dengan apa yang telah mereka pelajari.
  • Pengenalan fitur: beberapa algoritme mendapat manfaat dari properti karakter yang diketahui, seperti garis silang dan lengkung, untuk mengidentifikasi karakter dalam file input. Misalnya, huruf "H" diidentifikasi sebagai dua garis vertikal dan satu garis horizontal yang bersilangan. Algoritme OCR yang didukung oleh jaringan saraf (NN) menggunakan logika yang berbeda di mana lapisan NN pertama mengumpulkan piksel dari file input untuk membuat peta fitur tingkat rendah dari gambar.

Setelah mendeteksi karakter, program mengubahnya menjadi American Standard Code for Information Exchange (ASCII) untuk memfasilitasi manipulasi lebih lanjut.

Pengolahan pasca

Outputnya bisa berupa string karakter atau file. Solusi OCR yang lebih canggih dapat mempertahankan struktur halaman asli dan membuat file PDF dengan teks yang dapat dicari. Meskipun sejauh ini tidak ada alat yang akan menjamin akurasi 100% pada file input yang berbeda, beberapa algoritme pengenalan karakter optik dapat mencapai akurasi yang mengesankan hingga 99,8% pada teks yang sudah dikenal. Menggunakan tulisan tangan secara signifikan akan membahayakan hasil. Juga, penting untuk dipahami bahwa dengan pelatihan yang buruk atau teks yang tidak dikenal, tingkat kesalahannya bisa mencapai 20%. Oleh karena itu, penting bagi pengguna untuk terus memantau, mengoreksi, dan mengoreksi keluaran algoritme OCR, terutama ketika jenis dokumen baru memasuki jalur pipa.

Fase pasca-pemrosesan juga dapat melibatkan pemrosesan bahasa alami (NLP) dan teknik AI lainnya untuk verifikasi data. AI tidak hanya dapat memperbaiki teks tetapi juga menangkap kesalahan dalam perhitungan. Mari kita asumsikan bahwa saat memproses faktur, algoritme OCR mengidentifikasi jumlah totalnya menjadi $500. AI dapat memverifikasi ini dengan menambahkan semua biaya dan mencari tahu bahwa itu tidak berjumlah $500. AI dapat memberi tahu karyawan manusia untuk meninjau kasus khusus ini.

Jika Anda ingin meningkatkan kualitas algoritme, Anda dapat bereksperimen dengan pustaka OCR open-source, seperti Tesseract, yang menggunakan kamus mereka sendiri untuk segmentasi karakter. Pendekatan lain adalah membuat daftar istilah khusus yang muncul kembali di domain Anda. Selain itu, pengulas dapat menggunakan umpan balik mereka sebagai masukan untuk sesi pelatihan algoritme pengenalan karakter optik lainnya.

Bagaimana algoritma OCR dapat menguntungkan bisnis Anda?

Inilah yang dapat dilakukan oleh solusi pengenalan karakter optik untuk Anda:

  • Kurangi biaya: mengonversi file ke format digital dan mengotomatiskan entri data mengurangi biaya dalam hal jam kerja karyawan
  • Tingkatkan kepuasan pelanggan: teknologi ini akan memungkinkan orang untuk memperbarui informasi pribadi mereka dari jarak jauh dengan memindai dokumen identifikasi alih-alih secara fisik mengunjungi bank atau tempat lain mana pun
  • Menawarkan opsi pencadangan yang lebih murah: tidak perlu menyimpan dokumen berbasis kertas bersama dengan duplikat dan rangkap tiganya, yang menghabiskan unit penyimpanan fisik yang mahal
  • Memfasilitasi terjemahan antar bahasa yang berbeda: beberapa alat OCR memiliki kemampuan untuk menerjemahkan dokumen dari satu bahasa ke bahasa lain
  • Mengotomatiskan alur kerja: menelusuri file digital dengan sistem manajemen yang baik lebih cepat daripada berurusan dengan dokumen kertas. Lebih sedikit proses yang akan ditunda saat mencari file fisik yang hilang. Jika Anda tertarik dengan solusi otomatisasi yang lebih komprehensif, Anda dapat memanfaatkan layanan otomatisasi proses cerdas yang mencakup OCR dan kemampuan canggih lainnya.

Solusi OCR tersedia di pasar

Jika Anda berpikir untuk memasukkan fitur OCR ke dalam sistem TI Anda, Anda memiliki beberapa opsi untuk dipilih.

Algoritme pengenalan karakter optik sumber terbuka

Ada beberapa algoritme OCR open-source yang dapat disesuaikan oleh bisnis dengan kebutuhan mereka. Solusi ini lebih mudah untuk disesuaikan karena kode sumbernya dapat diakses secara universal. Namun, tidak ada otoritas pusat. Pengembang solusi sumber terbuka tidak bertanggung jawab dan tidak menawarkan dukungan lebih lanjut. Oleh karena itu, kualitas kode dapat dipertanyakan. Opsi ini lebih cocok untuk perusahaan dengan departemen TI yang kuat yang mampu memperbaiki kerusakan apa pun. Atau, Anda dapat menghubungi konsultan pembelajaran mesin yang dapat menyesuaikan dan melatih ulang perangkat lunak ini untuk Anda.

Berikut adalah beberapa solusi OCR open-source yang umum digunakan:

Tesseract

Mesin sumber terbuka Tesseract adalah salah satu alat OCR paling populer, dan diyakini sebagai salah satu alat gratis paling akurat. Ini dikembangkan oleh Hewlett-Packard antara 1985 dan 1994. Mulai tahun 2006, platform ini dikelola dan dikembangkan lebih lanjut oleh Google. Tesseract ditulis dalam C++ tetapi menawarkan pembungkus di Java, Python, Swift, Ruby, dan R, dan beberapa bahasa pemrograman yang lebih umum.

Alat ini beroperasi menggunakan baris perintah dan tidak memiliki antarmuka pengguna grafis. Namun, ada beberapa opsi GUI yang dapat Anda terapkan untuk membuat solusi ini ramah pengguna. Salah satu contohnya adalah glmageReader. Antarmuka ini dikembangkan menggunakan Python dan mendukung berbagai format gambar, termasuk PNG, GIF, dan PNM.

Tesseract tidak menawarkan analisis tata letak halaman, tidak memformat output, dan antarmuka baris perintahnya mengharuskan semua gambar dikirimkan dalam format TIFF. Selain itu, solusi OCR ini tidak dioptimalkan untuk GPU dan tidak memungkinkan pemrosesan batch.

ocropus

OCRopus awalnya ditulis dengan Python dan sekarang memiliki versi C++ yang terpisah. Ini didukung oleh Google dan digunakan sebagai mesin OCR untuk algoritma Google ReCaptcha.

OCRopus memiliki tiga fitur utama:

  • Analisis tata letak fisik: mengidentifikasi blok teks, kolom, dan garis dan menentukan urutan bacaan. Misalnya, untuk mendeteksi kolom, ia menggunakan algoritme persegi panjang spasi putih maksimal untuk mendeteksi spasi putih di antara kolom.
  • Pengenalan garis: mengenali garis dalam setiap blok atau kolom, apakah itu garis vertikal atau kiri-ke-kanan.
  • Pemodelan bahasa statistik: menggunakan kamus dan tata bahasa stokastik untuk menyelesaikan masalah huruf yang hilang dan tidak teridentifikasi.

EasyOCR

Jaided AI, perusahaan pengenalan karakter optik, membuat paket EasyOCR menggunakan pustaka Python dan PyTorch dengan model pembelajaran mendalamnya. Ini mendukung lebih dari 80 bahasa termasuk skrip Cyrillic, Cina, dan Arab, dan basis ini terus berkembang. Sebagai bagian dari peta jalan implementasi, ada rencana untuk menambahkan opsi yang dapat dikonfigurasi untuk mengenali teks tulisan tangan.

Solusi OCR komersial

Solusi perangkat lunak sebagai layanan (SaaS) memungkinkan Anda memanfaatkan algoritme berkualitas tinggi dan menerima dukungan vendor penuh. Bergantung pada platform yang dipilih, Anda mungkin dapat melatih kembali algoritme OCR pada kumpulan data Anda dan bahkan menyesuaikannya lebih jauh dengan kebutuhan unik Anda.

Amazon Textract

Amazon Textract adalah layanan berbasis pembelajaran mesin yang mengekstrak teks tercetak dan tulisan tangan dari dokumen yang dipindai. Itu bisa bekerja dengan data tidak terstruktur dan dengan teks yang diformat, seperti formulir dan tabel. Solusinya menggunakan AI dan tidak memerlukan langkah atau template konfigurasi tambahan. Layanan ini aman dan sesuai dengan peraturan perlindungan data, seperti HIPAA dan GDPR. Amazon Textract menawarkan empat API yang dapat digunakan dan dibayar oleh pelanggan:

  • Deteksi API teks dokumen: mengekstrak teks cetak dan tulisan tangan yang tidak terstruktur dari pindaian. Biaya $0,0015 per halaman untuk satu juta halaman pertama; setelah itu harganya turun.
  • Analisis dokumen API: bekerja dengan data terstruktur. Ekstrak teks dari formulir dan tabel. Klien akan membayar $0,015 per halaman saat memproses tabel, dan $0,05 per halaman untuk formulir. Harga turun setelah satu juta halaman pertama.
  • Analisis API pengeluaran: berfungsi dengan faktur. Layanan ini memiliki taksonomi umum bidang terkait tanda terima. Misalnya, dapat mengenali nomor faktur. Pengguna akan membayar $0,01 per halaman untuk satu juta halaman pertama.
  • Analisis ID API: memahami konteks dokumen identitas, seperti SIM dan paspor, dan dapat mengekstrak teks dari bidang tertentu. Anda bisa mendapatkan keuntungan dari layanan ini sebesar $0,025 untuk 100.000 halaman pertama.

Visi Google Cloud

Google menawarkan Vision API, yang dapat mengekstrak teks cetak dan tulisan tangan dari dokumen dan gambar. Ini berisi dua fitur untuk pengenalan karakter optik:

  • Text_detection: mengekstrak teks dari gambar, seperti foto rambu lalu lintas
  • Document_text_detection: menangkap teks dalam dokumen dan gambar. Ini berbeda dari fitur sebelumnya karena responsnya dioptimalkan untuk teks padat.

Kedua fitur tersebut memungkinkan pengguna untuk memproses 1.000 unit pertama per bulan secara gratis. Setelah itu, Anda akan membayar $1,5 per setiap 1.000 unit. Harga ini akan turun saat Anda mengirimkan lebih banyak unit per bulan.

Visi Komputer Microsoft Azure

Microsoft menawarkan layanan OCR sebagai bagian dari API visi komputer generiknya, bukan sebagai fitur yang berdiri sendiri. Jadi, Anda membayar seluruh paket, yang, selain pengenalan karakter optik, termasuk identifikasi selebriti, landmark, merek, dan deteksi objek umum. API ini akan dikenakan biaya $1 per 1.000 transaksi untuk satu juta unit pertama. Setelah itu, harga turun menjadi $0,65 per 1.000 transaksi, dan akan terus menurun saat Anda mengirimkan lebih banyak konten.

Kasus penggunaan OCR teratas di berbagai industri

Algoritme pengenalan karakter optik mendapatkan daya tarik di berbagai industri. Di bawah ini adalah beberapa aplikasi OCR yang paling menonjol.

OCR di perbankan

Lembaga perbankan menggunakan banyak dokumen berbasis kertas dalam alur kerja mereka. Ini termasuk cek, catatan pelanggan, aplikasi pinjaman, laporan bank, dll. Mengadopsi algoritma pengenalan OCR memungkinkan karyawan untuk menyimpan dan mengakses semua dokumen ini secara digital dan mencegah kehilangan dan kerusakan dokumen.

Periksa penanganan

Salah satu contoh OCR di sektor ini adalah penggunaan aplikasi perbankan untuk menyetor cek berbasis kertas secara digital. Solusi ini menerapkan algoritme pengenalan karakter optik untuk mengidentifikasi bidang yang relevan dalam pemeriksaan dan melakukan operasi yang sesuai tanpa perlu karyawan mentransfer semua data ini secara manual. Selain itu, aplikasi tersebut dapat melakukan validasi tanda tangan terhadap database yang ada dan menghapus pemeriksaan dengan segera.

Orientasi pelanggan

Alih-alih meminta karyawan memverifikasi identitas klien secara manual, solusi bertenaga OCR dapat mengekstrak dan memvalidasi semua informasi yang relevan dari paspor orang tersebut dan dokumen ID lainnya. Ini memungkinkan verifikasi instan dan meningkatkan pengalaman pelanggan.

Pembaruan informasi klien

Daripada harus mengunjungi atau menelepon bank, dengan bantuan OCR, klien dapat memindai dokumen mereka untuk memperbarui informasi secara otomatis. Misalnya, Alfa-Bank bekerja sama dengan Smart Engines untuk menyempurnakan aplikasi perbankan mereka dengan kemampuan pengenalan karakter optik. Dengan fitur baru ini, nasabah dapat meletakkan dokumen ID di depan kamera smartphone, mengkonfirmasi data yang telah diekstrak, dan memperbarui informasinya di sistem perbankan.

OCR dalam perawatan kesehatan

Mirip dengan sektor perbankan, organisasi kesehatan mengumpulkan banyak dokumen kertas, seperti pemindaian sinar-X, hasil tes, rencana perawatan, dan sebagainya. Algoritme OCR membantu mendigitalkan file-file ini untuk mencegah hilangnya dokumen fisik dan mengurangi upaya yang terbuang untuk menangani file kertas secara manual. Selain itu, beberapa solusi OCR yang mengenali teks tulisan tangan dapat memproses dokumen pendaftaran pasien dan resep.

Sistem klaim medis

Ada vendor perangkat lunak yang berspesialisasi dalam pemrosesan klaim medis yang mendukung OCR. Salah satu perusahaan tersebut adalah OCR Solutions. Ini mengembangkan produk yang dapat memindai, memverifikasi, dan mengarahkan klaim medis dengan benar untuk penanganan lebih lanjut. Program ini dilatih dan dikonfigurasi untuk bekerja dengan format umum, seperti Formulir Klaim Gigi dan CMS-1500, antara lain.

Fax

Banyak fasilitas kesehatan yang masih mengandalkan faks. Solusi pengenalan karakter optik dapat mengubah materi yang masuk menjadi format yang disimpan secara digital yang dapat diakses.

Faktur

Solusi bertenaga OCR membantu organisasi layanan kesehatan mendigitalkan faktur dan mengarsipkannya dengan benar. Salah satu contoh OCR berasal dari Nanonets yang berbasis di San Francisco, yang menawarkan solusi bertenaga OCR yang berspesialisasi dalam pemrosesan faktur. Perusahaan mengklaim perangkat lunaknya akan mengurangi waktu entri data faktur dari tiga menit per faktur menjadi hanya 30 detik.

OCR di ritel

Algoritme pengenalan karakter optik memungkinkan karyawan ritel menghemat waktu dalam memproses pesanan pembelian, faktur, daftar pengepakan, dan dokumen lainnya. Solusi ini juga dapat mengekstrak nomor seri dari kode batang produk dan memungkinkan pelanggan memindai voucher mereka dan mengekstrak kode seri.

Pemindaian ID

Karyawan toko mungkin perlu memindai informasi pribadi karena berbagai alasan, seperti verifikasi usia, mengisi informasi untuk loyalitas pelanggan, dan banyak lagi. Vendor OCR memanfaatkan peluang ini.

Misalnya, Solusi OCR, yang berbasis di Florida, mengembangkan idMax, perangkat lunak bertenaga OCR yang dapat memindai dokumen ID, mengekstrak bidang yang relevan, dan mengisi basis data pengecer dengan informasi yang sesuai. idMax dapat diinstal secara lokal atau diakses melalui cloud.

Tantangan dalam mengadopsi solusi OCR dalam bisnis Anda

Jika Anda memutuskan untuk menerapkan algoritme pengenalan OCR untuk meningkatkan operasi Anda, ada beberapa aspek yang perlu Anda pertimbangkan:

Bahan input: pastikan semua file input cocok untuk algoritma OCR. Misalnya, file harus bebas dari kerusakan yang dapat mengganggu kemampuan algoritme untuk mengenali kontennya. Kontrasnya cukup tinggi, halaman disejajarkan dengan benar, dll. Beberapa algoritme memiliki kemampuan pra-pemrosesan yang kuat dan dapat menyelesaikan beberapa masalah ini untuk Anda. Tetapi jika tidak demikian, mungkin ide yang baik untuk berinvestasi dalam pemindai berkualitas tinggi dan memastikan keselarasan halaman yang tepat.

Kumpulan data pelatihan: jika Anda memutuskan untuk melatih atau melatih kembali algoritme pengenalan karakter optik, Anda perlu memastikan bahwa data yang Anda rencanakan untuk digunakan dengan tepat mewakili materi masukan Anda dan berisi anotasi yang cukup benar. Jika set data pelatihan Anda terlalu kecil atau tidak berisi anotasi yang memadai, algoritme tidak akan menghasilkan hasil yang diinginkan. Juga, selama pelatihan, Anda perlu memberi perhatian khusus pada karakter/simbol yang serupa. Misalnya, angka 2 dan 7 mungkin terlihat agak mirip, terutama jika algoritme diharapkan bekerja dengan teks tulisan tangan. Ilmuwan data perlu mencakup perbedaan tersebut dalam data pelatihan. Contoh lain dapat menggunakan algoritma OCR untuk mendeteksi dan menangkap plat nomor pada mobil. Anda perlu memastikan algoritme Anda tidak menggunakan stiker khusus dengan teks di bagian belakang mobil yang salah mengira itu sebagai plat nomor.

Teks tulisan tangan: dengan tulisan tangan muncul banyak tantangan OCR tambahan. Ada banyak variasi gaya penulisan di antara orang-orang yang berbeda, bahkan tulisan pengguna individu bisa jadi tidak konsisten. Mengumpulkan kumpulan data pelatihan representatif yang andal merupakan tantangan karena Anda perlu memperhitungkan semua gaya yang berbeda. Tulisan tangan kursif sangat menantang untuk diproses. Selain itu, meskipun teks yang dicetak berbentuk garis lurus, tulisan tangan cenderung memiliki rotasi yang berubah-ubah, yang semakin memperumit masalah.

Penskalaan: jika Anda menambah jumlah pengguna atau jumlah permintaan per slot waktu, sistem dapat runtuh, terutama jika Anda menggunakan solusi sumber terbuka dan mengandalkan daya komputasi Anda sendiri. Dalam hal produk OCR komersial yang berjalan di cloud, Anda dapat mengatur dan membayar lebih banyak kapasitas.

Pemantauan kinerja algoritme OCR: setelah penerapan, kinerja algoritme mungkin mulai menurun karena berbagai faktor. Salah satu contohnya adalah perubahan distribusi antara data pelatihan dan data produksi aktual. Hal ini terjadi saat model mulai bekerja pada kumpulan data yang tidak disiapkan, seperti font atau karakter yang berbeda dengan kemiringan yang tidak biasa. Perubahan ini akan memengaruhi keluaran model dari waktu ke waktu, dan Anda perlu mendeteksi masalah ini dan melatih kembali model yang sesuai untuk mempertahankan tingkat akurasi awalnya.

Untuk menyimpulkan

Algoritme pengenalan karakter optik berpotensi mempercepat proses bisnis Anda. Namun, ada tantangan terkait yang perlu dipertimbangkan. Algoritme yang dipilih kemungkinan memerlukan pelatihan ulang, dan menganotasi kumpulan data besar dengan benar merupakan tugas yang membosankan. Anda juga perlu memikirkan penskalaan potensial saat bisnis Anda berkembang.

Mengadopsi solusi open-source tampaknya menggiurkan dari segi harga, tetapi solusi ini memiliki kelemahan, seperti kurangnya dukungan dan pembaruan, yang dapat membuka celah keamanan. Solusi komersial lebih dapat diandalkan dalam hal ini tetapi bisa mahal dan sulit untuk disesuaikan.

Jika Anda tidak yakin tentang cara melanjutkan dan solusi OCR mana yang paling sesuai untuk bisnis Anda, jangan ragu untuk menghubungi kami. Di ITRex, kami akan dengan senang hati melakukan evaluasi menyeluruh terhadap kebutuhan bisnis Anda untuk menentukan opsi OCR terbaik. Kami juga dapat membantu Anda melatih kembali solusi yang dipilih dan mengintegrasikannya ke dalam sistem Anda. Kami juga dapat membuat algoritme OCR khusus, jika diperlukan.

Apakah Anda ingin mempercepat operasi Anda dengan pengenalan karakter optik? Jatuhkan ITRex satu baris! Pakar AI mereka akan membantu Anda dengan integrasi dan pelatihan solusi OCR. Mereka juga dapat mengembangkan algoritme khusus untuk Anda, jika diperlukan.


Awalnya diterbitkan di https://itrexgroup.com pada 6 April 2022.