Bagaimana Cara Kerja Mesin OCR?

Diterbitkan: 2022-08-06

Mengekstrak dan menggunakan kembali data dari dokumen yang dipindai, gambar kamera, dan PDF gambar saja bisa jadi rumit.

Namun, mesin OCR berbasis ML yang berteknologi canggih dapat melakukan tugas secara efisien.

Artikel ini akan membahas cara kerja mesin OCR dan mengapa SDK OCR bisa menjadi pilihan yang tepat untuk kebutuhan Anda.

= Daftar Isi sembunyikan
1 Apa itu Pengenalan Karakter Optik (OCR)?
1.1 Apa Pentingnya Mesin OCR?
2 Bagaimana Cara Kerja Mesin OCR?
2.1 Akuisisi Gambar
2.2 Prapemrosesan Gambar
2.3 Pengenalan Teks
2.4 Pencocokan Pola
2.5 Ekstraksi Fitur
2.6 Pascapemrosesan
3 Apa Kasus Penggunaan OCR yang Khas?
4 Apa Cara Utama Mesin OCR Membantu Bisnis Saat Ini?
5 Bagaimana Anda Dapat Mengintegrasikan OCR SDK?

Apa itu Pengenalan Karakter Optik (OCR)?

OCR – Pengenalan Karakter Optik – mengonversi gambar teks menjadi format teks yang dapat dibaca mesin dengan kemampuan AI.

OCR memiliki manfaat luar biasa dibandingkan pemindaian sederhana karena Anda tidak dapat mengedit, mencari, atau menghitung kata dalam file gambar menggunakan editor teks.

Namun, OCR dapat mengubah gambar menjadi dokumen teks, menyimpan isinya sebagai data teks.

Apa Pentingnya Mesin OCR?

Saat ini, sebagian besar alur kerja bisnis melibatkan penerimaan informasi dari media cetak. Faktur, formulir kertas, dokumen hukum yang dipindai, dan kontrak tercetak adalah bagian dari proses bisnis.

Dibutuhkan banyak waktu dan ruang untuk menyimpan dan mengelola volume besar dokumen ini.

Di sini, OCR menawarkan manfaat manajemen dokumen tanpa kertas dibandingkan intervensi manual, yang membosankan dan lambat.

Peningkatan teknologi OCR berbasis AI memecahkan masalah dengan mengubah gambar teks menjadi data teks yang dapat dianalisis oleh perangkat lunak bisnis lainnya.

Data yang diproses kemudian digabungkan untuk melakukan analitik, merampingkan operasi, dan mengotomatisasi proses, yang pada akhirnya meningkatkan produktivitas.

Bagaimana Cara Kerja Mesin OCR?

Akuisisi Gambar

Akuisisi gambar adalah langkah pertama di mana pemindai membaca dokumen dan mengubahnya menjadi data biner. Ini mengkategorikan area terang sebagai latar belakang dan area gelap sebagai teks untuk menganalisis gambar yang dipindai.

Prapemrosesan Gambar

Proses akuisisi datang dengan kotoran dan kesalahan. Jadi, mesin OCR terlebih dahulu membersihkan gambar dan membuang kesalahan sebelum membaca.

Teknik pembersihan ini:

  • Deskewing atau tilting : memperbaiki masalah keselarasan selama pemindaian.
  • Despeckling : menghapus semua titik gambar digital yang menghaluskan tepi gambar teks.
  • Kotak dan garis dibersihkan pada gambar.
  • Pengenalan skrip untuk teknologi OCR multi-bahasa.

Pengenalan Teks

Pencocokan pola dan ekstraksi fitur adalah dua jenis utama dari proses algoritma OCR yang digunakan perangkat lunak OCR untuk pengenalan teks.

Pencocokan Pola

Langkah selanjutnya adalah mencocokkan pola dengan memisahkan gambar karakter bernama mesin terbang dan membandingkannya dengan mesin terbang yang disimpan serupa.

Proses ini hanya berfungsi jika mesin terbang yang disimpan memiliki font dan skala yang mirip dengan mesin terbang masukan.

Ekstraksi Fitur

Langkah selanjutnya adalah ekstraksi fitur. Proses memecah atau menguraikan mesin terbang menjadi fitur seperti garis, loop tertutup, arah garis, dan persimpangan garis.

Fitur-fitur ini menemukan kecocokan terbaik atau tetangga terdekat di antara berbagai mesin terbang yang tersimpan.

Pengolahan pasca

Akhirnya, setelah analisis, sistem mengubah data teks yang diekstraksi menjadi file yang terkomputerisasi.

Apa Kasus Penggunaan OCR yang Khas?

  • Perbankan : Teknologi OCR membantu proses industri perbankan dan memverifikasi dokumen untuk dokumen pinjaman, cek deposito, dan transaksi keuangan lainnya. Ini telah meningkatkan pencegahan penipuan dan keamanan transaksi ditingkatkan.
  • Perawatan Kesehatan : OCR telah merevolusi industri perawatan kesehatan. Ini memproses catatan pasien, termasuk perawatan, tes, catatan rumah sakit, dan pembayaran asuransi. Baru-baru ini membantu merampingkan alur kerja dan mengurangi pekerjaan manual rumah sakit sambil menjaga catatan tetap up to date.
  • Dokumentasi Hukum : Teknologi OCR memfasilitasi dokumen hukum penting yang disetujui yang dapat dipindai dan disimpan dalam basis data elektronik untuk kemudahan pengambilan. Kemudian dokumen juga dapat dilihat dan dibagikan oleh banyak orang.
  • Logistik : Industri logistik kurang efisien sebelum teknologi OCR. Sebelumnya, pemasukan dokumen bisnis secara manual memakan waktu dan rawan kesalahan. Karena kejelian, karyawan harus memasukkan data ke dalam beberapa sistem akuntansi. Perusahaan logistik menggunakan OCR untuk melacak label paket, faktur, kwitansi, dan dokumen lainnya secara lebih efisien. Dengan Amazon Textract, perangkat lunak Foresight dapat membaca karakter lebih akurat di berbagai tata letak, yang meningkatkan efisiensi bisnis.

Apa Cara Utama Mesin OCR Membantu Bisnis Saat Ini?

  • Mengotomatiskan alur kerja
  • Mengubah file hanya-baca menjadi teks yang dapat diedit
  • Membuat file yang dapat didengar
  • Menerjemahkan bahasa asing
  • Mengelola formulir dan kuesioner
  • Mencapai entri data yang lebih cepat dan akurat

Bagaimana Anda Dapat Mengintegrasikan OCR SDK?

SDK OCR FileStack membantu mendigitalkan dokumen dan mengekstrak dan mengatur data dari kartu kredit, paspor, SIM, dan penerimaan pajak tanpa mengangkat jari.

OCR dari FileStack mengatur dan menyederhanakan proses pengambilan data, jadi Anda tidak perlu melakukannya.

Untuk mengekstrak teks di dalam dokumen kompleks dalam gambar, FileStack memiliki dua solusi berbasis pembelajaran mesin berbeda yang bekerja secara akurat.

  1. Pembelajaran tanpa pengawasan dengan pemrosesan gambar cerdas
  2. Segmentasi yang diawasi

Deteksi dokumen canggih dan alat prapemrosesan adalah tambahan terbaru FileStack yang dapat meningkatkan akurasi.

Pertama, API FileStack mengunggah gambar ke databasenya. Kemudian, ubah menjadi format terpadu, dan ubah ukurannya ke ukuran standar.

Setelah itu, mereka dimasukkan ke dalam deteksi dokumen dan alat prapemrosesan untuk membuat gambar lebih jelas untuk mesin OCR. Hasilnya menghasilkan respons JSON yang berisi semua informasi dari teks yang diekstraksi ke dalam gambar asli.

Di API pemrosesan, OCR tersedia sebagai operasi sinkron. Mengikuti tugas ini:

ocr

Sejalan dengan itu, tanggapannya:

{
"dokumen": {
“text_areas”: [
{
“bounding_box”: [
{
“x”: 834,
“y”: 478
},
{
"x": 3372,
“y”: 739
},
{
“x”: 3251,
“y”: 1907
},
{
“x”: 714,
“y”: 1646
}
],
"garis": [
{
“bounding_box”: [
{
“x”: 957,
“y”: 490
},
{
“x”: 3008,
“y”: 701
},
{
“x”: 2977,
“y”: 1009
},
{
"x": 925,
“y”: 797
}
],
"text": "Filestack dapat mendeteksi",
"kata-kata": [
{
“bounding_box”: [
{
“x”: 957,
“y”: 490
},
{
"x": 1833,
“y”: 580
},
{
“x”: 1802,
“y”: 888
},
{
"x": 925,
“y”: 797
}
],
"teks": "tumpukan file"
},
{
“bounding_box”: [
{
"x": 1916,
“y”: 589
},
{
"x": 2266,
“y”: 625
},
{
“x”: 2235,
“y”: 932
},
{
"x": 1884,
“y”: 896
}
],
"teks": "bisa"
},
{
“bounding_box”: [
{
“x”: 2336,
“y”: 632
},
{
“x”: 3008,
“y”: 701
},
{
“x”: 2977,
“y”: 1009
},
{
"x": 2304,
“y”: 939
}
],
"teks": "deteksi"
}
]
},
{
“bounding_box”: [
{
"x": 860,
“y”: 858
},
{
“x”: 3330,
“y”: 1049
},
{
"x": 3301,
“y”: 1421
},
{
“x”: 831,
“y”: 1229
}
],
“teks”: “dicetak dan ditulis tangan”,
"kata-kata": [
{
“bounding_box”: [
{
"x": 860,
“y”: 858
},
{
"x": 1550,
“y”: 912
},
{
“x”: 1521,
“y”: 1283
},
{
“x”: 831,
“y”: 1229
}
],
"teks": "dicetak"
},
{
“bounding_box”: [
{
"x": 1677,
“y”: 922
},
{
“x”: 2047,
“y”: 951
},
{
“x”: 2018,
“y”: 1321
},
{
"x": 1648,
“y”: 1292
}
],
"teks": "dan"
},
{
“bounding_box”: [
{
“x”: 2107,
“y”: 954
},
{
“x”: 3330,
“y”: 1049
},
{
"x": 3301,
“y”: 1421
},
{
“x”: 2078,
“y”: 1326
}
],
"teks": "tulisan tangan"
}
]
},
{
“bounding_box”: [
{
"x": 749,
“y”: 1305
},
{
“x”: 2504,
“y”: 1486
},
{
“x”: 2469,
“y”: 1826
},
{
“x”: 714,
“y”: 1645
}
],
"teks": "teks menggunakan OCR",
"kata-kata": [
{
“bounding_box”: [
{
"x": 749,
“y”: 1305
},
{
“x”: 1233,
“y”: 1355
},
{
“x”: 1198,
“y”: 1695
},
{
“x”: 714,
“y”: 1645
}
],
"teks": "teks"
},
{
“bounding_box”: [
{
“x”: 1317,
“y”: 1364
},
{
"x": 1910,
“y”: 1425
},
{
"x": 1875,
“y”: 1765
},
{
“x”: 1282,
“y”: 1704
}
],
"teks": "menggunakan"
},
{
“bounding_box”: [
{
“x”: 1972,
“y”: 1431
},
{
“x”: 2504,
“y”: 1486
},
{
“x”: 2469,
“y”: 1826
},
{
“x”: 1937,
“y”: 1771
}
],
"teks": "OCR"
}
]
}
],
“text”: “Filestack dapat mendeteksi\nteks yang dicetak dan ditulis tangan\nmenggunakan OCR”
}
]
},
“text”: “Filestack dapat mendeteksi\nteks yang dicetak dan ditulis tangan\nmenggunakan OCR\n”,
“text_area_percentage”: 23.40692449819434
}

Bergantung pada parameter respons, Anda bisa mendapatkan respons OCR pada gambar Anda seperti berikut:

https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/ocr/<HANDLE>

Anda dapat menggunakan OCR dalam rantai dengan tugas lain seperti doc_detection:

https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE>

Juga, gunakan OCR dengan URL eksternal:

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL>

Terakhir, gunakan OCR dengan Alias ​​Penyimpanan:

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE>