เครื่องยนต์ OCR ทำงานอย่างไร
เผยแพร่แล้ว: 2022-08-06การแยกและการนำข้อมูลจากเอกสารที่สแกน ภาพจากกล้อง และ PDF เฉพาะรูปภาพกลับมาใช้ใหม่อาจเป็นเรื่องยาก
อย่างไรก็ตาม กลไก OCR ที่ใช้เทคโนโลยี ML ขั้นสูงสามารถทำงานได้อย่างมีประสิทธิภาพ
บทความนี้จะกล่าวถึงวิธีการทำงานของเอ็นจิ้น OCR และสาเหตุที่ OCR SDK อาจเหมาะสมกับความต้องการของคุณ
การรู้จำอักขระด้วยแสง (OCR) คืออะไร?
OCR – การรู้จำอักขระด้วยแสง – แปลงรูปภาพของข้อความให้อยู่ในรูปแบบข้อความที่เครื่องอ่านได้ซึ่งเปิดใช้งาน AI
OCR มีประโยชน์มากกว่าการสแกนทั่วไป เนื่องจากคุณไม่สามารถแก้ไข ค้นหา หรือนับคำในไฟล์รูปภาพโดยใช้โปรแกรมแก้ไขข้อความได้
อย่างไรก็ตาม OCR สามารถแปลงรูปภาพเป็นเอกสารข้อความ โดยจัดเก็บเนื้อหาเป็นข้อมูลข้อความ
เครื่องยนต์ OCR มีความสำคัญอย่างไร?
ทุกวันนี้ เวิร์กโฟลว์ทางธุรกิจส่วนใหญ่เกี่ยวข้องกับการรับข้อมูลจากสื่อสิ่งพิมพ์ ใบแจ้งหนี้ แบบฟอร์มกระดาษ เอกสารทางกฎหมายที่สแกน และสัญญาที่พิมพ์ออกมาเป็นส่วนหนึ่งของกระบวนการทางธุรกิจ
ต้องใช้เวลาและพื้นที่มากในการจัดเก็บและจัดการเอกสารปริมาณมากเหล่านี้
ที่นี่ OCR ให้ประโยชน์ในการจัดการเอกสารแบบไร้กระดาษมากกว่าการแทรกแซงด้วยตนเองซึ่งน่าเบื่อและช้า
เทคโนโลยี OCR ที่ใช้ AI ที่ได้รับการปรับปรุงช่วยแก้ปัญหาโดยการแปลงภาพข้อความเป็นข้อมูลข้อความที่สามารถวิเคราะห์ได้โดยซอฟต์แวร์ธุรกิจอื่น
ข้อมูลที่ประมวลผลแล้วจะถูกรวมเข้าด้วยกันเพื่อดำเนินการวิเคราะห์ ปรับปรุงการดำเนินงาน และทำให้กระบวนการเป็นอัตโนมัติ ปรับปรุงประสิทธิภาพการทำงานในท้ายที่สุด
เครื่องยนต์ OCR ทำงานอย่างไร
การรับภาพ
การรับภาพเป็นขั้นตอนแรกที่เครื่องสแกนอ่านเอกสารและแปลงเป็นข้อมูลไบนารี โดยจัดหมวดหมู่พื้นที่สว่างเป็นพื้นหลังและส่วนมืดเป็นข้อความเพื่อวิเคราะห์ภาพที่สแกน
การประมวลผลภาพล่วงหน้า
กระบวนการได้มานั้นมาพร้อมกับความสกปรกและข้อผิดพลาด ดังนั้น เอ็นจิ้น OCR จะล้างรูปภาพก่อนและทิ้งข้อผิดพลาดก่อนอ่าน
เทคนิคการทำความสะอาดเหล่านี้:
การรู้จำข้อความ
การจับคู่รูปแบบและการแยกคุณลักษณะเป็นกระบวนการ OCR หลักสองประเภทที่ซอฟต์แวร์ OCR ส่วนใหญ่ใช้สำหรับการรับรู้ข้อความ
การจับคู่รูปแบบ
ขั้นตอนต่อไปคือการจับคู่รูปแบบโดยแยกภาพตัวละครที่ชื่อ glyph และเปรียบเทียบกับสัญลักษณ์ที่จัดเก็บไว้ในลักษณะเดียวกัน
กระบวนการทำงานก็ต่อเมื่อสัญลักษณ์ที่เก็บไว้มีแบบอักษรและมาตราส่วนคล้ายกับสัญลักษณ์ป้อนเข้า
การแยกคุณลักษณะ
ขั้นตอนต่อไปคือการแยกคุณลักษณะ กระบวนการจะแบ่งหรือสลายร่ายมนตร์เป็นคุณลักษณะต่างๆ เช่น เส้น วงปิด ทิศทางของเส้น และทางแยกของเส้น
คุณสมบัติเหล่านี้ค้นหาการจับคู่ที่ดีที่สุดหรือเพื่อนบ้านที่ใกล้ที่สุดในบรรดาร่ายมนตร์ที่เก็บไว้ต่างๆ
หลังการประมวลผล
สุดท้าย หลังจากการวิเคราะห์ ระบบจะแปลงข้อมูลข้อความที่แยกออกมาเป็นไฟล์คอมพิวเตอร์
อะไรคือกรณีการใช้งาน OCR ทั่วไป?
อะไรคือวิธีสำคัญที่ OCR Engines ช่วยเหลือธุรกิจในปัจจุบัน?
คุณจะผสานรวม OCR SDK ได้อย่างไร
OCR SDK ของ FileStack ช่วยแปลงเอกสารเป็นดิจิทัลและดึงและจัดระเบียบข้อมูลจากบัตรเครดิต หนังสือเดินทาง ใบขับขี่ และใบกำกับภาษีโดยไม่ต้องยกนิ้ว
OCR จาก FileStack จัดระเบียบและปรับปรุงกระบวนการบันทึกข้อมูล คุณจึงไม่ต้องทำ
ในการแยกข้อความภายในเอกสารที่ซับซ้อนในรูปภาพ FileStack มีสองโซลูชันที่ใช้การเรียนรู้ด้วยเครื่องที่แตกต่างกันซึ่งทำงานได้อย่างถูกต้อง
- การเรียนรู้แบบไม่มีผู้ดูแลด้วยการประมวลผลภาพอัจฉริยะ
- การแบ่งส่วนภายใต้การดูแล
เครื่องมือตรวจจับและประมวลผลเอกสารขั้นสูงเป็นส่วนเพิ่มเติมล่าสุดของ FileStack ที่สามารถเพิ่มความแม่นยำได้
ประการแรก API ของ FileStack จะอัปโหลดรูปภาพไปยังฐานข้อมูล จากนั้นแปลงเป็นรูปแบบรวมและปรับขนาดให้เป็นขนาดมาตรฐาน
หลังจากนั้น พวกมันจะถูกป้อนเข้าไปในการตรวจจับเอกสารและเครื่องมือประมวลผลล่วงหน้า เพื่อทำให้ภาพชัดเจนขึ้นสำหรับเอ็นจิ้น OCR ผลลัพธ์จะสร้างการตอบสนอง JSON ที่มีข้อมูลทั้งหมดของข้อความที่แยกออกมาเป็นรูปภาพต้นฉบับ
ใน API การประมวลผล OCR พร้อมใช้งานแบบซิงโครนัส ติดตามงานนี้:
ocr |
ตามลําดับการตอบสนอง:
{ "เอกสาร": { “text_areas”: [ { “bounding_box”: [ { “x”: 834, “y”: 478 }, { “x”: 3372, “ย”: 739 }, { “x”: 3251, “y”: 1907 }, { “x”: 714, “ย”: 1646 } ], “เส้น”: [ { “bounding_box”: [ { “x”: 957, “y”: 490 }, { “x”: 3008, “ย”: 701 }, { “x”: 2977, “ย”: 1009 }, { “x”: 925, “ย”: 797 } ], “text”: “Filestack สามารถตรวจจับได้”, "คำ": [ { “bounding_box”: [ { “x”: 957, “y”: 490 }, { “x”: 1833, “ย”: 580 }, { “x”: 1802, “ย”: 888 }, { “x”: 925, “ย”: 797 } ], “ข้อความ”: “Filestack” }, { “bounding_box”: [ { “x”: 2459, “ย”: 589 }, { “x”: 2266, “y”: 625 }, { “x”: 2235, “ย”: 932 }, { “x”: 2427, “ย”: 896 } ], “ข้อความ”: “สามารถ” }, { “bounding_box”: [ { “เอ็กซ์”: 2336, “ย”: 632 }, { “x”: 3008, “ย”: 701 }, { “x”: 2977, “ย”: 1009 }, { “x”: 2304, “ย”: 939 } ], “ข้อความ”: “ตรวจจับ” } ] }, { “bounding_box”: [ { “x”: 860, “ย”: 858 }, { “x”: 3330, “ย”: 1049 }, { “x”: 3301, “ย”: 1421 }, { “x”: 831, “ย”: 1229 } ], “ข้อความ”: “พิมพ์และเขียนด้วยลายมือ”, "คำ": [ { “bounding_box”: [ { “x”: 860, “ย”: 858 }, { “x”: 1550, “ย”: 912 }, { “x”: 1521, “ย”: 1283 }, { “x”: 831, “ย”: 1229 } ], “ข้อความ”: “พิมพ์” }, { “bounding_box”: [ { “เอ็กซ์”: 1677, “ย”: 922 }, { “เอ็กซ์”: 2047, “ย”: 951 }, { “เอ็กซ์”: 2018, “ย”: 1321 }, { “เอ็กซ์”: 1648, “ย”: 1292 } ], “ข้อความ”: “และ” }, { “bounding_box”: [ { “x”: 2107, “ย”: 954 }, { “x”: 3330, “ย”: 1049 }, { “x”: 3301, “ย”: 1421 }, { “x”: 2078, “ย”: 1326 } ], “ข้อความ”: “เขียนด้วยลายมือ” } ] }, { “bounding_box”: [ { “x”: 749, “y”: 1305 }, { “x”: 2504, “ย”: 1486 }, { “เอ็กซ์”: 2469, “y”: 1826 }, { “x”: 714, “ย”: 1645 } ], “ข้อความ”: “ข้อความที่ใช้ OCR”, "คำ": [ { “bounding_box”: [ { “x”: 749, “y”: 1305 }, { “x”: 1233, “ย”: 1355 }, { “x”: 1198, “ย”: 1695 }, { “x”: 714, “ย”: 1645 } ], “ข้อความ”: “ข้อความ” }, { “bounding_box”: [ { “x”: 1317, “ย”: 1364 }, { “x”: 2453, “ย”: 1425 }, { “x”: 2418, “y”: 1765 }, { “x”: 1282, “ย”: 1704 } ], “ข้อความ”: “ใช้” }, { “bounding_box”: [ { “x”: 1972, “ย”: 1431 }, { “x”: 2504, “ย”: 1486 }, { “เอ็กซ์”: 2469, “y”: 1826 }, { “x”: 2480, “ห”: 1771 } ], “ข้อความ”: “OCR” } ] } ], “ข้อความ”: “Filestack สามารถตรวจจับ\nที่พิมพ์และเขียนด้วยลายมือ\nข้อความโดยใช้ OCR” } ] }, “ข้อความ”: “Filestack สามารถตรวจจับ\nที่พิมพ์และเขียนด้วยลายมือ\nข้อความโดยใช้ OCR\n”, “text_area_percentage”: 23.40692449819434 } |
ขึ้นอยู่กับพารามิเตอร์การตอบสนอง คุณสามารถรับการตอบสนอง OCR บนรูปภาพของคุณดังต่อไปนี้:
https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/ocr/<HANDLE> |
คุณสามารถใช้ OCR ร่วมกับงานอื่นๆ เช่น doc_detection:
https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE> |
นอกจากนี้ ใช้ OCR กับ URL ภายนอก:
https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL> |
สุดท้าย ใช้ OCR กับ Storage Aliases:
https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE> |