เครื่องยนต์ OCR ทำงานอย่างไร

เผยแพร่แล้ว: 2022-08-06

การแยกและการนำข้อมูลจากเอกสารที่สแกน ภาพจากกล้อง และ PDF เฉพาะรูปภาพกลับมาใช้ใหม่อาจเป็นเรื่องยาก

อย่างไรก็ตาม กลไก OCR ที่ใช้เทคโนโลยี ML ขั้นสูงสามารถทำงานได้อย่างมีประสิทธิภาพ

บทความนี้จะกล่าวถึงวิธีการทำงานของเอ็นจิ้น OCR และสาเหตุที่ OCR SDK อาจเหมาะสมกับความต้องการของคุณ

= สารบัญ ซ่อน
1 การรู้จำอักขระด้วยแสง (OCR) คืออะไร?
1.1 ความสำคัญของเครื่องยนต์ OCR คืออะไร?
2 เอ็นจิ้น OCR ทำงานอย่างไร
2.1 การรับภาพ
2.2 การประมวลผลภาพล่วงหน้า
2.3 การรู้จำข้อความ
2.4 การจับคู่รูปแบบ
2.5 การแยกคุณลักษณะ
2.6 การประมวลผลภายหลัง
3 กรณีการใช้งาน OCR ทั่วไปคืออะไร?
4 อะไรคือวิธีสำคัญที่ OCR Engines ช่วยเหลือธุรกิจในปัจจุบัน?
5 คุณจะผสานรวม OCR SDK ได้อย่างไร

การรู้จำอักขระด้วยแสง (OCR) คืออะไร?

OCR – การรู้จำอักขระด้วยแสง – แปลงรูปภาพของข้อความให้อยู่ในรูปแบบข้อความที่เครื่องอ่านได้ซึ่งเปิดใช้งาน AI

OCR มีประโยชน์มากกว่าการสแกนทั่วไป เนื่องจากคุณไม่สามารถแก้ไข ค้นหา หรือนับคำในไฟล์รูปภาพโดยใช้โปรแกรมแก้ไขข้อความได้

อย่างไรก็ตาม OCR สามารถแปลงรูปภาพเป็นเอกสารข้อความ โดยจัดเก็บเนื้อหาเป็นข้อมูลข้อความ

เครื่องยนต์ OCR มีความสำคัญอย่างไร?

ทุกวันนี้ เวิร์กโฟลว์ทางธุรกิจส่วนใหญ่เกี่ยวข้องกับการรับข้อมูลจากสื่อสิ่งพิมพ์ ใบแจ้งหนี้ แบบฟอร์มกระดาษ เอกสารทางกฎหมายที่สแกน และสัญญาที่พิมพ์ออกมาเป็นส่วนหนึ่งของกระบวนการทางธุรกิจ

ต้องใช้เวลาและพื้นที่มากในการจัดเก็บและจัดการเอกสารปริมาณมากเหล่านี้

ที่นี่ OCR ให้ประโยชน์ในการจัดการเอกสารแบบไร้กระดาษมากกว่าการแทรกแซงด้วยตนเองซึ่งน่าเบื่อและช้า

เทคโนโลยี OCR ที่ใช้ AI ที่ได้รับการปรับปรุงช่วยแก้ปัญหาโดยการแปลงภาพข้อความเป็นข้อมูลข้อความที่สามารถวิเคราะห์ได้โดยซอฟต์แวร์ธุรกิจอื่น

ข้อมูลที่ประมวลผลแล้วจะถูกรวมเข้าด้วยกันเพื่อดำเนินการวิเคราะห์ ปรับปรุงการดำเนินงาน และทำให้กระบวนการเป็นอัตโนมัติ ปรับปรุงประสิทธิภาพการทำงานในท้ายที่สุด

เครื่องยนต์ OCR ทำงานอย่างไร

การรับภาพ

การรับภาพเป็นขั้นตอนแรกที่เครื่องสแกนอ่านเอกสารและแปลงเป็นข้อมูลไบนารี โดยจัดหมวดหมู่พื้นที่สว่างเป็นพื้นหลังและส่วนมืดเป็นข้อความเพื่อวิเคราะห์ภาพที่สแกน

การประมวลผลภาพล่วงหน้า

กระบวนการได้มานั้นมาพร้อมกับความสกปรกและข้อผิดพลาด ดังนั้น เอ็นจิ้น OCR จะล้างรูปภาพก่อนและทิ้งข้อผิดพลาดก่อนอ่าน

เทคนิคการทำความสะอาดเหล่านี้:

  • การตั้งโต๊ะ หรือการ เอียง : แก้ไขปัญหาการจัดตำแหน่งระหว่างการสแกน
  • Despeckling : ลบจุดภาพดิจิทัลที่ทำให้ขอบของภาพข้อความเรียบ
  • กล่องและเส้นถูกทำความสะอาดในภาพ
  • การรับรู้สคริปต์สำหรับเทคโนโลยี OCR หลายภาษา

การรู้จำข้อความ

การจับคู่รูปแบบและการแยกคุณลักษณะเป็นกระบวนการ OCR หลักสองประเภทที่ซอฟต์แวร์ OCR ส่วนใหญ่ใช้สำหรับการรับรู้ข้อความ

การจับคู่รูปแบบ

ขั้นตอนต่อไปคือการจับคู่รูปแบบโดยแยกภาพตัวละครที่ชื่อ glyph และเปรียบเทียบกับสัญลักษณ์ที่จัดเก็บไว้ในลักษณะเดียวกัน

กระบวนการทำงานก็ต่อเมื่อสัญลักษณ์ที่เก็บไว้มีแบบอักษรและมาตราส่วนคล้ายกับสัญลักษณ์ป้อนเข้า

การแยกคุณลักษณะ

ขั้นตอนต่อไปคือการแยกคุณลักษณะ กระบวนการจะแบ่งหรือสลายร่ายมนตร์เป็นคุณลักษณะต่างๆ เช่น เส้น วงปิด ทิศทางของเส้น และทางแยกของเส้น

คุณสมบัติเหล่านี้ค้นหาการจับคู่ที่ดีที่สุดหรือเพื่อนบ้านที่ใกล้ที่สุดในบรรดาร่ายมนตร์ที่เก็บไว้ต่างๆ

หลังการประมวลผล

สุดท้าย หลังจากการวิเคราะห์ ระบบจะแปลงข้อมูลข้อความที่แยกออกมาเป็นไฟล์คอมพิวเตอร์

อะไรคือกรณีการใช้งาน OCR ทั่วไป?

  • การธนาคาร : เทคโนโลยี OCR ช่วยให้อุตสาหกรรมการธนาคารดำเนินการและตรวจสอบเอกสารสำหรับเอกสารเงินกู้ เช็คเงินฝาก และธุรกรรมทางการเงินอื่นๆ ได้ปรับปรุงการป้องกันการฉ้อโกงและความปลอดภัยของธุรกรรมที่เพิ่มขึ้น
  • การ ดูแลสุขภาพ : OCR ได้ปฏิวัติอุตสาหกรรมการดูแลสุขภาพ มันประมวลผลบันทึกผู้ป่วย รวมถึงการรักษา การทดสอบ บันทึกของโรงพยาบาล และการชำระเงินประกัน เพิ่งช่วยให้ขั้นตอนการทำงานคล่องตัวและลดการทำงานด้วยตนเองของโรงพยาบาลในขณะที่รักษาข้อมูลให้เป็นปัจจุบัน
  • เอกสารทางกฎหมาย : เทคโนโลยี OCR ช่วยอำนวยความสะดวกให้กับเอกสารทางกฎหมายที่ได้รับการอนุมัติที่สำคัญ ซึ่งสามารถสแกนและจัดเก็บไว้ในฐานข้อมูลอิเล็กทรอนิกส์เพื่อความสะดวกในการดึงข้อมูล จากนั้นหลายคนก็สามารถดูและแบ่งปันเอกสารได้
  • โลจิสติกส์ : อุตสาหกรรมโลจิสติกส์มีประสิทธิภาพน้อยกว่าก่อนเทคโนโลยี OCR ก่อนหน้านี้ การป้อนเอกสารทางธุรกิจด้วยตนเองใช้เวลานานและเกิดข้อผิดพลาดได้ง่าย เนื่องจากมองการณ์ไกล พนักงานจึงต้องป้อนข้อมูลลงในระบบบัญชีหลายระบบ บริษัทโลจิสติกส์ใช้ OCR เพื่อติดตามฉลากบรรจุภัณฑ์ ใบแจ้งหนี้ ใบเสร็จ และเอกสารอื่นๆ ได้อย่างมีประสิทธิภาพมากขึ้น ด้วย Amazon Texttract ซอฟต์แวร์ Foresight สามารถอ่านอักขระได้แม่นยำยิ่งขึ้นในเลย์เอาต์ต่างๆ มากมาย ซึ่งช่วยเพิ่มประสิทธิภาพทางธุรกิจ

อะไรคือวิธีสำคัญที่ OCR Engines ช่วยเหลือธุรกิจในปัจจุบัน?

  • เวิร์กโฟลว์อัตโนมัติ
  • เปลี่ยนไฟล์แบบอ่านอย่างเดียวให้เป็นข้อความที่แก้ไขได้
  • การสร้างไฟล์เสียง
  • แปลภาษาต่างประเทศ
  • การจัดการแบบฟอร์มและแบบสอบถาม
  • บันทึกข้อมูลได้รวดเร็วและแม่นยำยิ่งขึ้น

คุณจะผสานรวม OCR SDK ได้อย่างไร

OCR SDK ของ FileStack ช่วยแปลงเอกสารเป็นดิจิทัลและดึงและจัดระเบียบข้อมูลจากบัตรเครดิต หนังสือเดินทาง ใบขับขี่ และใบกำกับภาษีโดยไม่ต้องยกนิ้ว

OCR จาก FileStack จัดระเบียบและปรับปรุงกระบวนการบันทึกข้อมูล คุณจึงไม่ต้องทำ

ในการแยกข้อความภายในเอกสารที่ซับซ้อนในรูปภาพ FileStack มีสองโซลูชันที่ใช้การเรียนรู้ด้วยเครื่องที่แตกต่างกันซึ่งทำงานได้อย่างถูกต้อง

  1. การเรียนรู้แบบไม่มีผู้ดูแลด้วยการประมวลผลภาพอัจฉริยะ
  2. การแบ่งส่วนภายใต้การดูแล

เครื่องมือตรวจจับและประมวลผลเอกสารขั้นสูงเป็นส่วนเพิ่มเติมล่าสุดของ FileStack ที่สามารถเพิ่มความแม่นยำได้

ประการแรก API ของ FileStack จะอัปโหลดรูปภาพไปยังฐานข้อมูล จากนั้นแปลงเป็นรูปแบบรวมและปรับขนาดให้เป็นขนาดมาตรฐาน

หลังจากนั้น พวกมันจะถูกป้อนเข้าไปในการตรวจจับเอกสารและเครื่องมือประมวลผลล่วงหน้า เพื่อทำให้ภาพชัดเจนขึ้นสำหรับเอ็นจิ้น OCR ผลลัพธ์จะสร้างการตอบสนอง JSON ที่มีข้อมูลทั้งหมดของข้อความที่แยกออกมาเป็นรูปภาพต้นฉบับ

ใน API การประมวลผล OCR พร้อมใช้งานแบบซิงโครนัส ติดตามงานนี้:

ocr

ตามลําดับการตอบสนอง:

{
"เอกสาร": {
“text_areas”: [
{
“bounding_box”: [
{
“x”: 834,
“y”: 478
},
{
“x”: 3372,
“ย”: 739
},
{
“x”: 3251,
“y”: 1907
},
{
“x”: 714,
“ย”: 1646
}
],
“เส้น”: [
{
“bounding_box”: [
{
“x”: 957,
“y”: 490
},
{
“x”: 3008,
“ย”: 701
},
{
“x”: 2977,
“ย”: 1009
},
{
“x”: 925,
“ย”: 797
}
],
“text”: “Filestack สามารถตรวจจับได้”,
"คำ": [
{
“bounding_box”: [
{
“x”: 957,
“y”: 490
},
{
“x”: 1833,
“ย”: 580
},
{
“x”: 1802,
“ย”: 888
},
{
“x”: 925,
“ย”: 797
}
],
“ข้อความ”: “Filestack”
},
{
“bounding_box”: [
{
“x”: 2459,
“ย”: 589
},
{
“x”: 2266,
“y”: 625
},
{
“x”: 2235,
“ย”: 932
},
{
“x”: 2427,
“ย”: 896
}
],
“ข้อความ”: “สามารถ”
},
{
“bounding_box”: [
{
“เอ็กซ์”: 2336,
“ย”: 632
},
{
“x”: 3008,
“ย”: 701
},
{
“x”: 2977,
“ย”: 1009
},
{
“x”: 2304,
“ย”: 939
}
],
“ข้อความ”: “ตรวจจับ”
}
]
},
{
“bounding_box”: [
{
“x”: 860,
“ย”: 858
},
{
“x”: 3330,
“ย”: 1049
},
{
“x”: 3301,
“ย”: 1421
},
{
“x”: 831,
“ย”: 1229
}
],
“ข้อความ”: “พิมพ์และเขียนด้วยลายมือ”,
"คำ": [
{
“bounding_box”: [
{
“x”: 860,
“ย”: 858
},
{
“x”: 1550,
“ย”: 912
},
{
“x”: 1521,
“ย”: 1283
},
{
“x”: 831,
“ย”: 1229
}
],
“ข้อความ”: “พิมพ์”
},
{
“bounding_box”: [
{
“เอ็กซ์”: 1677,
“ย”: 922
},
{
“เอ็กซ์”: 2047,
“ย”: 951
},
{
“เอ็กซ์”: 2018,
“ย”: 1321
},
{
“เอ็กซ์”: 1648,
“ย”: 1292
}
],
“ข้อความ”: “และ”
},
{
“bounding_box”: [
{
“x”: 2107,
“ย”: 954
},
{
“x”: 3330,
“ย”: 1049
},
{
“x”: 3301,
“ย”: 1421
},
{
“x”: 2078,
“ย”: 1326
}
],
“ข้อความ”: “เขียนด้วยลายมือ”
}
]
},
{
“bounding_box”: [
{
“x”: 749,
“y”: 1305
},
{
“x”: 2504,
“ย”: 1486
},
{
“เอ็กซ์”: 2469,
“y”: 1826
},
{
“x”: 714,
“ย”: 1645
}
],
“ข้อความ”: “ข้อความที่ใช้ OCR”,
"คำ": [
{
“bounding_box”: [
{
“x”: 749,
“y”: 1305
},
{
“x”: 1233,
“ย”: 1355
},
{
“x”: 1198,
“ย”: 1695
},
{
“x”: 714,
“ย”: 1645
}
],
“ข้อความ”: “ข้อความ”
},
{
“bounding_box”: [
{
“x”: 1317,
“ย”: 1364
},
{
“x”: 2453,
“ย”: 1425
},
{
“x”: 2418,
“y”: 1765
},
{
“x”: 1282,
“ย”: 1704
}
],
“ข้อความ”: “ใช้”
},
{
“bounding_box”: [
{
“x”: 1972,
“ย”: 1431
},
{
“x”: 2504,
“ย”: 1486
},
{
“เอ็กซ์”: 2469,
“y”: 1826
},
{
“x”: 2480,
“ห”: 1771
}
],
“ข้อความ”: “OCR”
}
]
}
],
“ข้อความ”: “Filestack สามารถตรวจจับ\nที่พิมพ์และเขียนด้วยลายมือ\nข้อความโดยใช้ OCR”
}
]
},
“ข้อความ”: “Filestack สามารถตรวจจับ\nที่พิมพ์และเขียนด้วยลายมือ\nข้อความโดยใช้ OCR\n”,
“text_area_percentage”: 23.40692449819434
}

ขึ้นอยู่กับพารามิเตอร์การตอบสนอง คุณสามารถรับการตอบสนอง OCR บนรูปภาพของคุณดังต่อไปนี้:

https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/ocr/<HANDLE>

คุณสามารถใช้ OCR ร่วมกับงานอื่นๆ เช่น doc_detection:

https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE>

นอกจากนี้ ใช้ OCR กับ URL ภายนอก:

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL>

สุดท้าย ใช้ OCR กับ Storage Aliases:

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE>