كيف تعيد خوارزميات التعرف الضوئي على الحروف تعريف عمليات الأعمال؟

نشرت: 2022-04-14

يعد إدخال البيانات ونقلها من مكان إلى آخر مهمة متكررة تستغرق وقتًا طويلاً. يمكن لموظف واحد أن يقضي ما يصل إلى ثلاث ساعات في اليوم بسهولة في نقل البيانات. بالإضافة إلى التهام وقت العمال ، فإن المعالجة اليدوية للبيانات عرضة للأخطاء ، مما يؤدي إلى خسائر في الإيرادات.

كشف تقرير صادر عن شركة Dun & Bradstreet ، الذي يحقق في الماضي والمستقبل عن البيانات ، أن واحدة من كل خمس شركات تخسر أموالًا بسبب عدم اكتمال البيانات. يمكن أن تساعد تقنية التعرف البصري على الأحرف (OCR) الشركات في حل هذه المشكلات. يمكن لخوارزميات التعرف الضوئي على الحروف تحويل المستندات الورقية إلى نص قابل للتحرير.

يمكنهم أيضًا استخراج المعلومات من الملفات وإدخالها في الحقول المقابلة في أنظمة تكنولوجيا المعلومات الخاصة بالشركة. إذن ، كيف يعمل التعرف الضوئي على الحروف؟ كيف يمكن أن تساعدك هذه التكنولوجيا في تحقيق أهداف العمل؟ وهل يجب عليك الاتصال بمزود حلول الذكاء الاصطناعي لمساعدتك في إنشاء برنامج OCR وإعداده؟

ما هو التعرف الضوئي على الحروف وكيف يعمل؟

تعريف OCR

التعرف البصري على الأحرف عبارة عن تقنية تقوم بتحويل النص المكتوب أو المكتوب بخط اليد والصور المطبوعة التي تحتوي على نص إلى تنسيق بيانات رقمي يمكن قراءته آليًا. تساعد خوارزميات OCR في تحويل كميات كبيرة من المستندات الورقية إلى ملفات رقمية ، مما يسهل تخزين النص ومعالجته والبحث فيه.

تتكون أنظمة التعرف الضوئي على الحروف من أجهزة وبرامج. يمكن أن يكون جزء الجهاز عبارة عن ماسح ضوئي ضوئي أو جهاز مشابه يمكنه تحويل المستندات الورقية إلى تنسيق رقمي. جزء البرنامج هو خوارزمية التعرف الضوئي على الحروف نفسها.

كيف يعمل OCR؟

يصعب على أجهزة الكمبيوتر التعرف على الأحرف بسبب اختلاف الخطوط والاختلافات في كيفية كتابة حرف واحد. الرسائل المكتوبة بخط اليد تعقد الأمور أكثر. ومع ذلك ، فإن خوارزميات التعرف الضوئي على الحروف تواجه هذا التحدي. يعمل كل حل OCR في أربع خطوات رئيسية:

الحصول على الصور

تتضمن العملية استخدام ماسح ضوئي لالتقاط نسخة رقمية من المستند الورقي. يجب محاذاة المستند وحجمه بشكل صحيح.

ما قبل المعالجة

الهدف من هذه المرحلة هو جعل ملف الإدخال قابلاً للاستخدام بواسطة خوارزمية التعرف الضوئي على الحروف. يتم التخلص من الضوضاء والخلفية. تشمل المعالجة المسبقة الخطوات التالية:

  • تحليل التخطيط: تحديد التسميات التوضيحية والأعمدة والرسوم البيانية ككتل
  • إزالة الانحراف: إمالة المستند الرقمي لجعل الخطوط أفقية في حالة عدم محاذاتها بشكل صحيح أثناء المسح
  • تحسين الصورة: تنعيم الحواف وإزالة جزيئات الغبار وزيادة التباين بين النص والخلفية
  • اكتشاف النص: تكتشف بعض الخوارزميات كلمات منفصلة وتقسمها إلى أحرف بينما يعمل البعض الآخر مع النص مباشرة دون تقسيمه إلى أحرف.
  • الثنائية: تحويل المستند الممسوح ضوئيًا إلى تنسيق أبيض وأسود ، حيث تمثل المناطق المظلمة أحرفًا (أبجدية أو رقمية) ويتم تحديد المناطق البيضاء كخلفية. تساعد هذه الخطوة في التعرف على الخطوط المختلفة.

خلال هذه المرحلة ، تقوم خوارزميات التعرف الضوئي على الحروف بمعالجات مختلفة للتعرف على الحروف والأرقام. هناك طريقتان رئيسيتان:

  • التعرف على الأنماط: يتم تدريب خوارزميات التعرف الضوئي على الحروف على مجموعة متنوعة من الخطوط وتنسيقات النص وأنماط الكتابة اليدوية لمقارنة الأحرف المميزة من ملف الإدخال بما تعلموه.
  • التعرف على الميزات: تستفيد بعض الخوارزميات من خصائص الأحرف المعروفة ، مثل الخطوط المتقاطعة والمنحنية ، لتحديد الأحرف في ملفات الإدخال. على سبيل المثال ، يتم تحديد الحرف "H" كخطين عموديين وخط أفقي متقاطع. تستخدم خوارزميات OCR المدعومة من الشبكات العصبية (NN) منطقًا مختلفًا حيث تقوم طبقات NN الأولى بتجميع وحدات البكسل من ملف الإدخال لإنشاء خريطة معالم منخفضة المستوى للصورة.

بعد اكتشاف الأحرف ، يحولها البرنامج إلى الكود القياسي الأمريكي لتبادل المعلومات (ASCII) لتسهيل المزيد من التلاعب.

المعالجة البعدية

يمكن أن يكون الإخراج أساسيًا مثل سلسلة أحرف أو ملف. يمكن أن تحتفظ حلول OCR الأكثر تقدمًا بهيكل الصفحة الأصلي وإنشاء ملف PDF بنص يمكن البحث فيه. على الرغم من عدم وجود أدوات حتى الآن تضمن دقة 100٪ على ملفات الإدخال المختلفة ، يمكن لبعض خوارزميات التعرف الضوئي على الحروف تحقيق دقة مذهلة تصل إلى 99.8٪ على النصوص المألوفة. سيؤدي استخدام الكتابة اليدوية إلى الإضرار بالنتائج بشكل كبير. أيضًا ، من المهم أن نفهم أنه مع ضعف التدريب أو النصوص غير المألوفة ، يمكن أن يصل معدل الخطأ إلى 20٪. وبالتالي ، من الضروري أن يقوم المستخدمون بمراقبة إخراج خوارزميات OCR وتصحيحها وتصحيحها باستمرار ، خاصةً عند دخول نوع جديد من المستندات إلى خط الأنابيب.

يمكن أن تتضمن مرحلة ما بعد المعالجة أيضًا معالجة اللغة الطبيعية (NLP) وتقنيات الذكاء الاصطناعي الأخرى للتحقق من البيانات. لا يمكن للذكاء الاصطناعي تصحيح النص فحسب ، بل يمكنه أيضًا اكتشاف الأخطاء في الحسابات. لنفترض أنه أثناء معالجة الفاتورة ، حددت خوارزمية التعرف الضوئي على الحروف المبلغ الإجمالي ليكون 500 دولار. يمكن لمنظمة العفو الدولية التحقق من ذلك عن طريق إضافة جميع النفقات ومعرفة أنها لا تصل إلى 500 دولار. يمكن لمنظمة العفو الدولية إخطار الموظف البشري لمراجعة هذه الحالة بالذات.

إذا كنت ترغب في تحسين جودة الخوارزمية ، يمكنك تجربة مكتبات OCR مفتوحة المصدر ، مثل Tesseract ، التي تستخدم القاموس الخاص بها لتجزئة الأحرف. هناك طريقة أخرى تتمثل في إنشاء مسرد متخصص للمصطلحات المتكررة في مجالك. أيضًا ، يمكن للمراجعين استخدام ملاحظاتهم كمدخلات لجلسة تدريب أخرى على خوارزمية التعرف على الأحرف البصرية.

كيف يمكن لخوارزميات التعرف الضوئي على الحروف أن تفيد عملك؟

إليك ما يمكن أن تقدمه لك حلول التعرف الضوئي على الأحرف:

  • خفض التكاليف: يؤدي تحويل الملفات إلى التنسيق الرقمي وأتمتة إدخال البيانات إلى تقليل التكاليف من حيث ساعات عمل الموظفين
  • زيادة رضا العملاء: ستمكّن هذه التقنية الأشخاص من تحديث معلوماتهم الشخصية عن بُعد عن طريق مسح مستندات الهوية ضوئيًا بدلاً من زيارة أحد البنوك أو أي مؤسسة أخرى فعليًا
  • تقديم خيارات نسخ احتياطي أرخص: ليست هناك حاجة لتخزين المستندات الورقية مع نسخها المكررة وثلاث نسخ منها ، مما يستهلك وحدات تخزين فعلية باهظة الثمن
  • تسهيل الترجمة بين اللغات المختلفة: تتمتع بعض أدوات التعرف الضوئي على الحروف بالقدرة على ترجمة المستندات من لغة إلى أخرى
  • أتمتة سير العمل: يعد البحث في الملفات الرقمية مع وجود نظام إدارة جيد أسرع من التعامل مع المستندات الورقية. سيتم تعليق عمليات أقل أثناء البحث عن ملف مادي مفقود. إذا كنت مهتمًا بحل أتمتة أكثر شمولاً ، فيمكنك الاستفادة من خدمات أتمتة العمليات الذكية التي تشمل التعرف الضوئي على الحروف وغيرها من الإمكانات المتقدمة.

حلول OCR متوفرة في السوق

إذا كنت تفكر في دمج ميزات OCR في أنظمة تكنولوجيا المعلومات لديك ، فلديك العديد من الخيارات للاختيار من بينها.

خوارزميات التعرف الضوئي على الحروف مفتوحة المصدر

هناك العديد من خوارزميات OCR مفتوحة المصدر التي يمكن للشركات تكييفها مع احتياجاتها. هذه الحلول أسهل في التخصيص لأن كود المصدر الخاص بها يمكن الوصول إليه عالميًا. ومع ذلك ، لا توجد سلطة مركزية. مطورو الحلول مفتوحة المصدر لا يتحملون المسؤولية ولا يقدمون المزيد من الدعم. وبالتالي ، يمكن أن تكون جودة الكود موضع شك. يعد هذا الخيار أكثر ملاءمة للشركات التي لديها أقسام قوية لتكنولوجيا المعلومات قادرة على إصلاح أي عطل. بدلاً من ذلك ، يمكنك الوصول إلى مستشاري التعلم الآلي الذين يمكنهم تخصيص هذا البرنامج وإعادة تدريبه لك.

فيما يلي بعض حلول OCR مفتوحة المصدر شائعة الاستخدام:

تسراكت

يعد محرك Tesseract مفتوح المصدر أحد أكثر أدوات التعرف الضوئي على الحروف شيوعًا ، ويُعتقد أنه من بين أكثر الأدوات المجانية دقة. تم تطويره بواسطة Hewlett-Packard بين عامي 1985 و 1994. بدءًا من عام 2006 ، تمت إدارة هذه المنصة وتطويرها بواسطة Google. تمت كتابة Tesseract بلغة C ++ ولكنها توفر أغلفة بلغة Java و Python و Swift و Ruby و R ، وعدد قليل من لغات البرمجة الشائعة.

تعمل الأداة باستخدام سطر أوامر ولا تحتوي على واجهة مستخدم رسومية. ومع ذلك ، هناك العديد من خيارات واجهة المستخدم الرسومية التي يمكنك نشرها لجعل هذا الحل سهل الاستخدام. أحد الأمثلة على ذلك هو glmageReader. تم تطوير هذه الواجهة باستخدام Python وتدعم تنسيقات صور مختلفة ، بما في ذلك PNG و GIF و PNM.

لا تقدم Tesseract تحليل تخطيط الصفحة ، ولا تقوم بتنسيق الإخراج ، وتتطلب واجهة سطر الأوامر الخاصة بها إرسال جميع الصور بتنسيق TIFF. بالإضافة إلى ذلك ، لم يتم تحسين حل OCR هذا لوحدة معالجة الرسومات (GPU) ولا يسمح بمعالجة الدُفعات.

OCRopus

تمت كتابة OCRopus في الأصل بلغة Python ولديها الآن إصدار C ++ منفصل. وهي مدعومة من Google وتم استخدامها كمحرك OCR لخوارزمية Google ReCaptcha.

يحتوي برنامج OCRopus على ثلاث ميزات رئيسية:

  • تحليل التخطيط المادي: يحدد كتل النص والأعمدة والأسطر ويحدد ترتيب القراءة. على سبيل المثال ، لاكتشاف الأعمدة ، فإنه يستخدم خوارزمية مستطيلة ذات مسافة بيضاء قصوى لاكتشاف المسافات البيضاء بين الأعمدة.
  • التعرف على الخط: يتعرف على الخطوط داخل كل كتلة أو عمود ، سواء كانت خطوط رأسية أو خطوط من اليسار إلى اليمين.
  • نمذجة اللغة الإحصائية: تستخدم القواميس والقواعد العشوائية لحل مشكلة الأحرف المفقودة وغير المعرفة.

EasyOCR

قامت شركة Jaided AI ، وهي شركة للتعرف البصري على الأحرف ، ببناء حزمة EasyOCR باستخدام مكتبة Python و PyTorch مع نماذج التعلم العميق الخاصة بها. يدعم أكثر من 80 لغة بما في ذلك النصوص السيريلية والصينية والعربية ، وتستمر هذه القاعدة في التوسع. كجزء من خارطة طريق التنفيذ ، هناك خطط لإضافة خيارات قابلة للتكوين للتعرف على النص المكتوب بخط اليد.

حلول OCR التجارية

تتيح لك حلول البرمجيات كخدمة (SaaS) الاستفادة من خوارزميات عالية الجودة وتلقي دعم البائع الكامل. اعتمادًا على النظام الأساسي المحدد ، قد تتمكن من إعادة تدريب خوارزمية التعرف الضوئي على الحروف على مجموعة البيانات الخاصة بك وحتى تكييفها بشكل أكبر مع احتياجاتك الفريدة.

أمازون تيكستراكت

Amazon Textract هي خدمة قائمة على التعلم الآلي تستخرج النصوص المطبوعة والمكتوبة بخط اليد من المستندات الممسوحة ضوئيًا. يمكنه العمل مع البيانات غير المهيكلة والنص المنسق ، مثل النماذج والجداول. يستخدم الحل الذكاء الاصطناعي ولا يحتاج إلى أي خطوات تكوين أو قوالب إضافية. هذه الخدمة آمنة ومتوافقة مع لوائح حماية البيانات ، مثل HIPAA و GDPR. تقدم Amazon Textract أربع واجهات برمجة تطبيقات يمكن للعملاء استخدامها والدفع مقابلها وفقًا لذلك:

  • Detect document text API: لاستخراج النص المطبوع غير المهيكل والكتابة اليدوية من عمليات المسح. يكلف 0.0015 دولار لكل صفحة لأول مليون صفحة ؛ بعد ذلك ، ينخفض ​​السعر.
  • تحليل وثيقة API: تعمل مع البيانات المنظمة. يستخرج النص من النماذج والجداول. سيدفع العملاء 0.015 دولارًا لكل صفحة عند معالجة الجداول ، و 0.05 دولارًا لكل صفحة في حالة النماذج. ينخفض ​​السعر بعد أول مليون صفحة.
  • تحليل API المصاريف: يعمل مع الفواتير. تحتوي هذه الخدمة على تصنيف شائع للحقول المتعلقة بالاستلام. على سبيل المثال ، يمكنه التعرف على رقم الفاتورة. سيدفع المستخدمون 0.01 دولار لكل صفحة لأول مليون صفحة.
  • تحليل ID API: يفهم سياق وثائق الهوية ، مثل رخص القيادة وجوازات السفر ، ويمكنه استخراج نص من حقول محددة. يمكنك الاستفادة من هذه الخدمة مقابل 0.025 دولار لأول 100000 صفحة.

جوجل كلاود فيجن

تقدم Google Vision API ، والتي يمكنها استخراج النصوص المطبوعة والمكتوبة بخط اليد من المستندات والصور. يحتوي على ميزتين للتعرف البصري على الأحرف:

  • Text_detection: لاستخراج النص من الصور ، مثل الصور الفوتوغرافية لإشارات المرور
  • Document_text_detection: يلتقط النصوص في المستندات والصور. وهي تختلف عن الميزة السابقة حيث تم تحسين استجابتها للنصوص الكثيفة.

تسمح كلتا الميزتين للمستخدمين بمعالجة أول 1000 وحدة شهريًا مجانًا. بعد ذلك ستدفع 1.5 دولار لكل 1000 وحدة. سينخفض ​​هذا السعر كلما قدمت المزيد من الوحدات شهريًا.

Microsoft Azure Computer Vision

تقدم Microsoft خدمات التعرف الضوئي على الحروف كجزء من واجهة برمجة التطبيقات العامة لرؤية الكمبيوتر ، وليس كميزة قائمة بذاتها. لذا ، فأنت تدفع مقابل الحزمة بأكملها ، والتي تتضمن ، بالإضافة إلى التعرف البصري على الأحرف ، تحديد المشاهير والمعالم والعلامات التجارية والكشف العام عن الأشياء. ستكلفك واجهة برمجة التطبيقات هذه دولارًا واحدًا لكل 1000 معاملة للمليون وحدة الأولى. بعد ذلك ، ينخفض ​​السعر إلى 0.65 دولارًا لكل 1000 معاملة ، وسيستمر في الانخفاض مع إرسال المزيد من المحتوى.

أهم حالات استخدام التعرف الضوئي على الحروف في الصناعات المختلفة

تكتسب خوارزميات التعرف البصري على الأحرف قوة دفع في مختلف الصناعات. فيما يلي بعض من أبرز تطبيقات OCR.

التعرف الضوئي على الحروف في البنوك

تستخدم المؤسسات المصرفية الكثير من المستندات الورقية في مهام سير عملها. وتشمل هذه الشيكات وسجلات العملاء وتطبيقات القروض والبيانات المصرفية وما إلى ذلك. يسمح اعتماد خوارزميات التعرف الضوئي على الحروف للموظفين بتخزين جميع هذه المستندات والوصول إليها رقميًا ويمنع فقدان الأعمال الورقية وتلفها.

تحقق من المناولة

أحد الأمثلة على التعرف الضوئي على الحروف في هذا القطاع هو استخدام التطبيقات المصرفية لإيداع الشيكات الورقية رقميًا. تنشر هذه الحلول خوارزميات التعرف الضوئي على الأحرف لتحديد الحقول ذات الصلة في الشيكات وتنفيذ العمليات وفقًا لذلك دون الحاجة إلى قيام الموظف بنقل كل هذه البيانات يدويًا. بالإضافة إلى ذلك ، يمكن لهذه التطبيقات إجراء التحقق من صحة التوقيع مقابل قاعدة البيانات الحالية ومسح الاختيار على الفور.

العملاء على متن الطائرة

بدلاً من مطالبة الموظف بالتحقق من هوية العملاء يدويًا ، يمكن للحلول التي تعمل بنظام التعرف الضوئي على الحروف استخراج جميع المعلومات ذات الصلة والتحقق منها من جواز سفر الشخص ووثائق الهوية الأخرى. هذا يسمح بالتحقق الفوري وتحسين تجربة العميل.

تحديث معلومات العميل

بدلاً من الاضطرار إلى زيارة أحد البنوك أو الاتصال به ، بمساعدة OCR ، يمكن للعملاء مسح مستنداتهم لتحديث المعلومات تلقائيًا. على سبيل المثال ، تعاون Alfa-Bank مع Smart Engines لتحسين تطبيقهم المصرفي بإمكانيات التعرف الضوئي على الأحرف. باستخدام هذه الميزة الجديدة ، يمكن للعملاء وضع مستندات الهوية أمام كاميرات هواتفهم الذكية ، وتأكيد البيانات المستخرجة ، وتحديث معلوماتهم في النظام المصرفي.

التعرف الضوئي على الحروف في الرعاية الصحية

على غرار القطاع المصرفي ، تقوم مؤسسات الرعاية الصحية بتجميع العديد من المستندات الورقية ، مثل فحوصات الأشعة السينية ونتائج الاختبارات وخطط العلاج وما إلى ذلك. تساعد خوارزميات OCR في رقمنة هذه الملفات لمنع فقدان المستندات المادية وتقليل الجهود المهدرة في معالجة الملفات الورقية يدويًا. بالإضافة إلى ذلك ، يمكن لبعض حلول التعرف الضوئي على الحروف التي تتعرف على النص المكتوب بخط اليد معالجة أوراق تسجيل المريض والوصفات الطبية.

نظام المطالبات الطبية

يوجد بائعو برامج متخصصون في معالجة المطالبات الطبية التي تدعم التعرف الضوئي على الحروف. إحدى هذه الشركات هي حلول OCR. لقد طورت منتجًا يمكنه مسح المطالبات الطبية والتحقق منها وتوجيهها بشكل صحيح لمزيد من المعالجة. تم تدريب هذا البرنامج وتهيئته للعمل مع التنسيقات الشائعة ، مثل نماذج مطالبات الأسنان و CMS-1500 ، من بين أمور أخرى.

فاكس

لا تزال العديد من المرافق الطبية تعتمد على الفاكس. يمكن لحلول التعرف البصري على الأحرف تحويل المواد الواردة إلى تنسيق رقمي يمكن الوصول إليه ومخزن.

الفواتير

تساعد الحلول التي تعمل بتقنية التعرف الضوئي على الحروف مؤسسات الرعاية الصحية على رقمنة الفواتير وتقديمها بشكل صحيح. يأتي أحد أمثلة التعرف الضوئي على الحروف من شركة Nanonets ومقرها سان فرانسيسكو ، والتي تقدم حلاً يعمل بنظام التعرف الضوئي على الحروف ومتخصص في معالجة الفواتير. تدعي الشركة أن برنامجها سيقلل من وقت إدخال بيانات الفاتورة من ثلاث دقائق لكل فاتورة إلى 30 ثانية فقط.

التعرف الضوئي على الحروف في البيع بالتجزئة

تمكن خوارزميات التعرف البصري على الأحرف موظفي التجزئة من توفير الوقت في معالجة أوامر الشراء والفواتير وقوائم التعبئة والمستندات الأخرى. يمكن لهذه الحلول أيضًا استخراج الأرقام التسلسلية من الرموز الشريطية للمنتجات وتمكين العملاء من مسح قسائمهم واستخراج الرموز التسلسلية.

مسح الهوية

قد يحتاج موظفو المتجر إلى فحص المعلومات الشخصية لأسباب عديدة ، مثل التحقق من العمر ، وملء المعلومات من أجل ولاء العملاء ، والمزيد. يستفيد بائعو OCR من هذه الفرصة.

على سبيل المثال ، طورت حلول OCR ، ومقرها فلوريدا ، idMax ، وهو برنامج يعمل بنظام التعرف الضوئي على الحروف يمكنه مسح مستندات الهوية واستخراج الحقول ذات الصلة وملء قاعدة بيانات بائع التجزئة بالمعلومات المقابلة. يمكن تثبيت idMax محليًا أو الوصول إليه عبر السحابة.

تحديات اعتماد حل OCR في عملك

إذا قررت نشر خوارزميات التعرف الضوئي على الحروف لتحسين عملياتك ، فهناك العديد من الجوانب التي تحتاج إلى أخذها في الاعتبار:

مواد الإدخال: تأكد من أن جميع ملفات الإدخال مناسبة لخوارزمية التعرف الضوئي على الحروف. على سبيل المثال ، يجب أن تكون الملفات خالية من التلف الذي قد يتعارض مع قدرة الخوارزمية على التعرف على محتواها. التباين مرتفع بدرجة كافية ، والصفحات محاذية بشكل صحيح ، وما إلى ذلك. تتمتع بعض الخوارزميات بقدرات معالجة مسبقة قوية ويمكنها حل بعض هذه المشكلات نيابةً عنك. ولكن إذا لم يكن الأمر كذلك ، فربما يكون من الجيد الاستثمار في ماسح ضوئي عالي الجودة والتأكد من محاذاة الصفحة المناسبة.

مجموعة بيانات التدريب: إذا قررت تدريب أو إعادة تدريب خوارزميات التعرف الضوئي على الأحرف ، فأنت بحاجة إلى التأكد من أن البيانات التي تخطط لاستخدامها تمثل بأمانة مادة الإدخال الخاصة بك وتحتوي على عدد كافٍ من التعليقات التوضيحية الصحيحة. إذا كانت مجموعة بيانات التدريب صغيرة جدًا أو لا تحتوي على تعليقات توضيحية كافية ، فلن تحقق الخوارزمية النتائج المرجوة. أيضًا ، أثناء التدريب ، تحتاج إلى إيلاء اهتمام خاص للشخصيات / الرموز المتشابهة. على سبيل المثال ، قد تبدو الأرقام 2 و 7 متشابهة إلى حد ما ، خاصة إذا كان من المتوقع أن تعمل الخوارزمية مع نص مكتوب بخط اليد. يحتاج علماء البيانات إلى تغطية مثل هذه الفروق في بيانات التدريب. مثال آخر يمكن أن يكون استخدام خوارزميات OCR لاكتشاف والتقاط لوحات ترخيص السيارات. تحتاج إلى التأكد من أن الخوارزمية الخاصة بك لا تستخدم ملصقًا مخصصًا به نص على الجزء الخلفي من السيارة يظن أنه لوحة ترخيص.

نص مكتوب بخط اليد: يأتي مع الكتابة اليدوية العديد من تحديات التعرف الضوئي على الحروف الإضافية. هناك مجموعة كبيرة ومتنوعة من أساليب الكتابة بين مختلف الأشخاص ، حتى كتابة المستخدم الفردي يمكن أن تكون غير متسقة. يمثل جمع مجموعة بيانات تدريب تمثيلية موثوقة تحديًا حيث تحتاج إلى حساب جميع الأنماط المختلفة. الكتابة اليدوية المخطوطة صعبة بشكل خاص للمعالجة. أيضًا ، بينما يأتي النص المطبوع في خط مستقيم ، تميل الكتابة اليدوية إلى التدوير المتغير ، مما يعقد الأمور أكثر.

القياس: إذا قمت بزيادة عدد المستخدمين أو عدد الطلبات لكل فترة زمنية ، يمكن أن ينهار النظام ، خاصة إذا كنت تستخدم حلاً مفتوح المصدر وتعتمد على قوة الحوسبة الخاصة بك. في حالة منتجات OCR التجارية التي تعمل في السحابة ، يمكنك الترتيب والدفع مقابل المزيد من السعة.

مراقبة أداء خوارزمية OCR: بعد النشر ، قد يبدأ أداء الخوارزمية في التدهور بسبب عوامل مختلفة. أحد الأمثلة على ذلك هو التغيير في التوزيع بين بيانات التدريب وبيانات الإنتاج الفعلية. يحدث هذا عندما يبدأ النموذج في العمل على مجموعات البيانات التي لم يتم تحضيرها لها ، مثل الخطوط أو الأحرف المختلفة ذات الانحدارات غير المعتادة. ستؤثر هذه التغييرات على إخراج النموذج بمرور الوقت ، وتحتاج إلى اكتشاف هذه المشكلات وإعادة تدريب النموذج وفقًا لذلك للحفاظ على مستوى الدقة الأولي.

لتلخيص

خوارزميات التعرف البصري على الأحرف لديها القدرة على تسريع عمليات عملك. ومع ذلك ، هناك تحديات مرتبطة للنظر فيها. من المحتمل أن تحتاج الخوارزمية المحددة إلى إعادة التدريب ، وهي مهمة شاقة لإضافة تعليقات توضيحية لمجموعة كبيرة من البيانات بشكل صحيح. تحتاج أيضًا إلى التفكير في التوسع المحتمل مع توسع عملك.

يبدو اعتماد حل مفتوح المصدر مغريًا من حيث السعر ولكنه يأتي مع عيوبه ، مثل نقص الدعم والتحديثات ، والتي يمكن أن تفتح ثغرات أمنية. تعتبر الحلول التجارية أكثر موثوقية في هذا الصدد ولكنها قد تكون مكلفة ويصعب تخصيصها.

إذا لم تكن متأكدًا من كيفية المتابعة وأي حل OCR هو الأنسب لعملك ، فلا تتردد في التواصل معنا. في ITRex ، يسعدنا إجراء تقييم شامل لاحتياجات عملك لتحديد أفضل خيار OCR. يمكننا أيضًا مساعدتك في إعادة تدريب الحل المحدد ودمجه في نظامك. يمكننا أيضًا إنشاء خوارزمية OCR مخصصة ، إذا لزم الأمر.

هل تريد تسريع عملياتك باستخدام التعرف الضوئي على الأحرف؟ إسقاط ITRex خطا! سيساعدك خبراء الذكاء الاصطناعي في دمج حلول OCR والتدريب عليها. يمكنهم أيضًا تطوير خوارزميات مخصصة لك ، إذا لزم الأمر.


نُشر في الأصل على https://itrexgroup.com في 6 أبريل 2022.