OCR 엔진은 어떻게 작동합니까?
게시 됨: 2022-08-06스캔한 문서, 카메라 이미지 및 이미지 전용 PDF에서 데이터를 추출하고 용도를 변경하는 것은 까다로울 수 있습니다.
그러나 기술적으로 발전된 ML 기반 OCR 엔진은 작업을 효율적으로 수행할 수 있습니다.
이 기사에서는 OCR 엔진이 작동하는 방식과 OCR SDK가 귀하의 요구 사항에 적합한 이유에 대해 설명합니다.
광학 문자 인식(OCR)이란 무엇입니까?
OCR – 광학 문자 인식 – 텍스트 이미지를 AI 지원 기계 판독 가능 텍스트 형식으로 변환합니다.
OCR은 텍스트 편집기를 사용하여 이미지 파일의 단어를 편집, 검색 또는 계산할 수 없기 때문에 간단한 스캔에 비해 엄청난 이점이 있습니다.
그러나 OCR은 이미지를 텍스트 문서로 변환하여 내용을 텍스트 데이터로 저장할 수 있습니다.
OCR 엔진의 중요성은 무엇입니까?
오늘날 대부분의 비즈니스 워크플로에는 인쇄 매체에서 정보를 수신하는 작업이 포함됩니다. 송장, 종이 양식, 스캔한 법률 문서 및 인쇄된 계약서는 비즈니스 프로세스의 일부입니다.
이렇게 방대한 양의 문서를 저장하고 관리하려면 많은 시간과 공간이 필요합니다.
여기서 OCR은 지루하고 느린 수동 개입에 비해 종이 없는 문서 관리 이점을 제공합니다.
개선된 AI 기반 OCR 기술은 텍스트 이미지를 다른 비즈니스 소프트웨어에서 분석할 수 있는 텍스트 데이터로 변환하여 문제를 해결합니다.
그런 다음 처리된 데이터를 통합하여 분석을 수행하고 운영을 간소화하며 프로세스를 자동화하여 궁극적으로 생산성을 향상시킵니다.
OCR 엔진은 어떻게 작동합니까?
이미지 수집
이미지 획득은 스캐너가 문서를 읽고 이진 데이터로 변환하는 첫 번째 단계입니다. 밝은 영역을 배경으로, 어두운 영역을 텍스트로 분류하여 스캔한 이미지를 분석합니다.
이미지 전처리
획득 프로세스에는 먼지와 오류가 있습니다. 따라서 OCR 엔진은 먼저 이미지를 정리하고 읽기 전에 오류를 삭제합니다.
이러한 청소 기술:
텍스트 인식
패턴 일치 및 특징 추출은 OCR 소프트웨어가 주로 텍스트 인식에 사용하는 두 가지 주요 유형의 OCR 알고리즘 프로세스입니다.
패턴 매칭
다음 단계는 glyph라는 문자 이미지를 분리하고 유사하게 저장된 glyph 와 비교하여 패턴을 일치시키는 것입니다.
이 프로세스는 저장된 글리프가 입력 글리프와 유사한 글꼴 및 배율을 가질 때만 작동합니다.
특징 추출
다음 단계는 특징 추출입니다. 이 프로세스는 글리프를 선, 닫힌 루프, 선 방향 및 선 교차점과 같은 기능으로 분해하거나 분해합니다.
이러한 기능은 저장된 다양한 글리프 중에서 가장 일치하는 항목이나 가장 가까운 이웃을 찾습니다.
후처리
마지막으로 분석 후 시스템은 추출된 텍스트 데이터를 컴퓨터 파일로 변환합니다.
일반적인 OCR 사용 사례는 무엇입니까?
오늘날 OCR 엔진이 비즈니스를 지원하는 주요 방법은 무엇입니까?
OCR SDK를 어떻게 통합할 수 있습니까?
FileStack의 OCR SDK는 손가락 하나 까딱하지 않고도 문서를 디지털화하고 신용 카드, 여권, 운전 면허증 및 세금 영수증에서 데이터를 추출 및 구성하는 데 도움이 됩니다.
FileStack의 OCR은 데이터 캡처 프로세스를 구성하고 간소화하므로 그럴 필요가 없습니다.
이미지에서 복잡한 문서 내부의 텍스트를 추출하기 위해 FileStack에는 정확하게 작동하는 두 가지 기계 학습 기반 솔루션이 있습니다.
- 지능형 이미지 처리를 통한 비지도 학습
- 감독된 세분화
고급 문서 감지 및 사전 처리 도구는 정확성을 높일 수 있는 FileStack의 최신 추가 기능입니다.
첫째, FileStack의 API는 이미지를 데이터베이스에 업로드합니다. 그런 다음 통합된 형식으로 변환하고 표준 크기로 크기를 조정합니다.
그런 다음 OCR 엔진에서 이미지를 더 선명하게 만들기 위해 문서 감지 및 전처리 도구에 입력됩니다. 결과는 추출된 텍스트의 모든 정보를 원본 이미지에 포함하는 JSON 응답을 생성합니다.
처리 API에서 OCR은 동기 작업으로 사용할 수 있습니다. 이 작업에 따라:
ocr |
이에 따라 응답은 다음과 같습니다.
{ "문서": { "텍스트 영역": [ { "bounding_box": [ { "x": 834, "y": 478 }, { "x": 3372, "y": 739 }, { "x": 3251, "y": 1907 }, { "x": 714, "y": 1646 } ], "선": [ { "bounding_box": [ { "x": 957, "y": 490 }, { "x": 3008, "y": 701 }, { "x": 2977, "y": 1009 }, { "x": 925, "y": 797 } ], "텍스트": "Filestack이 감지할 수 있음", "단어": [ { "bounding_box": [ { "x": 957, "y": 490 }, { "x": 1833, "y": 580 }, { "x": 1802, "y": 888 }, { "x": 925, "y": 797 } ], "텍스트": "파일 스택" }, { "bounding_box": [ { "x": 1916, "y": 589 }, { "x": 2266, "y": 625 }, { "x": 2235, "y": 932 }, { "x": 1884, "y": 896 } ], "텍스트": "할 수 있습니다" }, { "bounding_box": [ { "x": 2336, "y": 632 }, { "x": 3008, "y": 701 }, { "x": 2977, "y": 1009 }, { "x": 2304, "y": 939 } ], "텍스트": "감지" } ] }, { "bounding_box": [ { "x": 860, "y": 858 }, { "x": 3330, "y": 1049 }, { "x": 3301, "y": 1421 }, { "x": 831, "y": 1229 } ], "텍스트": "인쇄 및 필기", "단어": [ { "bounding_box": [ { "x": 860, "y": 858 }, { "x": 1550, "y": 912 }, { "x": 1521, "y": 1283 }, { "x": 831, "y": 1229 } ], "텍스트": "인쇄된" }, { "bounding_box": [ { "x": 1677, "y": 922 }, { "x": 2047, "y": 951 }, { "x": 2018, "y": 1321 }, { "x": 1648, "y": 1292 } ], "텍스트": "그리고" }, { "bounding_box": [ { "x": 2107, "y": 954 }, { "x": 3330, "y": 1049 }, { "x": 3301, "y": 1421 }, { "x": 2078, "y": 1326 } ], "텍스트": "손으로 쓴" } ] }, { "bounding_box": [ { "x": 749, "y": 1305 }, { "x": 2504, "y": 1486 }, { "x": 2469, "y": 1826 }, { "x": 714, "y": 1645 } ], "텍스트": "OCR을 사용한 텍스트", "단어": [ { "bounding_box": [ { "x": 749, "y": 1305 }, { "x": 1233, "y": 1355 }, { "x": 1198, "y": 1695 }, { "x": 714, "y": 1645 } ], "텍스트": "텍스트" }, { "bounding_box": [ { "x": 1317, "y": 1364 }, { "x": 1910, "y": 1425 }, { "x": 1875, "y": 1765 }, { "x": 1282, "y": 1704 } ], "텍스트": "사용" }, { "bounding_box": [ { "x": 1972, "y": 1431 }, { "x": 2504, "y": 1486 }, { "x": 2469, "y": 1826 }, { "x": 1937, "y": 1771 } ], "텍스트": "OCR" } ] } ], "text": "Filestack은 OCR을 사용하여\n인쇄 및 필기\n텍스트를 감지할 수 있습니다." } ] }, "text": "Filestack은 OCR을 사용하여\n인쇄 및 필기\n텍스트를 감지할 수 있습니다.\n", "text_area_percentage": 23.40692449819434 } |
응답 매개변수에 따라 다음과 같이 이미지에서 OCR 응답을 얻을 수 있습니다.
https://cdn.filestackcontent.com/security=p:<정책>,s:<서명>/ocr/<핸들> |
doc_detection과 같은 다른 작업과 함께 체인에서 OCR을 사용할 수 있습니다.
https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE> |
또한 외부 URL과 함께 OCR을 사용합니다.
https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL> |
마지막으로 스토리지 별칭과 함께 OCR을 사용합니다.
https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE> |