OCR 엔진은 어떻게 작동합니까?

게시 됨: 2022-08-06

스캔한 문서, 카메라 이미지 및 이미지 전용 PDF에서 데이터를 추출하고 용도를 ​​변경하는 것은 까다로울 수 있습니다.

그러나 기술적으로 발전된 ML 기반 OCR 엔진은 작업을 효율적으로 수행할 수 있습니다.

이 기사에서는 OCR 엔진이 작동하는 방식과 OCR SDK가 귀하의 요구 사항에 적합한 이유에 대해 설명합니다.

= 목차 숨기기
1 광학 문자 인식(OCR)이란 무엇입니까?
1.1 OCR 엔진의 중요성은 무엇입니까?
2 OCR 엔진은 어떻게 작동합니까?
2.1 이미지 수집
2.2 이미지 전처리
2.3 텍스트 인식
2.4 패턴 매칭
2.5 특징 추출
2.6 후처리
3 일반적인 OCR 사용 사례는 무엇입니까?
4 OCR 엔진이 오늘날 기업을 돕는 주요 방법은 무엇입니까?
5 OCR SDK를 어떻게 통합할 수 있습니까?

광학 문자 인식(OCR)이란 무엇입니까?

OCR – 광학 문자 인식 – 텍스트 이미지를 AI 지원 기계 판독 가능 텍스트 형식으로 변환합니다.

OCR은 텍스트 편집기를 사용하여 이미지 파일의 단어를 편집, 검색 또는 계산할 수 없기 때문에 간단한 스캔에 비해 엄청난 이점이 있습니다.

그러나 OCR은 이미지를 텍스트 문서로 변환하여 내용을 텍스트 데이터로 저장할 수 있습니다.

OCR 엔진의 중요성은 무엇입니까?

오늘날 대부분의 비즈니스 워크플로에는 인쇄 매체에서 정보를 수신하는 작업이 포함됩니다. 송장, 종이 양식, 스캔한 법률 문서 및 인쇄된 계약서는 비즈니스 프로세스의 일부입니다.

이렇게 방대한 양의 문서를 저장하고 관리하려면 많은 시간과 공간이 필요합니다.

여기서 OCR은 지루하고 느린 수동 개입에 비해 종이 없는 문서 관리 이점을 제공합니다.

개선된 AI 기반 OCR 기술은 텍스트 이미지를 다른 비즈니스 소프트웨어에서 분석할 수 있는 텍스트 데이터로 변환하여 문제를 해결합니다.

그런 다음 처리된 데이터를 통합하여 분석을 수행하고 운영을 간소화하며 프로세스를 자동화하여 궁극적으로 생산성을 향상시킵니다.

OCR 엔진은 어떻게 작동합니까?

이미지 수집

이미지 획득은 스캐너가 문서를 읽고 이진 데이터로 변환하는 첫 번째 단계입니다. 밝은 영역을 배경으로, 어두운 영역을 텍스트로 분류하여 스캔한 이미지를 분석합니다.

이미지 전처리

획득 프로세스에는 먼지와 오류가 있습니다. 따라서 OCR 엔진은 먼저 이미지를 정리하고 읽기 전에 오류를 삭제합니다.

이러한 청소 기술:

  • 기울기 보정 또는 기울이기 : 스캔 중 정렬 문제를 수정합니다.
  • 반점 제거 : 텍스트 이미지의 가장자리를 매끄럽게 하는 디지털 이미지 얼룩을 제거합니다.
  • 상자와 선은 이미지에서 청소됩니다.
  • 다국어 OCR 기술용 스크립트 인식.

텍스트 인식

패턴 일치 및 특징 추출은 OCR 소프트웨어가 주로 텍스트 인식에 사용하는 두 가지 주요 유형의 OCR 알고리즘 프로세스입니다.

패턴 매칭

다음 단계는 glyph라는 문자 이미지를 분리하고 유사하게 저장된 glyph 와 비교하여 패턴을 일치시키는 것입니다.

이 프로세스는 저장된 글리프가 입력 글리프와 유사한 글꼴 및 배율을 가질 때만 작동합니다.

특징 추출

다음 단계는 특징 추출입니다. 이 프로세스는 글리프를 선, 닫힌 루프, 선 방향 및 선 교차점과 같은 기능으로 분해하거나 분해합니다.

이러한 기능은 저장된 다양한 글리프 중에서 가장 일치하는 항목이나 가장 가까운 이웃을 찾습니다.

후처리

마지막으로 분석 후 시스템은 추출된 텍스트 데이터를 컴퓨터 파일로 변환합니다.

일반적인 OCR 사용 사례는 무엇입니까?

  • 은행 : OCR 기술은 은행 업계에서 대출 문서, 예금 수표 및 기타 금융 거래에 대한 서류를 처리하고 확인하는 데 도움이 됩니다. 사기 방지 및 거래 보안이 향상되었습니다.
  • 의료 : OCR은 의료 산업에 혁명을 일으켰습니다. 치료, 검사, 병원 기록 및 보험 지불을 포함한 환자 기록을 처리합니다. 최근 기록을 최신 상태로 유지하면서 워크플로를 간소화하고 병원 수작업을 줄이는 데 도움이 되었습니다.
  • 법률 문서 : OCR 기술은 편리한 검색을 위해 스캔하고 전자 데이터베이스에 저장할 수 있는 중요한 승인된 법률 문서를 용이하게 합니다. 그러면 문서도 많은 사람들이 보고 공유할 수 있습니다.
  • 물류 : OCR 기술 이전에 물류 산업은 효율성이 떨어졌습니다. 이전에는 비즈니스 문서를 수동으로 입력하는 데 시간이 많이 걸리고 오류가 발생하기 쉬웠습니다. 선견지명 때문에 직원들은 데이터를 여러 회계 시스템에 입력해야 했습니다. 물류 회사는 OCR을 사용하여 패키지 라벨, 송장, 영수증 및 기타 문서를 보다 효율적으로 추적합니다. Amazon Textract를 사용하면 Foresight 소프트웨어가 다양한 레이아웃에서 문자를 더 정확하게 읽을 수 있으므로 비즈니스 효율성이 향상됩니다.

오늘날 OCR 엔진이 비즈니스를 지원하는 주요 방법은 무엇입니까?

  • 워크플로 자동화
  • 읽기 전용 파일을 편집 가능한 텍스트로 변환
  • 가청 파일 생성
  • 외국어 번역
  • 양식 및 설문지 관리
  • 더 빠르고 정확한 데이터 입력 달성

OCR SDK를 어떻게 통합할 수 있습니까?

FileStack의 OCR SDK는 손가락 하나 까딱하지 않고도 문서를 디지털화하고 신용 카드, 여권, 운전 면허증 및 세금 영수증에서 데이터를 추출 및 구성하는 데 도움이 됩니다.

FileStack의 OCR은 데이터 캡처 프로세스를 구성하고 간소화하므로 그럴 필요가 없습니다.

이미지에서 복잡한 문서 내부의 텍스트를 추출하기 위해 FileStack에는 정확하게 작동하는 두 가지 기계 학습 기반 솔루션이 있습니다.

  1. 지능형 이미지 처리를 통한 비지도 학습
  2. 감독된 세분화

고급 문서 감지 및 사전 처리 도구는 정확성을 높일 수 있는 FileStack의 최신 추가 기능입니다.

첫째, FileStack의 API는 이미지를 데이터베이스에 업로드합니다. 그런 다음 통합된 형식으로 변환하고 표준 크기로 크기를 조정합니다.

그런 다음 OCR 엔진에서 이미지를 더 선명하게 만들기 위해 문서 감지 및 전처리 도구에 입력됩니다. 결과는 추출된 텍스트의 모든 정보를 원본 이미지에 포함하는 JSON 응답을 생성합니다.

처리 API에서 OCR은 동기 작업으로 사용할 수 있습니다. 이 작업에 따라:

ocr

이에 따라 응답은 다음과 같습니다.

{
"문서": {
"텍스트 영역": [
{
"bounding_box": [
{
"x": 834,
"y": 478
},
{
"x": 3372,
"y": 739
},
{
"x": 3251,
"y": 1907
},
{
"x": 714,
"y": 1646
}
],
"선": [
{
"bounding_box": [
{
"x": 957,
"y": 490
},
{
"x": 3008,
"y": 701
},
{
"x": 2977,
"y": 1009
},
{
"x": 925,
"y": 797
}
],
"텍스트": "Filestack이 감지할 수 있음",
"단어": [
{
"bounding_box": [
{
"x": 957,
"y": 490
},
{
"x": 1833,
"y": 580
},
{
"x": 1802,
"y": 888
},
{
"x": 925,
"y": 797
}
],
"텍스트": "파일 스택"
},
{
"bounding_box": [
{
"x": 1916,
"y": 589
},
{
"x": 2266,
"y": 625
},
{
"x": 2235,
"y": 932
},
{
"x": 1884,
"y": 896
}
],
"텍스트": "할 수 있습니다"
},
{
"bounding_box": [
{
"x": 2336,
"y": 632
},
{
"x": 3008,
"y": 701
},
{
"x": 2977,
"y": 1009
},
{
"x": 2304,
"y": 939
}
],
"텍스트": "감지"
}
]
},
{
"bounding_box": [
{
"x": 860,
"y": 858
},
{
"x": 3330,
"y": 1049
},
{
"x": 3301,
"y": 1421
},
{
"x": 831,
"y": 1229
}
],
"텍스트": "인쇄 및 필기",
"단어": [
{
"bounding_box": [
{
"x": 860,
"y": 858
},
{
"x": 1550,
"y": 912
},
{
"x": 1521,
"y": 1283
},
{
"x": 831,
"y": 1229
}
],
"텍스트": "인쇄된"
},
{
"bounding_box": [
{
"x": 1677,
"y": 922
},
{
"x": 2047,
"y": 951
},
{
"x": 2018,
"y": 1321
},
{
"x": 1648,
"y": 1292
}
],
"텍스트": "그리고"
},
{
"bounding_box": [
{
"x": 2107,
"y": 954
},
{
"x": 3330,
"y": 1049
},
{
"x": 3301,
"y": 1421
},
{
"x": 2078,
"y": 1326
}
],
"텍스트": "손으로 쓴"
}
]
},
{
"bounding_box": [
{
"x": 749,
"y": 1305
},
{
"x": 2504,
"y": 1486
},
{
"x": 2469,
"y": 1826
},
{
"x": 714,
"y": 1645
}
],
"텍스트": "OCR을 사용한 텍스트",
"단어": [
{
"bounding_box": [
{
"x": 749,
"y": 1305
},
{
"x": 1233,
"y": 1355
},
{
"x": 1198,
"y": 1695
},
{
"x": 714,
"y": 1645
}
],
"텍스트": "텍스트"
},
{
"bounding_box": [
{
"x": 1317,
"y": 1364
},
{
"x": 1910,
"y": 1425
},
{
"x": 1875,
"y": 1765
},
{
"x": 1282,
"y": 1704
}
],
"텍스트": "사용"
},
{
"bounding_box": [
{
"x": 1972,
"y": 1431
},
{
"x": 2504,
"y": 1486
},
{
"x": 2469,
"y": 1826
},
{
"x": 1937,
"y": 1771
}
],
"텍스트": "OCR"
}
]
}
],
"text": "Filestack은 OCR을 사용하여\n인쇄 및 필기\n텍스트를 감지할 수 있습니다."
}
]
},
"text": "Filestack은 OCR을 사용하여\n인쇄 및 필기\n텍스트를 감지할 수 있습니다.\n",
"text_area_percentage": 23.40692449819434
}

응답 매개변수에 따라 다음과 같이 이미지에서 OCR 응답을 얻을 수 있습니다.

https://cdn.filestackcontent.com/security=p:<정책>,s:<서명>/ocr/<핸들>

doc_detection과 같은 다른 작업과 함께 체인에서 OCR을 사용할 수 있습니다.

https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE>

또한 외부 URL과 함께 OCR을 사용합니다.

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL>

마지막으로 스토리지 별칭과 함께 OCR을 사용합니다.

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE>