Table of Contents

DeepLearning

Tesseract OCR

꼬꼬마코더 2024. 8. 3. 17:51
728x90

Tesseract OCR의 인식률을 향상시키기 위해 파라미터를 조정하는 것은 좋은 접근 방법입니다. 여기서 사용된 파라미터 --oem과 --psm은 OCR 엔진 모드와 페이지 세그먼트 모드를 설정하는데, 이들을 적절히 조정하여 더 나은 결과를 얻을 수 있습니다. 다음은 각 파라미터에 대한 설명과 함께 다른 설정을 시도할 수 있는 몇 가지 제안입니다:

OEM (OCR Engine Mode) 옵션:

  • --oem 0: 오직 Tesseract 기반 엔진만 사용.
  • --oem 1: 오직 LSTM 기반 엔진만 사용.
  • --oem 2: Tesseract + LSTM 엔진 모두 사용.
  • --oem 3: 사용 가능한 엔진을 자동으로 선택.

여기서는 --oem 3을 사용하여 자동 선택을 하고 있습니다. 텍스트의 특성에 따라 LSTM만 사용하는 --oem 1을 시도해 볼 수 있습니다. LSTM은 최신이며 보통 더 정확하지만, 텍스트의 종류에 따라 다를 수 있습니다.

PSM (Page Segmentation Mode) 옵션:

  • --psm 0: Orientation and script detection (OSD)만.
  • --psm 1: 자동 페이지 분할과 OSD.
  • --psm 3: 자동 페이지 분할, OSD 없음 (기본).
  • --psm 6: 가정된 단일 통합 블록의 텍스트를 추출.
  • --psm 11: 텍스트 라인 찾기, 이미지 전체에 대해.

--psm 6은 이미 단일 텍스트 블록을 추정하고 있습니다. 만약 텍스트가 라인 단위로 더 명확하게 구분되어 있다면 --psm 11을 사용하여 각 라인을 개별적으로 처리하는 것도 좋은 선택이 될 수 있습니다.

추가 파라미터:

  • --dpi: 이미지의 DPI를 설정할 수 있습니다. 이미지가 높은 해상도일 때 명시적으로 DPI를 설정하면 결과가 개선될 수 있습니다.
  • 문자 제약 조건 추가: 예를 들어, 숫자만 인식해야 할 경우, --psm 6 -c tessedit_char_whitelist=0123456789와 같이 설정할 수 있습니다.