Table of Contents
728x90
Tesseract OCR의 인식률을 향상시키기 위해 파라미터를 조정하는 것은 좋은 접근 방법입니다. 여기서 사용된 파라미터 --oem과 --psm은 OCR 엔진 모드와 페이지 세그먼트 모드를 설정하는데, 이들을 적절히 조정하여 더 나은 결과를 얻을 수 있습니다. 다음은 각 파라미터에 대한 설명과 함께 다른 설정을 시도할 수 있는 몇 가지 제안입니다:
OEM (OCR Engine Mode) 옵션:
- --oem 0: 오직 Tesseract 기반 엔진만 사용.
- --oem 1: 오직 LSTM 기반 엔진만 사용.
- --oem 2: Tesseract + LSTM 엔진 모두 사용.
- --oem 3: 사용 가능한 엔진을 자동으로 선택.
여기서는 --oem 3을 사용하여 자동 선택을 하고 있습니다. 텍스트의 특성에 따라 LSTM만 사용하는 --oem 1을 시도해 볼 수 있습니다. LSTM은 최신이며 보통 더 정확하지만, 텍스트의 종류에 따라 다를 수 있습니다.
PSM (Page Segmentation Mode) 옵션:
- --psm 0: Orientation and script detection (OSD)만.
- --psm 1: 자동 페이지 분할과 OSD.
- --psm 3: 자동 페이지 분할, OSD 없음 (기본).
- --psm 6: 가정된 단일 통합 블록의 텍스트를 추출.
- --psm 11: 텍스트 라인 찾기, 이미지 전체에 대해.
--psm 6은 이미 단일 텍스트 블록을 추정하고 있습니다. 만약 텍스트가 라인 단위로 더 명확하게 구분되어 있다면 --psm 11을 사용하여 각 라인을 개별적으로 처리하는 것도 좋은 선택이 될 수 있습니다.
추가 파라미터:
- --dpi: 이미지의 DPI를 설정할 수 있습니다. 이미지가 높은 해상도일 때 명시적으로 DPI를 설정하면 결과가 개선될 수 있습니다.
- 문자 제약 조건 추가: 예를 들어, 숫자만 인식해야 할 경우, --psm 6 -c tessedit_char_whitelist=0123456789와 같이 설정할 수 있습니다.
'DeepLearning' 카테고리의 다른 글
submission 점수가 낮게 나오는 이유 (0) | 2024.08.07 |
---|---|
EfficientVit (0) | 2024.08.06 |
`img_size`를 조정한다는 것 (0) | 2024.07.30 |
예측 결과가 같은 환경에서 사람마다 다르게 나오는 이유 (0) | 2024.07.30 |
모델 성능 높이는 방법 (0) | 2024.07.30 |
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- Transformer
- Github
- 코딩테스트
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- classification
- Lora
- 리스트
- 손실함수
- clustering
- English
- nlp
- LLM
- Python
- 파이썬
- 오블완
- speaking
- cnn
- 해시
- RAG
- git
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- Hugging Face
- PEFT
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- t5
- LIST
- recursion #재귀 #자료구조 # 알고리즘
- 티스토리챌린지
- Array
- Numpy
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함