Chandra: 레이아웃 보존 기능을 갖춘 고정밀 OCR 모델 소개

AI산업에서 문서의 디지털화는 이제 필수 입니다. 특히 OCR영역은 그 정확도를 다투는 매루 치열한 영역이며, 최근 공개된 이 모델도 더 높은 벤치마크 성능을 자랑하며 새롭게 등장한 OCR모델입니다.

오늘은 그 최신 OCR 모델인 Chandra에 대해 자세히 알아보겠습니다. Chandra는 Datalab에서 개발된 AI OCR모델로, 이미지와 PDF를 구조화된 HTML, Markdown, JSON으로 변환하면서 레이아웃 정보까지 완벽하게 보존하는 고정밀 OCR 모델입니다.

<출처: datalab.to, 데이터랩에서 개발한 chandra AI OCR모델>

Chandra의 주요 특징

Chandra는 기존 OCR 솔루션과 차별화되는 여러 특징을 제공합니다:

문서를 Markdown, HTML, JSON으로 변환하면서 상세한 레이아웃 정보 보존
우수한 필기체 인식 지원
체크박스를 포함한 양식 정확한 재구성
표, 수식, 복잡한 레이아웃에 대한 탁월한 지원
이미지와 다이어그램 추출 및 캡션과 구조화된 데이터 제공
40개 이상의 언어 지원
두 가지 추론 모드: 로컬(HuggingFace)과 원격(vLLM 서버)

기존 LLM 기반 OCR과 Chandra의 차이점

최근 LLM(대규모 언어 모델) 기반 OCR 솔루션이 많이 등장했지만, Chandra는 몇 가지 중요한 차별점을 가지고 있습니다:
아래의 비교 자료와 같이, 손글씨, 수식, 표에 매우 뛰어난 결과를 보여주고 있습니다.

<출처: https://discuss.pytorch.kr/t/chandra-ocr-ai-ocr-feat-datalab/8000>

1. 정확도 측면에서의 우수성

Chandra는 olmocr 벤치마크에서 83.1%의 전체 점수를 기록하며 다른 OCR 솔루션들을 크게 앞서고 있습니다. 특히 GPT-4o(69.9%), Gemini Flash 2(63.8%), Qwen 3 VL 8B(64.6%) 등 유명한 LLM 기반 OCR 솔루션보다 훨씬 높은 성능을 보여줍니다.

2. 레이아웃 보존 능력

기존 LLM 기반 OCR은 텍스트 추출에는 강하지만 원본 문서의 레이아웃 정보를 보존하는 데 어려움을 겪습니다. Chandra는 문서의 구조적 정보를 유지하면서 HTML, Markdown, JSON 형식으로 변환할 수 있어 원본 문서의 가독성과 의미를 그대로 유지합니다.

3. 특수 문서 처리 능력

Chandra는 수학 공식(88.0%), 다열 레이아웃(81.2%), 작은 텍스트(92.3%) 등 특수한 문서 형식에서 특히 뛰어난 성능을 보입니다. 이는 GPT-4o나 Gemini Flash 2와 같은 일반적인 LLM이 어려움을 겪는 영역입니다.

4. 로컬 실행 옵션

대부분의 LLM 기반 OCR은 API를 통해서만 접근 가능하지만, Chandra는 HuggingFace 방식을 통해 로컬에서 실행할 수 있는 옵션을 제공합니다. 이는 데이터 프라이버시가 중요한 상황이나 인터넷 연결이 제한된 환경에서 큰 장점이 됩니다.

Chandra 시작하기

설치 방법

Chandra를 시작하는 가장 쉬운 방법은 CLI 도구를 사용하는 것입니다:

패키지 설치:

pip install chandra-ocr

HuggingFace 방식을 사용할 계획이라면 flash attention도 함께 설치하는 것이 좋습니다.

소스에서 설치:

git clone https://github.com/datalab-to/chandra.git
cd chandra
uv sync
source .venv/bin/activate

빠른 시작 가이드

vLLM 서버를 사용하는 방법:

# vLLM 서버 시작
chandra_vllm

# 문서 처리
chandra input.pdf ./output

HuggingFace 방식으로 사용하는 방법:

chandra input.pdf ./output --method hf

대화형 Streamlit 앱 실행:

chandra_app

Chandra의 활용 사례

Chandra는 다양한 유형의 문서를 처리할 수 있어 여러 분야에서 활용될 수 있습니다:

1. 표 및 양식 처리

Chandra는 복잡한 표와 양식을 정확하게 인식하고 구조화된 데이터로 변환합니다. 수해 피해 양식, 10K 파일링, 임대 계약서 등 다양한 비즈니스 문서를 효과적으로 처리할 수 있습니다.