Mistral OCR: 높은 정확도의 문서 인식 기술

디지털 전환 시대를 맞아 기업들은 방대한 양의 문서를 효율적으로 처리해야 하는 과제에 직면해 있습니다. 전 세계 조직 데이터의 약 90%가 여전히 문서 형태로 저장되어 있다는 사실은 문서 인식 기술의 중요성을 단적으로 보여줍니다. 2025년, 3월 6일, Mistral AI가 공개한 Mistral OCR은 이러한 문서 처리 영역에서 획기적인 도약을 이뤄냈습니다.

이미 6개월 이상이 지난 지금(2025.10)에서도 OCR과 관련된 모델에 기반한 다양한 오픈소스 및 사용 서비스가 출시되었습니다만, 현재까지도 매우 의미가 있는 정확도를 가지고 있어서 기록과 공유 차원에서 포스트를 남깁니다.

Mistral OCR이란?

Mistral OCR은 프랑스의 AI 기업 Mistral AI가 개발한 차세대 광학 문자 인식(Optical Character Recognition) API입니다. 단순한 텍스트 추출을 넘어 문서의 모든 구성 요소를 깊이 있게 이해하고 처리하는 종합적인 문서 이해 솔루션입니다.

핵심 특징

다중 모드 처리: 텍스트, 이미지, 표, 수식, 차트 등 복잡한 문서 요소를 통합적으로 인식
초고속 처리: 단일 노드에서 분당 최대 2,000페이지 처리 가능
다국어 지원: 수천 개의 문자, 글꼴, 언어를 네이티브로 지원
구조화된 출력: JSON 등 다양한 형식으로 데이터 추출 가능
RAG 시스템 통합: 멀티모달 문서를 활용한 검색 증강 생성 시스템에 최적화

기존 OCR과의 차별성

1. 인식 정확도의 혁신

기존 OCR 기술은 주로 텍스트 인식에 집중했지만, Mistral OCR은 문서의 맥락과 구조를 이해합니다:

벤치마크 성능 비교

Mistral OCR: 94.89% (전체 정확도)
GPT-4o: 89.77%
Google Document AI: 83.42%
Azure OCR: 89.52%

특히 수학 기호(94.29%), 표 인식(96.12%), 스캔 문서(98.96%) 처리에서 압도적인 성능을 보여줍니다.

2. 멀티모달 문서 이해

기존 OCR이 텍스트 추출에 머물렀다면, Mistral OCR은:

<출처: https://mistral.ai/fr/news/mistral-ocr>

LaTeX 수식을 정확히 인식하고 렌더링
차트와 그래프의 데이터를 해석
이미지와 텍스트의 관계를 파악
복잡한 레이아웃 구조를 보존하며 추출

3. 다국어 처리 능력

99.02%의 다국어 일치율로 업계 최고 수준을 기록했습니다:

한국어, 중국어, 일본어 등 아시아 언어
아랍어, 힌디어 등 RTL(Right-to-Left) 언어
유럽 언어 전반에 걸친 완벽한 지원

4. 문서를 프롬프트로 활용

혁신적인 “Doc-as-prompt” 기능을 통해:

문서 자체를 AI 프롬프트로 사용
특정 정보만 선택적으로 추출
구조화된 데이터로 자동 변환
다운스트림 작업과 원활한 연계

유사한 AI 기반 OCR 솔루션 비교

1. Google Document AI

장점: Google Cloud 생태계와의 통합, 광범위한 템플릿 지원
단점: Mistral OCR 대비 낮은 정확도(83.42%), 제한적인 수식 인식

2. Microsoft Azure AI Document Intelligence (구 Form Recognizer)

장점: Azure 서비스와의 연계, 사전 구축된 모델 제공
단점: 복잡한 레이아웃 처리 한계, 다국어 성능 부족(97.31%)

3. Amazon Textract

장점: AWS 생태계 통합, 자동 문서 분류
단점: 수식과 차트 인식 제한, 비영어권 언어 지원 미흡

4. OpenAI GPT-4 Vision

장점: 강력한 자연어 이해 능력, 문맥 파악 우수
단점: OCR 전문 모델 대비 정확도 낮음(89.77%), 처리 속도 느림

5. Tesseract OCR (오픈소스)

장점: 무료 오픈소스, 커스터마이징 가능
단점: AI 기반이 아닌 전통적 방식, 복잡한 문서 처리 어려움

실제 활용 사례

1. 과학 연구 분야

대학과 연구기관에서 수십 년간 축적된 논문과 연구 자료를 디지털화하여 AI가 검색 가능한 지식 베이스로 전환. 연구 협업 속도가 획기적으로 개선

2. 역사 문화재 보존

박물관과 도서관에서 고문서, 희귀 서적을 디지털 아카이브로 구축. 손상 위험 없이 전 세계 연구자들이 접근 가능

3. 기업 문서 관리

기술 매뉴얼, 설계 도면, 규제 문서 등을 즉시 검색 가능한 형태로 전환. 고객 서비스 응답 시간이 크게 단축

4. 교육 콘텐츠 디지털화

강의 노트, 교재, 프레젠테이션을 AI가 이해할 수 있는 형식으로 변환하여 개인화된 학습 경험 제공이 가능

가격 및 접근성

API 가격: 1,000페이지당 1달러 (배치 처리 시 약 50% 할인)
무료 체험: Le Chat 플랫폼에서 무료로 사용 가능
배포 옵션:
- 클라우드 API (la Plateforme)
- 온프레미스 설치 (선별적 제공)
- 파트너 클라우드 서비스 (예정)

기술적 구현 방법

Mistral OCR API 사용은 매우 간단합니다:
아래의 코드는 Python 코드를 이용해서 source 디렉토리에 있는 pdf파일에서 OCR로 Markdown 및 이미지 파일을 추출하는 예제입니다.

import base64
import os
import glob
from mistralai import Mistral

def encode_pdf(pdf_path):
    """지정된 PDF 파일을 Base64로 인코딩합니다."""
    try:
        with open(pdf_path, "rb") as pdf_file:
            return base64.b64encode(pdf_file.read()).decode('utf-8')
    except FileNotFoundError:
        print(f"오류: {pdf_path} 파일을 찾을 수 없습니다.")
        return None
    except Exception as e:
        print(f"파일 처리 중 오류 발생: {e}")
        return None

def process_pdf(client, pdf_path, output_dir):
    """단일 PDF 파일을 처리하여 마크다운과 이미지 파일로 저장합니다."""
    
    # 1. 파일 이름 기반으로 결과 저장 폴더 생성
    print(f"'{os.path.basename(pdf_path)}' 파일 처리 시작...")
    file_name = os.path.splitext(os.path.basename(pdf_path))[0]
    specific_output_path = os.path.join(output_dir, file_name)
    os.makedirs(specific_output_path, exist_ok=True)

    # 2. PDF를 Base64로 인코딩
    base64_pdf = encode_pdf(pdf_path)
    if not base64_pdf:
        return # 인코딩 실패 시 다음 파일로 넘어감

    try:
        # 3. Mistral OCR API 호출
        ocr_response = client.ocr.process(
            model="mistral-ocr-latest",
            document={
                "type": "document_url",
                "document_url": f"data:application/pdf;base64,{base64_pdf}" 
            },
            include_image_base64=True
        )

        # 4. 결과 처리: 모든 페이지의 마크다운을 하나로 합치고 이미지는 파일로 저장
        all_pages_markdown = []
        for page in ocr_response.pages:
            page_markdown = page.markdown
            
            # 페이지 내의 모든 이미지 처리
            for img in page.images:
                # Base64 이미지 데이터를 디코딩하여 파일로 저장
                image_string = img.image_base64.replace("data:image/jpeg;base64,","")
                image_data = base64.b64decode(image_string)
                # 이미지 파일명 결정 (고유 ID 사용, 확장자는 png로 가정)
                image_filename = f"{img.id}"
                image_save_path = os.path.join(specific_output_path, image_filename)
                
                with open(image_save_path, "wb") as f:
                    f.write(image_data)
                
                # 마크다운의 이미지 경로를 Base64 데이터가 아닌, 저장된 파일 경로로 변경
                # 원본: ![img_0_0](img_0_0) -> 변경: ![img_0_0](./img_0_0.png)
                page_markdown = page_markdown.replace(
                    f"![{img.id}]({img.id})", f"![{img.id}]({image_filename})"
                )
            
            all_pages_markdown.append(page_markdown)

        # 5. 최종 마크다운 파일 저장
        final_markdown = "\n\n---\n\n".join(all_pages_markdown) # 페이지 구분을 위해 구분선 추가
        markdown_save_path = os.path.join(specific_output_path, f"{file_name}.md")
        
        with open(markdown_save_path, "w", encoding="utf-8") as f:
            f.write(final_markdown)
            
        print(f"✅ 처리 완료: '{specific_output_path}'에 결과 저장")

    except Exception as e:
        print(f"'{os.path.basename(pdf_path)}' 처리 중 API 오류 발생: {e}")


def main():
    """메인 실행 함수"""
    api_key = os.getenv("MISTRAL_API_KEY")
    if not api_key:
        print("오류: MISTRAL_API_KEY 환경 변수가 설정되지 않았습니다.")
        # 만약 환경 변수 설정이 어렵다면, 아래 코드의 주석을 풀고 키를 직접 입력하세요.
        api_key = "당신의 API Key" # 보안상 권장되지 않음
        if not api_key:
            return
        
    client = Mistral(api_key=api_key)

    # 입출력 디렉토리 설정
    source_dir = "./source"
    output_dir = "./output"

    # 디렉토리 생성 (없는 경우)
    os.makedirs(source_dir, exist_ok=True)
    os.makedirs(output_dir, exist_ok=True)

    # source 디렉토리 내의 모든 pdf 파일 찾기
    pdf_files = glob.glob(os.path.join(source_dir, "*.pdf"))
    
    if not pdf_files:
        print(f"'{source_dir}' 디렉토리에서 PDF 파일을 찾을 수 없습니다. 변환할 파일을 넣어주세요.")
        return

    # 각 PDF 파일을 순서대로 처리
    for pdf_path in pdf_files:
        process_pdf(client, pdf_path, output_dir)
        print("-" * 20)

if __name__ == "__main__":
    main()

import base64
import os
import glob
from mistralai import Mistral

def encode_pdf(pdf_path):
    """지정된 PDF 파일을 Base64로 인코딩합니다."""
    try:
        with open(pdf_path, "rb") as pdf_file:
            return base64.b64encode(pdf_file.read()).decode('utf-8')
    except FileNotFoundError:
        print(f"오류: {pdf_path} 파일을 찾을 수 없습니다.")
        return None
    except Exception as e:
        print(f"파일 처리 중 오류 발생: {e}")
        return None

def process_pdf(client, pdf_path, output_dir):
    """단일 PDF 파일을 처리하여 마크다운과 이미지 파일로 저장합니다."""
    
    # 1. 파일 이름 기반으로 결과 저장 폴더 생성
    print(f"'{os.path.basename(pdf_path)}' 파일 처리 시작...")
    file_name = os.path.splitext(os.path.basename(pdf_path))[0]
    specific_output_path = os.path.join(output_dir, file_name)
    os.makedirs(specific_output_path, exist_ok=True)

    # 2. PDF를 Base64로 인코딩
    base64_pdf = encode_pdf(pdf_path)
    if not base64_pdf:
        return # 인코딩 실패 시 다음 파일로 넘어감

    try:
        # 3. Mistral OCR API 호출
        ocr_response = client.ocr.process(
            model="mistral-ocr-latest",
            document={
                "type": "document_url",
                "document_url": f"data:application/pdf;base64,{base64_pdf}" 
            },
            include_image_base64=True
        )

        # 4. 결과 처리: 모든 페이지의 마크다운을 하나로 합치고 이미지는 파일로 저장
        all_pages_markdown = []
        for page in ocr_response.pages:
            page_markdown = page.markdown
            
            # 페이지 내의 모든 이미지 처리
            for img in page.images:
                # Base64 이미지 데이터를 디코딩하여 파일로 저장
                image_string = img.image_base64.replace("data:image/jpeg;base64,","")
                image_data = base64.b64decode(image_string)
                # 이미지 파일명 결정 (고유 ID 사용, 확장자는 png로 가정)
                image_filename = f"{img.id}"
                image_save_path = os.path.join(specific_output_path, image_filename)
                
                with open(image_save_path, "wb") as f:
                    f.write(image_data)
                
                # 마크다운의 이미지 경로를 Base64 데이터가 아닌, 저장된 파일 경로로 변경
                # 원본: ![img_0_0](img_0_0) -> 변경: ![img_0_0](./img_0_0.png)
                page_markdown = page_markdown.replace(
                    f"![{img.id}]({img.id})", f"![{img.id}]({image_filename})"
                )
            
            all_pages_markdown.append(page_markdown)

        # 5. 최종 마크다운 파일 저장
        final_markdown = "\n\n---\n\n".join(all_pages_markdown) # 페이지 구분을 위해 구분선 추가
        markdown_save_path = os.path.join(specific_output_path, f"{file_name}.md")
        
        with open(markdown_save_path, "w", encoding="utf-8") as f:
            f.write(final_markdown)
            
        print(f"✅ 처리 완료: '{specific_output_path}'에 결과 저장")

    except Exception as e:
        print(f"'{os.path.basename(pdf_path)}' 처리 중 API 오류 발생: {e}")


def main():
    """메인 실행 함수"""
    api_key = os.getenv("MISTRAL_API_KEY")
    if not api_key:
        print("오류: MISTRAL_API_KEY 환경 변수가 설정되지 않았습니다.")
        # 만약 환경 변수 설정이 어렵다면, 아래 코드의 주석을 풀고 키를 직접 입력하세요.
        api_key = "당신의 API Key" # 보안상 권장되지 않음
        if not api_key:
            return
        
    client = Mistral(api_key=api_key)

    # 입출력 디렉토리 설정
    source_dir = "./source"
    output_dir = "./output"

    # 디렉토리 생성 (없는 경우)
    os.makedirs(source_dir, exist_ok=True)
    os.makedirs(output_dir, exist_ok=True)

    # source 디렉토리 내의 모든 pdf 파일 찾기
    pdf_files = glob.glob(os.path.join(source_dir, "*.pdf"))
    
    if not pdf_files:
        print(f"'{source_dir}' 디렉토리에서 PDF 파일을 찾을 수 없습니다. 변환할 파일을 넣어주세요.")
        return

    # 각 PDF 파일을 순서대로 처리
    for pdf_path in pdf_files:
        process_pdf(client, pdf_path, output_dir)
        print("-" * 20)

if __name__ == "__main__":
    main()

자세한 구현 예제는 공식 노트북에서 확인할 수 있습니다.

향후 전망

Mistral OCR은 문서 처리 기술의 패러다임을 바꾸고 있습니다. 단순한 텍스트 추출을 넘어 문서를 ‘이해’하는 AI로의 진화는 다음과 같은 가능성을 열어줍니다:

지능형 문서 처리: 문서 내용을 바탕으로 자동 요약, 분류, 인사이트 도출
크로스 모달 검색: 텍스트, 이미지, 도표를 통합한 의미 기반 검색
자동화된 워크플로우: 문서 처리부터 의사결정까지 전 과정 자동화
접근성 향상: 시각 장애인을 위한 완벽한 문서 음성 변환

마치며

Mistral OCR은 단순한 OCR 도구를 넘어 문서 인텔리전스 플랫폼으로 자리매김하고 있습니다. 압도적인 성능, 다양한 언어 지원, 합리적인 가격으로 기업의 디지털 전환을 가속화할 핵심 기술로 주목받고 있습니다.

특히 한국어를 포함한 아시아 언어에 대한 뛰어난 지원과 복잡한 문서 구조 이해 능력은 국내 기업과 기관들에게 매력적인 선택지가 될 것입니다. 문서에 갇혀 있던 지식을 해방시켜 AI 시대의 경쟁력을 확보하고자 하는 조직이라면, Mistral OCR은 반드시 검토해야 할 솔루션입니다.

참고 자료

게시됨

2025년 10월 06일

카테고리

AI, Python

작성자

choonzang

태그:

Mistral AI, Mistral OCR, Mistral OCR Benchmark, OCR, OCR 비교, 광학문서인식, 다국어 OCR, 미스트랄, 미스트랄 OCR