[태그:] OCR
-

Chandra: 레이아웃 보존 기능을 갖춘 고정밀 OCR 모델 소개
AI산업에서 문서의 디지털화는 이제 필수 입니다. 특히 OCR영역은 그 정확도를 다투는 매루 치열한 영역이며, 최근 공개된 이 모델도 더 높은 벤치마크 성능을 자랑하며 새롭게 등장한 OCR모델입니다. 오늘은 그 최신 OCR 모델인 Chandra에 대해 자세히 알아보겠습니다. Chandra는 Datalab에서 개발된 AI OCR모델로, 이미지와 PDF를 구조화된 HTML, Markdown, JSON으로 변환하면서 레이아웃 정보까지 완벽하게 보존하는 고정밀 OCR 모델입니다. Chandra의…
-

Mistral OCR: 높은 정확도의 문서 인식 기술
디지털 전환 시대를 맞아 기업들은 방대한 양의 문서를 효율적으로 처리해야 하는 과제에 직면해 있습니다. 전 세계 조직 데이터의 약 90%가 여전히 문서 형태로 저장되어 있다는 사실은 문서 인식 기술의 중요성을 단적으로 보여줍니다. 2025년, 3월 6일, Mistral AI가 공개한 Mistral OCR은 이러한 문서 처리 영역에서 획기적인 도약을 이뤄냈습니다. 이미 6개월 이상이 지난 지금(2025.10)에서도 OCR과 관련된 모델에…
-

dots.ocr: 놀라운 성능의 차세대 다국어 문서 parser
오늘 기술 파트너 회사와 미팅이 있었습니다. 문서 추출에 대해서 꽤 기술력이 있는 회사여서 관심있게 제품에 대한 소개를 받았습니다. 문서로 부터 데이터를 추출하고, 정제하여 데이터베이스를 구축하는 제품을 가지고 있었습니다. 논문이나 공공기관의 문서의 경우 일관된 형식을 가지고 있기 때문에 형식에 맞는 패턴을 인식하면, 문서로 부터 텍스트를 추출하더라도 정보의 계층구조를 포함된 정보를 가져올수 있는 매우 획기적인 기술이었습니다. 그것을…
