[태그:] 문서 파싱 솔루션

  • dots.ocr: 놀라운 성능의 차세대 다국어 문서 parser

    dots.ocr: 놀라운 성능의 차세대 다국어 문서 parser

    오늘 기술 파트너 회사와 미팅이 있었습니다. 문서 추출에 대해서 꽤 기술력이 있는 회사여서 관심있게 제품에 대한 소개를 받았습니다. 문서로 부터 데이터를 추출하고, 정제하여 데이터베이스를 구축하는 제품을 가지고 있었습니다. 논문이나 공공기관의 문서의 경우 일관된 형식을 가지고 있기 때문에 형식에 맞는 패턴을 인식하면, 문서로 부터 텍스트를 추출하더라도 정보의 계층구조를 포함된 정보를 가져올수 있는 매우 획기적인 기술이었습니다. 그것을…