[카테고리:] Python
-

GLM-OCR: 0.9B 파라미터로 SOTA 성능을 달성한 초경량 오픈소스 OCR 모델
AI를 기반으로한 텍스트 인식 OCR은 나날이 발전해가고 있습니다. 최근 중국의 선도적인 AI 연구 기업 Zhipu AI(Z.ai)가 공개한 GLM-OCR은 이러한 문제를 해결하는 혁신적인 모델이 공개되었습니다. 단 0.9B(약 9억) 파라미터만으로 거대 모델에 버금가는 성능을 달성하며, ‘효율적인 AI’의 새로운 기록을 자랑하고 있습니다. GLM-OCR이란? GLM-OCR은 GLM-V 아키텍처를 기반으로 구축된 멀티모달 OCR 모델로, 단순히 이미지 내 텍스트를 추출하는 것을 넘어…
-

Qwen3-TTS: 오픈소스로 만나는 차세대 음성 합성 모델
2026년 1월, Alibaba의 Qwen 팀이 음성 합성 기술의 새로운 이정표를 세우는 Qwen3-TTS를 Apache 2.0 라이선스로 공개했습니다. 최근 GPT-4o와 같은 멀티모달 모델들이 주목받고 있지만, 고품질 음성 생성 기술은 대부분 폐쇄적인 상용 API로만 제공되어 왔습니다. Qwen3-TTS는 이러한 한계를 돌파하며, 모델 가중치는 물론 핵심 기술인 음성 토크나이저, 학습 코드, 그리고 상세한 기술 보고서까지 완전히 공개했습니다. Qwen3-TTS의 핵심 특징…
-

Supermemory: LLM을 위한 Universal Memory Layer
AI 시대에 가장 큰 과제 중 하나는 바로 ‘기억(Memory)’입니다. 대부분의 LLM은 대화가 끝나면 모든 컨텍스트를 잊어버리고, 다음 세션에서는 마치 처음 만난 사람처럼 행동합니다. 이러한 문제를 해결하기 위해 등장한 것이 바로 Supermemory입니다. Supermemory란? Supermemory는 19세 창업자 Dhravya Shah가 개발한 AI 애플리케이션을 위한 범용 메모리 레이어입니다. 2025년 10월 Google AI 총괄 Jeff Dean, Cloudflare CTO Dane Knecht,…
-

Google Gemini API의 File Search Tool: 완전 관리형 RAG 시스템의 등장
RAG의 복잡성을 해결하는 새로운 접근법 Google이 Gemini API에 완전 관리형 RAG(Retrieval-Augmented Generation) 시스템인 File Search Tool을 출시했습니다. 이 도구는 검색 파이프라인의 복잡성을 추상화하여 개발자가 실제 서비스 구축에만 집중할 수 있도록 설계되었습니다. File Search Tool의 핵심 특징 1. 혁신적인 가격 정책 File Search Tool의 가장 주목할 만한 특징은 파격적인 가격 정책입니다: 이러한 가격 정책은 RAG 시스템…
-

Chandra: 레이아웃 보존 기능을 갖춘 고정밀 OCR 모델 소개
AI산업에서 문서의 디지털화는 이제 필수 입니다. 특히 OCR영역은 그 정확도를 다투는 매루 치열한 영역이며, 최근 공개된 이 모델도 더 높은 벤치마크 성능을 자랑하며 새롭게 등장한 OCR모델입니다. 오늘은 그 최신 OCR 모델인 Chandra에 대해 자세히 알아보겠습니다. Chandra는 Datalab에서 개발된 AI OCR모델로, 이미지와 PDF를 구조화된 HTML, Markdown, JSON으로 변환하면서 레이아웃 정보까지 완벽하게 보존하는 고정밀 OCR 모델입니다. Chandra의…
-

코드 한 줄 없이 웹 스크래핑하기: Scraperr 완벽 가이드
웹 스크래핑은 데이터 분석, 마케팅 리서치, 가격 모니터링 등 다양한 분야에서 필수적인 작업입니다. 때문에 요즘 오픈소스 스크래퍼 또는 크롤링 도구들이 많이 요구 됩니다. 오늘 소개할 어플리케이션도 이 웹스크래핑을 위한 셀프호스트 기반의 웹스크래퍼 인 Scraperr에 대한 포스트를 하려고 합니다. RAG 시스템에 웹사이트의 컨텐츠를 Ingest하기 위해서는 웹사이트의 데이터 스크래핑이 반드시 요구 됩니다. 그 과정에서 여러 크롤러 또는…
-

Mistral OCR: 높은 정확도의 문서 인식 기술
디지털 전환 시대를 맞아 기업들은 방대한 양의 문서를 효율적으로 처리해야 하는 과제에 직면해 있습니다. 전 세계 조직 데이터의 약 90%가 여전히 문서 형태로 저장되어 있다는 사실은 문서 인식 기술의 중요성을 단적으로 보여줍니다. 2025년, 3월 6일, Mistral AI가 공개한 Mistral OCR은 이러한 문서 처리 영역에서 획기적인 도약을 이뤄냈습니다. 이미 6개월 이상이 지난 지금(2025.10)에서도 OCR과 관련된 모델에…
-

AutoAgent: AI 에이전트의 혁신적인 미래를 열다
인공지능 기술이 급속도로 발전하면서, 복잡한 프로그래밍 지식 없이도 강력한 AI 솔루션을 구축할 수 있는 시대가 도래했습니다. 그 중심에 AutoAgent가 있습니다. AutoAgent는 완전 자동화되고 제로코드(Zero-Code) 환경에서 LLM(대형 언어 모델) 에이전트를 구축할 수 있는 혁신적인 프레임워크입니다. 기존의 AI 에이전트 개발은 복잡한 코딩 작업과 전문적인 기술 지식을 요구했습니다. 하지만 AutoAgent는 자연어만으로도 에이전트를 생성하고 배포할 수 있는 완전히 새로운…
-

DeepDoc: 로컬 문서를 위한 강력한 리서치 도구
오늘날 정보의 홍수 속에서 자신이 보유한 문서들로부터 인사이트를 도출하는 것은 쉽지 않은 일입니다. 특히 방대한 양의 PDF, 워드 문서, 텍스트 파일 등을 일일이 검토하는 것은 시간과 노력이 많이 소요됩니다. 이런 문제를 해결하기 위해 등장한 DeepDoc은 로컬 문서에 대한 심층 분석을 자동화하는 혁신적인 도구입니다. DeepDoc이란 무엇인가? DeepDoc은 인터넷 검색 대신 사용자의 로컬 리소스를 깊이 있게 분석하는…
