[카테고리:] AI

Text Generation Inference(TGI): LLM 서비스를 위한 최적화 솔루션 소개

대규모 언어 모델(LLM)을 실제 서비스에 적용하려면 단순히 모델을 불러오는 것 이상의 작업이 필요합니다. 효율적인 추론, 안정적인 서빙, 그리고 최적화된 성능을 위한 인프라 구축이 중요한데요. 오늘은 이러한 요구사항을 충족시키는 Hugging Face의 Text Generation Inference(TGI)에 대해 알아보겠습니다. TGI란 무엇인가? Text Generation Inference(TGI)는 대규모 언어 모델(LLM)을 배포하고 서빙하기 위한 오픈소스 툴킷입니다. 허깅페이스(Hugging Face)가 개발한 TGI는 LLM을 프로덕션 환경에서…

2025년 07월 20일
LangConnect Client: 벡터 DB 관리를 위한 직관적인 GUI 인터페이스

지난번 LangConnect 에 대해서 포스트하였습니다. 최근 유튜브에서 TeddyNote 님이 공개한 영상에 언급한 LangConnect 에 GUI를 추가한 Client에 대한 영상 소개가 있어서 보자마자 바로 설치 및 사용을 해봤습니다. LangConnect Client는 PostgreSQL과 pgvector 확장을 기반으로 한 벡터 데이터베이스를 관리하기 위한 직관적인 웹 인터페이스를 제공합니다. 이 Next.js 기반 GUI 도구는 문서 관리, 벡터 검색 기능, 그리고 Model Context…

2025년 07월 15일
Agent Squad: 복잡한 대화를 위한 다중 AI 에이전트 오케스트레이션 프레임워크

오늘날 인공지능 기술이 발전함에 따라 단일 AI 에이전트로는 해결하기 어려운 복잡한 문제들이 많아지고 있습니다. 이러한 문제를 해결하기 위해 여러 전문 AI 에이전트를 조율하여 함께 작업할 수 있게 하는 오픈소스 프레임워크인 ‘Agent Squad’를 소개합니다. Agent Squad는 이전에 ‘Multi-Agent Orchestrator’로 알려졌던 프레임워크로, 복잡한 대화를 처리하기 위한 유연하고 가벼운 오픈소스 솔루션입니다. Agent Squad의 주요 특징 Agent Squad란 무엇인가?…

2025년 07월 14일
Agent() vs create_react_agent() : 에이전트 생성 차이

두 코드는 AI 에이전트(Agent)를 생성한다는 공통점이 있지만, 어떤 프레임워크를 사용하고 얼마나 추상화되어 있는지에서 근본적인 차이가 있습니다. 간단히 말해, 첫 번째 코드는 OpenAI의 Assistants API와 같이 모든 것이 준비된 고수준의 서비스를 사용하는 방식이고, 두 번째 코드는 LangChain과 같이 개발자가 직접 제어하며 조립하는 방식입니다. agent = Agent(…) 이 코드는 OpenAI Assistants API 또는 그와 유사한 고수준(High-level) 프레임워크일…

2025년 07월 14일
LangConnect: LangChain 기반의 효율적인 RAG 서비스

LangConnect는 FastAPI와 LangChain, Python을 기반으로 구축된 RAG(Retrieval-Augmented Generation) 서비스입니다. 이 서비스는 컬렉션과 문서를 관리하기 위한 REST API를 제공하며, PostgreSQL과 pgvector를 사용하여 벡터 저장소를 구현합니다. https://github.com/langchain-ai/langconnect 주요 기능 시작하기 사전 요구사항 Docker를 사용한 실행 방법 1. 저장소 클론하기: git clone https://github.com/langchain-ai/langconnect.git cd langconnect 2. 서비스 시작하기: docker-compose up -d 이 명령어는 다음과 같은 작업을 수행합니다: 3.…

2025년 07월 09일
RAGOps: 차세대 AI 운영의 새로운 패러다임

검색 증강 생성(Retrieval Augmented Generation, RAG)은 생성형 AI와 대규모 언어 모델(LLM) 기반 애플리케이션 분야에서 가장 널리 적용되는 기술 중 하나입니다. Databricks 보고서에 따르면, LLM 기반 애플리케이션의 60% 이상이 어떤 형태로든 RAG를 사용하고 있습니다. 연간 약 40%의 성장률을 보이는 글로벌 LLM 시장에서 RAG는 반드시 숙달해야 할 핵심 기술 중 하나입니다. 인공지능이 비즈니스 운영의 핵심으로 자리잡으면서, 단순히…

2025년 07월 03일
RAG 완벽 가이드: 대형 언어 모델의 한계를 극복하는 검색 증강 생성

들어가며 ChatGPT, GPT-4, Gemini 등의 대형 언어 모델(LLM)이 놀라운 성능을 보여주고 있지만, 여전히 중요한 한계점들이 존재합니다. 최신 정보에 대한 지식 부족, 잘못된 정보 생성(할루시네이션), 그리고 도메인별 전문 지식의 부족 등이 그것입니다. 이러한 문제를 해결하기 위해 등장한 것이 바로 RAG(Retrieval Augmented Generation, 검색 증강 생성)입니다. RAG는 단순히 기존 LLM의 성능을 향상시키는 것을 넘어서, 실시간으로 업데이트되는 외부…

2025년 07월 02일
MCP Client: Streamlit과 MCP, LangChain으로 동적 툴(Tool) 라우팅 에이전트 구축

최근의 AI Client는 단순히 정해진 답변만 하는 것을 넘어, MCP와 같은 프로토콜을 기반으로 외부 도구를 활용하고 여러 AI 모델의 능력을 조합하여 복잡한 문제를 해결하는 방향으로 진화하고 있습니다. 이번 글에서는 사용자의 질문에 맞춰 최적의 도구를 동적으로 선택하고, 여러 AI 에이전트의 답변을 종합하여 최종 결과를 제공하는 챗봇을 만드는 방법을 소개합니다. 이 MCP Client는 Streamlit으로 만든 UI 뒤에서,…

2025년 06월 27일
AI의 새로운 흐름: CAG, TAG, RAG을 파헤치다

최근 생성형 AI의 발전과 함께 다양한 Augmented Generation 기술들이 주목받고 있습니다. 그 중에서도 Cache Augmented Generation(CAG, 캐시 증강 생성), Table Augmented Generation(TAG, 테이블 증강 생성), Retrieval Augmented Generation(RAG, 검색 증강 생성)은 각각 고유한 특징과 장점을 가지고 있어 다양한 상황에서 활용되고 있습니다. 각 접근 방식은 LLM의 응답을 사실적이고 맥락에 맞는 데이터에 기반하도록 만드는 근본적인 과제를 해결하지만,…

2025년 06월 24일