Magentic-UI: 웹 기반 작업을 위한 혁신적인 인간 중심 AI 에이전트

현대의 생산성은 웹을 기반으로 합니다. 정보 검색, 양식 작성, 대시보드 탐색 등 많은 작업이 웹에서 이루어집니다. 그러나 이러한 작업들은 여전히 수동적이고 반복적인 경우가 많습니다. 이러한 문제를 해결하기 위해 마이크로소프트에서 새로운 오픈소스 연구 프로토타입인 ‘Magentic-UI’를 소개합니다.

Magentic-UI는 인간 중심 에이전트로서, 연구자들이 human-in-the-loop 접근 방식과 AI 에이전트의 감독 메커니즘에 관한 열린 질문을 연구하는 데 도움을 주기 위해 설계되었습니다. 이 프로토타입은 웹 기반 작업에서 사용자와 협업하며 웹 브라우저를 통해 실시간으로 작동합니다.

<출처 :https://github.com/microsoft/Magentic-UI>

Magentic-UI의 특별한 점

다른 컴퓨터 사용 에이전트들이 완전한 자율성을 목표로 하는 것과 달리, Magentic-UI는 단순한 웹 검색을 넘어 행동 지향적이고 다양한 활동이 필요한 작업에 대해 투명하고 제어 가능한 경험을 제공합니다. 이 도구는 작년에 출시된 강력한 멀티 에이전트 팀인 Magentic-One을 기반으로 구축되었으며, 마이크로소프트의 주요 에이전트 프레임워크인 AutoGen에 의해 구동됩니다.

Magentic-UI는 MIT 라이선스 하에 GitHub에서 제공되며, Azure AI Foundry Labs에서도 이용할 수 있습니다. 이곳은 개발자, 스타트업 및 기업이 마이크로소프트 리서치의 혁신적인 기술을 탐색할 수 있는 허브입니다.

Magentic-UI의 주요 기능

Magentic-UI는 웹 브라우징, Python 및 셸 코드 작성 및 실행, 파일 이해 등이 필요한 작업을 수행할 수 있습니다. 주요 기능은 다음과 같습니다:

사용자와의 협업 계획(co-planning): Magentic-UI는 사용자가 계획 편집기를 통해 또는 텍스트 피드백을 제공함으로써 실행 전에 계획을 직접 수정할 수 있게 합니다.
사용자와의 협업 실행(co-tasking): 사용자는 시스템을 일시 중지하고 자연어로 피드백을 제공하거나 브라우저를 직접 제어함으로써 시연할 수 있습니다.
Human-In-The-Loop 안전성(action guards): Magentic-UI는 되돌릴 수 없는 작업을 실행하기 전에 사용자 승인을 요청하며, 사용자는 Magentic-UI가 얼마나 자주 승인이 필요한지 지정할 수 있습니다.
경험으로부터의 학습(plan learning): Magentic-UI는 이전 상호작용에서 계획을 학습하고 저장하여 향후 작업 완료를 개선할 수 있습니다.

<출처: https://www.microsoft.com/en-us/research/blog/magentic-ui-an-experimental-human-centered-web-agent/, 사용자의 목표 달성을 위한 계획 및 브라우저를 통한 진행 상황 표시>

Magentic-UI가 인간 중심적인 이유

많은 웹 에이전트가 완전한 자율성을 약속하지만, 실제로 사용자는 에이전트가 무엇을 할 수 있는지, 현재 무엇을 하고 있는지, 그리고 문제가 발생했을 때 개입할 수 있는 충분한 제어권이 있는지 확신하지 못하는 경우가 많습니다. 이와 달리, Magentic-UI는 상호작용의 모든 단계에서 사용자의 요구를 고려합니다. 마이크로소프트는 Magentic-UI를 구축하는 과정에서 프로토타이핑과 파일럿 사용자로부터의 피드백을 통해 인간 중심 설계 방법론을 따랐습니다.

1. 협업 계획(Co-planning)

사용자가 작업을 지정한 후 Magentic-UI가 실행을 시작하기 전에, 에이전트는 작업을 완료하기 위해 수행할 단계별 계획을 명확하게 작성합니다. 사용자는 Magentic-UI와 협력하여 이 계획을 수정한 다음 Magentic-UI가 실행을 시작하도록 최종 승인을 제공할 수 있습니다. 이는 사용자가 작업 완료 방법에 대한 기대치를 가질 수 있으므로 중요합니다. 이러한 정보를 전달하면 에이전트 성능을 크게 향상시킬 수 있습니다.

2. 협업 실행(Co-tasking)

실행 중에 Magentic-UI는 버튼을 클릭하거나 검색 쿼리를 입력하는 등 수행하려는 특정 작업을 실시간으로 보여줍니다. 또한 방문 중인 웹 페이지에서 관찰한 내용을 실시간으로 보여줍니다. 사용자는 언제든지 작업을 제어하고 다시 에이전트에게 제어권을 돌려줄 수 있습니다.

3. 작업 가드(Action Guards)

Magentic-UI는 탭 닫기나 부작용이 있는 버튼 클릭과 같이 되돌릴 수 없다고 간주되는 작업을 수행하기 전에 사용자 허가를 요청합니다. 사용자는 또한 Magentic-UI의 작업 가드를 구성하여 모든 작업을 수행하기 전에 항상 허가를 요청하도록 할 수 있습니다. 사용자가 작업이 위험하다고 판단하면(예: 항목 결제) 이를 거부할 수 있습니다.

4. 계획 학습(Plan Learning)

실행 후, 사용자는 Magentic-UI에게 대화를 반영하고 향후 유사한 작업을 위한 단계별 계획을 추론하고 저장하도록 요청할 수 있습니다. 사용자는 저장된 계획 갤러리에서 Magentic-UI가 향후에 재사용할 저장된 계획을 보고 수정할 수 있습니다. 향후 세션에서 사용자는 저장된 계획으로 Magentic-UI를 실행하여 특정 항공편 가격 확인과 같은 동일한 작업을 다시 실행하거나, 다른 유형의 항공편 가격 확인과 같은 유사한 작업을 완료하는 데 도움이 되는 가이드로 계획을 사용할 수 있습니다.

이 네 가지 기능—협업 계획, 협업 실행, 작업 가드, 계획 학습—을 결합하면 사용자가 Magentic-UI와 효과적으로 협업할 수 있습니다.

Magentic-UI의 아키텍처

Magentic-UI의 기본 시스템은 AutoGen의 Magentic-One 시스템에서 적용된 전문 에이전트 팀입니다. 에이전트들은 함께 작동하여 모듈식 시스템을 만듭니다:

Orchestrator: 대규모 언어 모델(LLM)에 의해 구동되는 주요 에이전트로, 사용자와 협업 계획을 수행하고, 사용자에게 피드백을 요청할 시기를 결정하며, 하위 작업을 나머지 에이전트에게 위임하여 완료합니다.
WebSurfer: 제어할 수 있는 웹 브라우저가 장착된 LLM 에이전트입니다. Orchestrator의 요청에 따라 클릭, 입력, 스크롤 및 여러 라운드에서 페이지를 방문하여 Orchestrator의 요청을 완료할 수 있습니다.
Coder: Docker 코드 실행 컨테이너가 장착된 LLM 에이전트입니다. Python 및 셸 명령을 작성하고 실행하여 Orchestrator에 응답을 제공할 수 있습니다.
FileSurfer: Docker 코드 실행 컨테이너와 MarkItDown 패키지의 파일 변환 도구가 장착된 LLM 에이전트입니다. Magentic-UI가 제어하는 디렉토리에서 파일을 찾고, 파일을 마크다운으로 변환하며, 파일에 대한 질문에 답할 수 있습니다.

<출처: https://www.microsoft.com/en-us/research/blog/magentic-ui-an-experimental-human-centered-web-agent/, Magentic-UI 시스템 아키텍처>

사용자 상호작용 흐름

Magentic-UI와 상호작용하기 위해 사용자는 텍스트 메시지를 입력하고 이미지를 첨부할 수 있습니다. 응답으로 Magentic-UI는 사용자가 계획 편집 인터페이스를 통해 상호작용할 수 있는 자연어 단계별 계획을 생성합니다. 사용자는 단계를 추가, 삭제, 편집, 재생성하고 계획을 반복하기 위해 후속 메시지를 작성할 수 있습니다. 사용자가 계획을 편집하는 것은 상호작용에 초기 비용을 추가하지만, 에이전트가 계획을 실행하는 데 상당한 시간을 절약하고 성공 가능성을 높일 수 있습니다.

계획은 Orchestrator 내부에 저장되며 작업 실행에 사용됩니다. 계획의 각 단계에서 Orchestrator는 에이전트(WebSurfer, Coder, FileSurfer) 중 어떤 것이 또는 사용자가 단계를 완료해야 하는지 결정합니다. 결정이 내려지면 Orchestrator는 에이전트 중 하나 또는 사용자에게 요청을 보내고 응답을 기다립니다. 응답을 받은 후 Orchestrator는 해당 단계가 완료되었는지 결정합니다. 완료되었다면 Orchestrator는 다음 단계로 넘어갑니다.

모든 단계가 완료되면 Orchestrator는 사용자에게 제시되는 최종 답변을 생성합니다. 단계 실행 중 Orchestrator가 계획이 부적절하다고 판단하면(예: 특정 웹사이트에 접근할 수 없는 경우), Orchestrator는 사용자 허가를 받아 재계획하고 새 계획 실행을 시작할 수 있습니다.

모든 중간 진행 단계는 사용자에게 명확하게 표시됩니다. 또한 사용자는 계획 실행을 일시 중지하고 추가 요청이나 피드백을 보낼 수 있습니다. 사용자는 인터페이스를 통해 에이전트 작업(예: 버튼 클릭)에 승인이 필요한지 여부를 구성할 수도 있습니다.

Magentic-UI 평가

Magentic-UI는 작업 계획 및 실행에 인간 피드백을 통합하는 능력을 통해 혁신합니다. 마이크로소프트는 사용자 시뮬레이션 실험을 통해 에이전트를 위한 GAIA 벤치마크에서 이 능력을 보여주기 위한 예비 자동 평가를 수행했습니다.

시뮬레이션된 사용자를 통한 평가

GAIA는 일반 AI 어시스턴트를 위한 벤치마크로, 에이전트가 웹을 탐색하고, 파일을 처리하며, 코드를 실행해야 하는 도전적인 멀티모달 질문-답변 쌍을 포함합니다. GAIA의 전통적인 평가 설정은 시스템이 자율적으로 작업을 완료하고 답변을 반환하며, 이는 정답과 비교됩니다.

Magentic-UI의 Human-In-The-Loop 기능을 평가하기 위해, 마이크로소프트는 시뮬레이션된 사용자 개념을 도입하여 GAIA를 대화형 벤치마크로 변환했습니다. 시뮬레이션된 사용자는 두 가지 방식으로 가치를 제공합니다: 에이전트가 보유하지 않을 수 있는 특정 전문 지식을 보유하고, 작업 수행 방법에 대한 지침을 제공합니다.

GAIA란?

GAIA는 Generate AI Agenet의 AI 평가 검증을 위한 일종의 벤치마크 입니다. 관련된 정보는 아래의 링크를 참고해주세요. https://arxiv.org/abs/2311.12983

<출처: https://www.microsoft.com/en-us/research/blog/magentic-ui-an-experimental-human-centered-web-agent/, GAIA 검증 세트라는 것으로 Magentic-UI를 완전 자동화 보다는 인간과 상호작용으로 참여형 학습이 좀더 낫다는 취지의 결과 입니다.>

Human-In-The-Loop의 가치를 보여주기 위해 두 가지 유형의 시뮬레이션된 사용자로 실험했습니다: (1) Magentic-UI 에이전트보다 더 지능적인 시뮬레이션된 사용자와 (2) Magentic-UI 에이전트와 동일한 지능을 가졌지만 작업에 대한 추가 정보를 가진 시뮬레이션된 사용자입니다. 협업 계획 중에 Magentic-UI는 이 시뮬레이션된 사용자로부터 피드백을 받아 계획을 개선합니다. 협업 실행 중에 Magentic-UI는 막히면 (시뮬레이션된) 사용자에게 도움을 요청할 수 있습니다. 마지막으로, Magentic-UI가 최종 답변을 제공하지 않으면 시뮬레이션된 사용자가 대신 답변을 제공합니다.

GAIA의 검증 하위 집합(162개 작업)에서 자율 모드에서 작동하는 Magentic-One, 자율 모드에서 작동하는 Magentic-UI(시뮬레이션된 사용자 없음), 시뮬레이션된 사용자(1)(더 스마트한 모델)가 있는 Magentic-UI, 시뮬레이션된 사용자(2)(부가 정보)가 있는 Magentic-UI, 그리고 인간 성능의 결과를 보여줍니다.

부가 정보에 접근할 수 있는 시뮬레이션된 사용자가 있는 Magentic-UI는 자율 Magentic-UI의 정확도를 71% 향상시켜, 30.3%의 작업 완료율에서 51.9%의 작업 완료율로 향상시켰습니다. 더욱이, Magentic-UI는 작업의 10%에서만 시뮬레이션된 사용자에게 도움을 요청하고 작업의 18%에서 최종 답변을 위해 시뮬레이션된 사용자에 의존합니다. 그리고 도움을 요청하는 작업에서는 평균 1.1회 도움을 요청합니다. 더 스마트한 모델로 구동되는 시뮬레이션된 사용자가 있는 Magentic-UI는 42.6%로 향상되었으며, Magentic-UI는 작업의 4.3%에서만 도움을 요청하고, 이러한 작업에서 평균 1.7회 도움을 요청합니다.

이는 단독으로 작동하는 자율 에이전트보다 성능(예: 작업 완료)을 향상시키는 데 가벼운 인간 피드백의 잠재력을 보여주며, 특히 사람들이 작업을 완전히 수동으로 완료하는 것에 비해 비용이 훨씬 적게 든다는 것을 의미합니다.

계획 학습 및 재사용

위에서 설명한 대로, Magentic-UI가 작업을 완료하면 사용자는 Magentic-UI가 작업 실행을 기반으로 계획을 학습하도록 선택할 수 있습니다. 이러한 계획은 계획 갤러리에 저장되며, 사용자와 Magentic-UI가 향후에 접근할 수 있습니다.

사용자는 ‘저장된 계획’ 버튼을 클릭하여 표시되는 계획 갤러리에서 계획을 선택할 수 있습니다. 또는 사용자가 이전 작업과 밀접하게 일치하는 작업을 입력하면 사용자가 입력을 완료하기 전에도 저장된 계획이 표시됩니다. 동일한 작업이 발견되지 않으면 Magentic-UI는 AutoGen의 Task-Centric Memory를 사용하여 유사한 작업에 대한 계획을 검색할 수 있습니다.

예비 평가에 따르면 이 검색은 매우 정확하며, 저장된 계획을 회상할 때 새 계획을 생성하는 것보다 약 3배 빠를 수 있습니다. 계획이 회상되거나 생성되면 사용자는 항상 이를 수락하거나, 수정하거나, Magentic-UI에게 특정 작업에 맞게 수정하도록 요청할 수 있습니다.

안전성과 제어

Magentic-UI는 실시간 인터넷을 탐색하고 코드를 실행할 수 있습니다. 이러한 기능을 갖추고 있기 때문에 Magentic-UI가 안전하고 보안된 방식으로 작동하도록 해야 합니다. 이를 보장하기 위해 다음과 같은 기능, 설계 결정 및 평가가 이루어졌습니다:

허용 목록: 사용자는 Magentic-UI가 접근할 수 있는 웹사이트 목록을 설정할 수 있습니다. Magentic-UI가 허용 목록 외부의 웹사이트에 접근해야 하는 경우, 사용자는 인터페이스를 통해 명시적으로 승인해야 합니다.
언제든지 중단: Magentic-UI가 작업을 완료하는 어느 시점에서든 사용자는 Magentic-UI를 중단하고 보류 중인 코드 실행이나 웹 브라우징을 중지할 수 있습니다.
Docker 샌드박싱: Magentic-UI는 자격 증명이 없는 Docker 컨테이너 내에서 실행되는 브라우저를 제어하므로 로그인된 계정 및 자격 증명과 관련된 위험을 피할 수 있습니다. 또한 모든 코드 실행도 별도의 Docker 컨테이너 내에서 수행되어 Magentic-UI가 실행되는 호스트 환경에 영향을 미치지 않습니다.
되돌릴 수 없는 에이전트 작업 감지 및 승인: 사용자는 작업 승인 정책(작업 가드)을 구성하여 Magentic-UI가 사용자 승인 없이 수행할 수 있는 작업을 결정할 수 있습니다. 극단적인 경우, 사용자는 모든 작업(예: 모든 버튼 클릭)에 명시적인 사용자 승인이 필요하다고 지정할 수 있습니다. 사용자는 각 작업에 대해 “수락” 또는 “거부” 버튼을 눌러야 합니다.

위의 설계 결정 외에도, 마이크로소프트는 Magentic-UI의 보안 및 안전성에 도전하기 위해 개발한 일련의 내부 시나리오에서 Magentic-UI에 대한 레드팀 평가를 수행했습니다. 이러한 시나리오에는 웹 페이지가 사용자의 원래 의도와 구별되는 악의적인 지시를 포함하는 크로스 사이트 프롬프트 인젝션 공격이 포함됩니다(예: 위험한 코드 실행, 민감한 파일 접근 또는 다른 웹사이트에서 작업 수행). 또한 피싱과 유사한 시나리오도 포함되어 있어 Magentic-UI를 속여 민감한 정보를 입력하거나 가짜 사이트에서 권한을 부여하도록 합니다.

예비 평가에서 Magentic-UI는 요청 완료를 거부하거나, 사용자에게 물어보기 위해 중지하거나, 최종 안전 조치로서 Docker 샌드박싱으로 인해 결국 요청을 완료할 수 없게 됩니다. 이러한 계층화된 접근 방식이 이러한 공격을 막는 데 효과적이라는 것을 발견했습니다.

Magentic-UI의 활용 방안

1. 웹 리서치 및 정보 수집 자동화

Magentic-UI는 특정 주제에 대한 광범위한 웹 리서치를 자동화하는 데 탁월합니다. 연구자, 학생, 작가는 이 도구를 사용하여 여러 웹사이트에서 정보를 수집하고 종합할 수 있습니다. 예를 들어, 시장 조사를 수행하거나 학술 논문을 위한 자료를 수집할 때 Magentic-UI는 사용자가 지정한 키워드와 관련된 웹사이트를 탐색하고 관련 정보를 추출할 수 있습니다.

2. 데이터 분석 및 시각화 지원

Magentic-UI의 코드 실행 기능을 활용하면 데이터 분석 작업을 간소화할 수 있습니다. 사용자는 Magentic-UI에게 데이터 세트를 분석하고 Python을 사용하여 시각화를 생성하도록 요청할 수 있습니다. 이는 데이터 과학자나 분석가가 반복적인 코딩 작업을 줄이고 더 높은 수준의 분석에 집중할 수 있게 해줍니다.

3. 웹 양식 자동 작성 및 데이터 입력

반복적인 웹 양식 작성은 시간이 많이 소요되는 작업입니다. Magentic-UI를 사용하면 사용자는 여러 웹사이트에서 양식을 자동으로 작성하도록 지시할 수 있습니다. 이는 구직 신청, 설문 조사 작성, 또는 다양한 플랫폼에 동일한 정보를 입력해야 하는 경우에 특히 유용합니다.

4. 웹 모니터링 및 알림

Magentic-UI를 사용하여 특정 웹사이트의 변경 사항을 모니터링하고 중요한 업데이트가 있을 때 알림을 받을 수 있습니다. 예를 들어, 가격 변동, 재고 상태, 또는 판매 가능 상태 등을 모니터링 하면서, 변경 사항을 이벤트로 활용하여 알림 기능을 사용할 수 있습니다.

사용해보기

Magentic-UI를 시작하는 방법은 매우 간단합니다:

1. 환경 설정하기

먼저 Python 가상환경을 설정하고 Magentic-UI를 설치합니다:

python3 -m venv .venv
source .venv/bin/activate
pip install magentic-ui --upgrade

2. API 키 설정하기

OpenAI API 키를 환경 변수로 설정합니다:

export OPENAI_API_KEY="your-api-key-here"

3. Magentic-UI 실행하기

다음 명령어로 Magentic-UI를 실행합니다:

magentic-ui --port 8081

브라우저에서 http://localhost:8081을 열어 Magentic-UI와 상호작용하세요!

사전 요구사항

Magentic-UI를 사용하기 위해서는 다음이 필요합니다:

Docker
Python 3.10 이상
Windows 사용자는 WSL2 사용 권장

주요 기능

파일 업로드 지원: UI를 통해 분석이나 수정을 위한 파일 업로드 가능
MCP 에이전트: 원하는 MCP 서버로 기능 확장
간편한 설치: Docker 컨테이너가 GHCR에 업로드되어 직접 빌드할 필요 없이 설치 시간 단축

대체 사용 옵션

Docker 없이 실행 (제한된 기능: 코드 실행 불가)

magentic-ui --run-without-docker --port 8081

명령줄 인터페이스

magentic-cli --work-dir PATH/TO/STORE/DATA

커스텀 LLM 클라이언트

Azure:

pip install magentic-ui[azure]

Ollama (로컬 모델):

pip install magentic-ui[ollama]

설치한 후에는 config 파일을 magentic-ui 명령에 전달하거나 UI 설정에서 모델 클라이언트를 변경할 수 있습니다.

상세 설치 가이드

사전 요구사항

Windows 사용자는 WSL2(Windows Subsystem for Linux)를 사용하는 것이 강력히 권장됩니다.

Windows/Mac에서는 Docker Desktop 사용, WSL2 내부에서는 WSL2 가이드에 따라 Docker 직접 설치
Linux에서는 Docker Engine 사용
Docker Desktop 사용 시 WSL2 설정 확인:
- Settings > Resources > WSL Integration으로 이동
- 개발 배포판과의 통합 활성화
Python 3.10 이상 필요
Windows에서는 파일 경로 호환성을 위해 WSL2 내에서 Magentic-UI 실행 권장

PyPI 설치

Magentic-UI는 PyPI에서 사용 가능합니다. 다른 패키지와의 충돌을 피하기 위해 가상 환경 사용을 권장합니다.

python3 -m venv .venv
source .venv/bin/activate
pip install magentic-ui

또는 uv를 사용하는 경우:

uv venv --python=3.12 .venv
. .venv/bin/activate
uv pip install magentic-ui

Magentic-UI 실행하기

Magentic-UI를 실행하려면 Docker가 실행 중인지 확인한 후 다음 명령어를 실행하세요:

magentic-ui --port 8081

참고: 이 명령어를 처음 실행하면 Magentic-UI 에이전트에 필요한 두 개의 Docker 이미지를 가져옵니다. 문제가 발생하면 다음 명령어로 직접 빌드할 수 있습니다:

cd docker
sh build-all.sh

Docker 관련 문제가 발생하면 TROUBLESHOOTING.md 문서를 참조하세요.

서버가 실행되면 브라우저에서 http://localhost:8081에 접속하여 UI를 사용할 수 있습니다.

설정

모델 클라이언트 설정

다른 OpenAI 키를 사용하거나 Azure OpenAI 또는 Ollama를 사용하도록 설정하려면 UI의 설정(오른쪽 상단 아이콘)에서 모델 구성을 변경할 수 있습니다. 또는 Magentic-UI를 시작할 때 yaml 설정 파일을 전달하여 UI의 설정을 재정의할 수 있습니다:

magentic-ui --port 8081 --config config.yaml

config.yaml은 다음과 같이 AutoGen 모델 클라이언트 구성을 포함해야 합니다:

gpt4o_client: &gpt4o_client
    provider: OpenAIChatCompletionClient
    config:
      model: gpt-4o-2024-08-06
      api_key: null
      base_url: null
      max_retries: 5

orchestrator_client: *gpt4o_client
coder_client: *gpt4o_client
web_surfer_client: *gpt4o_client
file_surfer_client: *gpt4o_client
action_guard_client: *gpt4o_client
plan_learning_client: *gpt4o_client

gpt4o_client: &gpt4o_client
    provider: OpenAIChatCompletionClient
    config:
      model: gpt-4o-2024-08-06
      api_key: null
      base_url: null
      max_retries: 5

orchestrator_client: *gpt4o_client
coder_client: *gpt4o_client
web_surfer_client: *gpt4o_client
file_surfer_client: *gpt4o_client
action_guard_client: *gpt4o_client
plan_learning_client: *gpt4o_client

설정 파일을 사용하여 각 에이전트의 클라이언트를 변경하고 AzureOpenAI(AzureOpenAIChatCompletionClient), Ollama 및 기타 클라이언트를 사용할 수 있습니다.

MCP 서버 설정

또한 커스텀 “McpAgents”를 멀티 에이전트 팀에 추가하여 Magentic-UI의 기능을 확장할 수 있습니다. 각 McpAgent는 하나 이상의 MCP 서버에 액세스할 수 있습니다. config.yaml의 mcp_agent_configs 매개변수를 통해 이러한 에이전트를 지정할 수 있습니다.

예를 들어, 다음은 Stdio를 통해 로컬로 실행되는 OpenBnb MCP 서버에 액세스할 수 있는 “airbnb_surfer”라는 에이전트입니다:

mcp_agent_configs:
  - name: airbnb_surfer
    description: "The airbnb_surfer has direct access to AirBnB."
    model_client: 
      provider: OpenAIChatCompletionClient
      config:
        model: gpt-4.1-2025-04-14
      max_retries: 10
    system_message: |-
      You are AirBnb Surfer, a helpful digital assistant that can help users acces AirBnB.

      You have access to a suite of tools provided by the AirBnB API. Use those tools to satisfy the users requests.
    reflect_on_tool_use: false
    mcp_servers:
      - server_name: AirBnB
        server_params:
          type: StdioServerParams
          command: npx
          args:
            - -y
            - "@openbnb/mcp-server-airbnb"
            - --ignore-robots-txt

mcp_agent_configs:
  - name: airbnb_surfer
    description: "The airbnb_surfer has direct access to AirBnB."
    model_client: 
      provider: OpenAIChatCompletionClient
      config:
        model: gpt-4.1-2025-04-14
      max_retries: 10
    system_message: |-
      You are AirBnb Surfer, a helpful digital assistant that can help users acces AirBnB.

      You have access to a suite of tools provided by the AirBnB API. Use those tools to satisfy the users requests.
    reflect_on_tool_use: false
    mcp_servers:
      - server_name: AirBnB
        server_params:
          type: StdioServerParams
          command: npx
          args:
            - -y
            - "@openbnb/mcp-server-airbnb"
            - --ignore-robots-txt

소스에서 Magentic-UI 빌드하기

이 단계는 주로 코드를 수정하려는 사용자, PyPI 설치에 문제가 있는 사용자 또는 PyPI 버전 출시 전에 최신 코드를 원하는 사용자를 위한 것입니다.

1. 사전 요구사항 확인

위에서 언급한 사전 요구사항이 설치되어 있고 Docker가 실행 중인지 확인하세요.

2. 저장소 복제

git clone https://github.com/microsoft/magentic-ui.git
cd magentic-ui

3. 의존성 설치

uv 설치: https://docs.astral.sh/uv/getting-started/installation/ 참조

uv venv --python=3.12 .venv
uv sync --all-extras
source .venv/bin/activate

4. 프론트엔드 빌드

먼저 node 설치:

curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh | bash
nvm install node

프론트엔드 설치:

cd frontend
npm install -g gatsby-cli
npm install --global yarn
yarn install
yarn build

5. Magentic-UI 실행

magentic-ui --port 8081

소스에서 UI 실행하기 (개발 모드)

UI 소스 코드를 변경하는 경우 프론트엔드를 개발 모드로 실행하여 변경 사항이 자동으로 업데이트되도록 할 수 있습니다.

별도의 터미널을 열고 프론트엔드 디렉토리로 이동: cd frontend
.env.development 파일 생성: cp .env.default .env.development
프론트엔드 서버 실행: npm run start
UI 실행: magentic-ui --port 8081

소스에서 실행한 프론트엔드는 http://localhost:8000에서 사용할 수 있으며, 컴파일된 프론트엔드는 http://localhost:8081에서 사용할 수 있습니다.

결론

Magentic-UI는 여러 단계의 계획과 브라우저 사용이 필요한 복잡한 작업을 사람과 함께 수행하는 오픈 소스 에이전트 프로토타입입니다. 에이전트 시스템이 완료할 수 있는 작업 범위가 확장됨에 따라, Magentic-UI의 디자인은 에이전트 동작에 대한 투명성을 높이고 인간의 통제를 가능하게 하여 안전성과 신뢰성을 보장합니다. 또한, 인간의 개입을 용이하게 함으로써 전체 작업을 완료하는 데 드는 인적 비용을 절감하는 동시에 성능을 향상시킬 수 있습니다.

해당 소스에 대해서는 아래 링크를 참고해주세요
https://github.com/microsoft/Magentic-UI

게시됨

2025년 08월 20일

카테고리

AI, Python

작성자

choonzang

태그:

Coder, FileSurfer, GAIA, Magentic One, Magentic UI, Magentic UI 빌드 가이드, WebSurfer

Magentic-UI: 웹 기반 작업을 위한 혁신적인 인간 중심 AI 에이전트

Magentic-UI의 특별한 점

Magentic-UI의 주요 기능

Magentic-UI가 인간 중심적인 이유

1. 협업 계획(Co-planning)

2. 협업 실행(Co-tasking)

3. 작업 가드(Action Guards)

4. 계획 학습(Plan Learning)

Magentic-UI의 아키텍처

사용자 상호작용 흐름

Magentic-UI 평가

시뮬레이션된 사용자를 통한 평가

계획 학습 및 재사용

안전성과 제어

Magentic-UI의 활용 방안

1. 웹 리서치 및 정보 수집 자동화

2. 데이터 분석 및 시각화 지원

3. 웹 양식 자동 작성 및 데이터 입력

4. 웹 모니터링 및 알림

사용해보기

1. 환경 설정하기

2. API 키 설정하기

3. Magentic-UI 실행하기

사전 요구사항

주요 기능

대체 사용 옵션

Docker 없이 실행 (제한된 기능: 코드 실행 불가)

명령줄 인터페이스

커스텀 LLM 클라이언트

상세 설치 가이드

사전 요구사항

PyPI 설치

Magentic-UI 실행하기

설정

모델 클라이언트 설정

MCP 서버 설정

소스에서 Magentic-UI 빌드하기

1. 사전 요구사항 확인

2. 저장소 복제

3. 의존성 설치

4. 프론트엔드 빌드

5. Magentic-UI 실행

소스에서 UI 실행하기 (개발 모드)

결론

댓글

답글 남기기