OpenAI 빌드 아워: AgentKit으로 에이전트 워크플로우 구축하기
이번 세션은 OpenAI의 AgentKit을 활용해 에이전트 워크플로우를 시각적으로 설계하고, 배포하며, 평가하는 방법을 다룬 데모 세션입니다. Tasha Potasinski(마케팅), Samarth Madduru(솔루션 엔지니어링), Henry Scott-Green(플랫폼 제품)이 발표자로 참여해 에이전트 구축부터 최적화까지의 전 과정을 생생하게 보여주었습니다.
🔍 세션 개요: 핵심 주제 & 주요 포인트
- AgentKit은 복잡한 에이전트 개발을 간소화하기 위한 도구로, 시각적 워크플로우 빌더, 임베드 가능 UI(ChatKit), 평가 시스템(Evals)을 통합했습니다.
- 실제 사례: Ramp, Rippling, HubSpot 등 다양한 기업이 AgentKit으로 고객 지원, 영업 보조, 내부 생산성 도구 등을 구축했습니다.
- 주요 기능:
- Agent Builder로 시각적 워크플로우 설계
- ChatKit으로 맞춤형 채팅 UI 배포
- Evals를 통한 대규모 평가 및 자동 프롬프트 최적화
## 1. Agent Builder: 시각적 워크플로우 설계
Agent Builder는 코드 없이 드래그 앤 드롭으로 에이전트 워크플로우를 구성할 수 있는 도구입니다. 데모에서는 영업 보조 에이전트를 구축하는 과정을 보여주었습니다.
📌 주요 구성 요소
- 질문 분류 에이전트: 사용자 질문을 데이터 분석, 리드 자격 부여, 이메일 생성으로 분류합니다.
"모델이 특정 enum 목록에서만 출력을 생성하도록 강제해 워크플로우의 다음 단계에서 활용할 수 있습니다."
- 조건부 라우팅: 분류 결과에 따라 다른 서브 에이전트로 분기합니다. 예를 들어, "데이터 분석" 요청은 Databricks MCP 서버와 연동됩니다.
- 도구 통합: 웹 검색, 파일 업로드, MCP 서버(Gmail, SharePoint 등)를 활용해 외부 데이터와 연동합니다.
"MCP 서버를 통해 읽기/쓰기 작업을 수행할 수 있으며, 오픈AI에서 미리 정의한 도구를 바로 사용할 수 있습니다."
🧩 서브 에이전트 예시
- 데이터 분석 에이전트: Databricks에서 데이터를 쿼리하고 결과를 자연어로 변환합니다.
- 정보 수집 에이전트: 웹 검색을 통해 회사 정보(직원 수, 매출 등)를 구조화된 형식으로 출력합니다.
- 이메일 생성 에이전트: 마케팅 캠페인 문서와 이메일 작성 가이드를 기반으로 맞춤형 이메일을 생성합니다.
## 2. ChatKit: 맞춤형 UI로 에이전트 배포
ChatKit은 Agent Builder로 설계한 워크플로우를 웹 또는 앱에 쉽게 임베드할 수 있는 UI 도구입니다.
🎨 주요 기능
- 브랜딩 맞춤화: 색상, 폰트, 시작 프롬프트를 기업 가이드라인에 맞게 조정합니다.
- 위젯 통합: 텍스트 대신 그래프, 이메일 작성 폼 등 풍부한 UI 요소를 표시합니다.
"이메일 위젯을 활용하면 영업팀이 버튼 클릭 한 번으로 고객에게 이메일을 전송할 수 있습니다."
- 실시간 테스트: 데모에서 "인도의 에너지 사용량" 질문에 대한 응답으로 지구본 위젯을 제어하는 예시를 보여주었습니다.
## 3. Evals: 에이전트 성능 평가 및 최적화
Henry는 Evals 기능을 통해 에이전트 워크플로우를 평가하고 개선하는 방법을 소개했습니다.
📊 평가 프로세스
- 데이터셋 생성: 테스트 입력과 정답 데이터를 업로드합니다. 예를 들어, 회사 이름과 실제 매출/수익 데이터를 포함합니다.
- 자동 생성 실행: 에이전트 노드가 데이터를 처리하도록 하고, 결과를 평가합니다.
- 그레이더 설정:
- 수동 평가: "좋아요/싫어요" 버튼과 자유 텍스트 피드백을 추가합니다.
- 자동 평가: "재무 분석 그레이더"를 생성해 보고서가 경쟁사 비교, 추천 사항 포함 여부를 평가합니다.
- 프롬프트 최적화:
"자동 프롬프트 최적화 도구는 주석과 그레이더 결과를 기반으로 프롬프트를 재작성해 성능을 향상시킵니다."
🔄 트레이스 그레이딩
- 트레이스 분석: 에이전트 실행 기록을 클릭해 각 단계의 문제를 식별합니다.
- 그레이더 루브릭: "웹 검색 출처는 1차 자료만 포함해야 한다", "최종 결과에 추천 사항 포함" 등의 기준을 정의합니다.
- 대규모 평가: 수천 개의 트레이스를 한 번에 평가해 문제가 있는 단계만 필터링합니다.
## 4. 실제 사례: AgentKit의 활용
🏢 Ramp: 조달 에이전트
- 시간 단축: 기존 2분기 걸리던 개발을 2주 만에 완료했습니다.
- 기능: 소프트웨어 요청 시 ChatKit UI로 사용자에게 결과를 제공하고, Agent Builder로 백엔드 워크플로우를 관리합니다.
📈 HubSpot: Breeze AI 어시스턴트
- 프론트엔드 시간 절약: ChatKit으로 UI를 빠르게 구현해 개발 시간을 단축했습니다.
📊 Carlyle & Bain: 평가 시스템 최적화
- 효율성 향상: Evals를 통해 25%의 데이터 처리 효율성을 개선했습니다.
❓ 자주 묻는 질문 (Q&A)
-
Q: 반복 루프 기능은 있나요?
A: "for 루프"는 없지만, while 루프를 통해 종료 조건이 충족될 때까지 워크플로우를 반복할 수 있습니다.
-
Q: 에이전트 SDK와 AgentKit의 차이는?
A: AgentKit은 시각적 도구로 SDK를 기반으로 하며, 클라우드 호스팅 기능도 추가할 예정입니다.
-
Q: 이미지/파일 분석 가능?
A: 파일 업로드를 지원하며, ChatKit에서 업로드한 파일은 Agent Builder로 자동 전달됩니다.
📌 마무리: AgentKit의 미래
- 향후 계획: RFT(모델 사용자 정의), 메모리 패턴 등 추가 기능 출시 예정.
- 추천 자료:
✨ 결론: 에이전트 개발의 혁신
AgentKit은 복잡한 에이전트 개발을 시각적 도구, 자동 평가, 맞춤 UI로 간소화해 누구나 쉽게 AI를 활용할 수 있도록 합니다. 스타트업부터 포춘 500대 기업까지 다양한 산업에서 이미 성과를 입증했으며, 앞으로도 지속적인 업데이트를 통해 더 많은 가능성을 열어나갈 것입니다. 🚀