H
하베스트
AI로 요약된 콘텐츠

실시간 AI 음성 세일즈 에이전트 만들기 워크숍 요약

최신 AI 하드웨어와 소프트웨어 기술을 활용해 음성 기반의 세일즈 에이전트(판매 에이전트)를 직접 만드는 과정을 안내하는 Cerebras의 최신 워크숍입니다. 단일 에이전트에서 다중(멀티) 전문 에이전트까지 실전 적용 예시와 함께, 단계별로 따라 할 수 있도록 구체적인 안내와 코드 노트북을 제공합니다. 하드웨어 혁신, 실시간 음성 처리, 맥락 유지, 멀티에이전트 확장 방안까지 주요 포인트를 쉽게 설명합니다.


1. 워크숍 소개 및 AI 세일즈 에이전트 개념

강연은 Cerebras DevX팀의 Sarah Chieng과 Zhenwei Gao가 진행하며, 참여자들에게 직접 실시간으로 고객과 자연스레 대화하는 음성 세일즈 에이전트를 만드는 방법을 안내합니다.

"이 세션에 참석해 주셔서 정말 감사합니다. 여러분만의 음성 에이전트를 어떻게 만드는지 A부터 Z까지 차근히 안내해드릴 거예요."

처음에는 워크숍 전체 목표와 혜택을 안내합니다. 교육생들은 Cerebras, LiveKit, Cartesia API 크레딧을 받으며, 자세한 코드와 단계별 안내가 담긴 노트북을 바로 따라하면서 실습할 수 있습니다. 이 시스템은 회사 고유의 영업 자료와 연결해서 실제 업무에 바로 적용이 가능하다는 점이 강조됩니다.

"끝까지 따라오시면, 여러분 자신의 세일즈 에이전트를 완성해서 바로 회사 자료에 연결할 수 있어요. 실제 업무에 쓸 수도 있습니다."


2. Cerebras 하드웨어와 소프트웨어 혁신

하드웨어: 대용량, 초고속 AI 연산

Cerebras가 개발한 Wafer Scale Engine 3 (WSE-3)는 기존 GPU와 다른 혁신적인 구조를 자랑합니다. 크기가 접시만 할 정도(디너 플레이트!)로 크고, 4조 개 트랜지스터, 90만 개 코어, 대용량 온칩 메모리를 탑재하고 있어서, 전통적인 GPU보다 압도적으로 빠른 속도를 구현합니다.

"Cerebras 칩은 메모리 대역폭 병목 현상이 없습니다. 각 코어마다 바로 옆에 전용 메모리가 있거든요."

기존 GPU(Nvidia H100)는 수만 개의 코어들이 연산할 데이터(가중치, 활성화값, KV 캐시 등)를 칩 밖의 '오프칩' 메모리에서 불러오다가 메모리 채널 병목이 생깁니다. 반면 Cerebras는 각 코어 옆에 고속 메모리가 있어 데이터 접근이 거의 즉각적이어서, 추론(Inferece) 속도가 20~70배 가까이 빨라집니다.

소프트웨어: 추론 가속화 기법

"추론 속도를 획기적으로 올리기 위해, Cerebras는 추정 디코딩(speculative decoding)이라는 기법도 씁니다."

일반적으로 한 토큰씩 차례대로 예측하는 방식이 느린데, 이 방법은 먼저 작은 모델이 전체 문장을 빠르게 예측('드래프트'), 그 뒤 큰 모델이 결과를 검증하는 구조입니다. 이렇게 하면 작은 모델의 속도큰 모델의 정밀도를 모두 잡을 수 있습니다.
즉, 하드웨어와 소프트웨어 양쪽에서 극한의 실시간 대응을 목표로 설계한 것이 바로 Cerebras의 장점입니다.


3. 음성 에이전트: 역할 및 작동 방식

음성 에이전트란 무엇인가?

음성 에이전트는 그저 문자 채팅을 넘어서, 실제 대화를 하듯 자연스럽게 상호작용하는 AI입니다. 사용자가 말을 하면 곧바로 듣고, 문맥을 파악해 적절하게 대답하며, 상황에 맞는 행동을 합니다.

"음성 에이전트는 단순 키워드 매칭이 아니라, 사용자의 의도와 의미까지 파악해서 대화할 수 있습니다."

주요 특징은 다음과 같습니다:

  1. 실제 음성 대화를 이해하고, 단순한 데이터 응답이 아니라 맥락 기반의 반응 제공
  2. 복잡한 요청(예: 제품 추천, 과거 구매내역/재고/최적 상품 등 통합 제안)도 처리 가능
  3. 음성이 곧 '가장 빠른 의사 표현 수단'이라는 점에 착안, 말로 바로 원하는 것 전달
  4. 대화 상태(컨텍스트)를 항상 기억해서, 여러 턴이 오가는 긴 대화도 자연스럽게 이어나갈 수 있음

"에이전트가 대화 흐름을 완벽히 추적해야만, 맥락을 이해하고 자연스러운 대화가 가능해집니다."

실제 작동 구조 — 3단계

  1. 듣기(음성 → 텍스트, 발화 종료 탐지)

    • 음성을 STT(스피치 투 텍스트)가 받아서 실시간으로 문자로 바꿉니다.
    • 사용자가 말이 끝났는지 '발화 종료 여부'를 똑똑하게 판단해, 말을 덜 끝냈을 때 끊지 않습니다.
  2. 생각하기(맥락 유지, 대형 언어모델 추론)

    • 완성된 텍스트와 대화의 맥락을 LLM(대형 언어모델)로 넘겨 이해·판단하게 합니다.
    • 추가로 필요한 자료(문서, 가격표 등)도 실시간으로 불러올 수 있습니다.
  3. 말하기(텍스트 → 음성, 실시간 스트리밍)

    • LLM이 답변을 토큰 단위로 보내면, 곧바로 TTS(텍스트 투 스피치)로 소리로 바꿔 다시 이용자에게 전달합니다.
    • 생각이 다 끝나기 전부터 말하기를 시작해서, 끊김 없이 바로바로 답하는 듯한 자연스러운 체험 제공

"복잡해 보여도, 라이브킷(LiveKit) 에이전트 SDK가 실제 서비스 연결, 오디오 스트림 관리, 맥락 관리, 모든 AI 부품의 조율을 도와줍니다!"


4. 실습 단계: 패키지 설치·연동 및 기초 세팅

필요한 패키지 설치 및 연동

  • 실습용 노트북에서 LiveKit, Cartesia, OpenAI 등 주요 패키지를 클릭 한 번으로 설치할 수 있습니다.
  • 워크숍에서는 Llama 3.3 모델을 실제로 사용하며, 속도 비교 지표도 제공:
    • Independent Benchmark(Aritifical Analysis)에서 Cerebras는 토큰/초 속도가 Nvidia 등 주요 경쟁 모델 대비 압도적으로 우수.

"설치는 간단하며, Python 노트북 상에서 별도의 환경세팅 없이 바로 실습할 수 있습니다. LiveKit CLI(명령줄툴)는 추가로 필요할 때만 설치해도 됩니다."

LiveKit과 WebRTC 설명

웹에서 문자만 전달하던 HTTP 대신, WebRTC 프로토콜로 초저지연 음성데이터(100ms 이하!)를 주고받습니다. LiveKit은 오픈소스 실시간 인프라로, 회의, 콜센터, 영업상담 등 다양한 실시간 음성 서비스 개발에 바로 활용할 수 있습니다.

"LiveKit은 오픈소스라 직접 코드를 뜯어보고 인프라까지 자가 호스팅이 가능합니다."

주요 부품 통합

  • Cerebras: LLM 추론 및 연산 가속
  • LiveKit: 실시간 오디오 송수신 중계 및 서비스 조율
  • Cartesia: 음성 인식 및 음성 합성 이 세 가지를 통합하여, 실제 "들어서-생각해서-말하는" 음성 영업 에이전트가 실시간으로 완성됩니다.

5. AI 세일즈 에이전트에 회사 정보 및 맥락 부여하기

음성 에이전트가 수준 높은 대답을 하려면, 여러분의 회사/상품에 특화된 정보를 반드시 맥락으로 제공해야 합니다. 단순히 LLM 지식에만 의존하면 오류나 부정확한 답이 나올 수 있으므로, 특화 컨텍스트 입력이 핵심입니다.

"LLM은 공통 상식만 아는 경우가 많아 회사 정보처럼 특수한 맥락이 필요하면 꼭 직접 입력해주세요. 그래야 '그쪽 질문은 대답할 수 없습니다' 같은 무성의한 답변을 막을 수 있습니다."

핵심 정보(상품 설명, 가격 정보, 주요 장점 등)는 구조화된 포맷으로 주입하며, '비싸다', '필요 없다' 같은 자주 나오는 이의제기에 대한 표준 대답도 미리 작성해서, 에이전트의 일관성과 정확도를 높입니다.

"세일즈 에이전트에게 구조화된 맥락과 자주 묻는 질문에 대한 표준 반박 메시지를 준비해 넣을 수 있어요."


6. 실제 에이전트 코드 구조/구현과 단계별 실행

이제 실습의 하이라이트! 다양한 AI 부품과 기능을 엮어 실제 세일즈 음성 에이전트를 만듭니다.

세일즈 에이전트 클래스 설계 및 구현

  • 컨텍스트 로딩: 앞서 준비한 회사 정보, 상품 데이터, FAQ, 반론 메시지 등을 불러와 에이전트가 활용할 수 있게 만듭니다.
  • 음성 대화 규칙: '음성 대화'에 맞게 프롬프트 설계(예: '말하는 것만, 불렛포인트는 쓰지 않기'). 반드시 주입한 컨텍스트 정보 내에서만 답하도록 안내, 환상(hallucination) 방지.
  • 초기화: 각종 설정을 부모 에이전트에 전달하고, LLM, TTS, 음성감지 등 필요한 모듈 조립.
  • on_enter 메소드: 대화가 시작되자마자 에이전트가 활발히 인사하고, 바로 대화를 시작하도록 설계.

"고객이 진입하자마자 친근한 인사가 바로 나오게끔 설계해요! 음성 서비스에선 '첫 인상'이 더욱 중요하니까요."

런칭 및 대화 실행

  • 컨퍼런스 콜/가상방 연결: 실제 사용자는 '콜센터'에 입장하는 느낌으로 대화방 연결.
  • 에이전트 인스턴스 생성 및 세션 관리: 에이전트가 백엔드에서 고객과 실시간으로 대화하면서, 대화의 흐름(세션)을 관리함.

"start 함수 하나로 연결, 인스턴스화, 세션까지 한 번에 관리합니다."


7. 확장: 단일 에이전트에서 멀티에이전트 시스템으로

복잡한 실전 업무 환경에선 한 명의 만능 영업 담당자 대신, 역할별 전문 에이전트가 필요합니다.

"누군가가 API 기술지원, 예산 협상, 초반 인사 등 서로 다른 요구를 하면... 각각의 전문 에이전트가 등장해야죠!"

주요 타입:

  • 인사 에이전트: 고객의 요구와 목적 파악, 적절한 담당자에게 라우팅
  • 세일즈 주력 에이전트: 리드(잠재고객)를 검증하고 주요 제품정보 전달
  • 기술 지원 에이전트: 기술 세부질문, API 통합, 트러블슈팅 담당
  • 가격/협상 에이전트: 견적, ROI, 가격 협상 등 상업적 결정을 지원

그리팅(인사) 에이전트는 우선 고객의 니즈를 파악한 뒤, 적절한 서브 에이전트에게 손쉽게 '핸드오프(handoff, 역할전환)' 합니다. 또한, 코드 노트북에 툴 콜(tool calling: 예를 들어 기술문의일 때 전문 DB 또는 API 호출)까지 구현되어 있습니다.

"실제로 여러 에이전트가 유기적으로 역할을 넘나들며, 현실적인 AI 상담 서비스를 완성할 수 있어요!"


8. Q&A 및 마무리

워크숍 마지막엔 질문응답 및, 전체 노트북과 코드는 언제든 참고/확장할 수 있도록 공개합니다.

"오늘 안내한 모든 단계와 코드는 노트북에 들어 있으니 꼭 실습해 보세요. 언제든 질문 환영입니다. 감사합니다!"


마무리

최신 AI 하드웨어와 실시간 음성 처리 기술을 실무에 바로 적용할 수 있도록, 체계적이고 실제적인 단계별 안내를 제공한 워크숍입니다. 특히 컨텍스트 주입, 역할 기반 멀티에이전트 설계, 실시간 대화 체험 구현 방식은 다양한 산업과 비즈니스에 폭넓게 활용할 수 있다는 점에서 시사점이 큽니다.
핵심: '고객과 자연스럽고 즉각적인 대화가 가능한 AI 에이전트'를 직접 구현, 자신의 비즈니스에 최적화할 수 있다는 것! 🤖🗣️


요약 완료: 2026. 1. 19. 오후 2:34:39

이런 요약이 필요하신가요?

하베스트가 원클릭으로 요약해드립니다

5초 요약
AI 자동 분석
📱
모든 기기
웹, iOS, Chrome
🔍
스마트 검색
언제든 재발견
요약 시작하기
나도 요약하기