
최신 AI 하드웨어와 소프트웨어 기술을 활용해 음성 기반의 세일즈 에이전트(판매 에이전트)를 직접 만드는 과정을 안내하는 Cerebras의 최신 워크숍입니다. 단일 에이전트에서 다중(멀티) 전문 에이전트까지 실전 적용 예시와 함께, 단계별로 따라 할 수 있도록 구체적인 안내와 코드 노트북을 제공합니다. 하드웨어 혁신, 실시간 음성 처리, 맥락 유지, 멀티에이전트 확장 방안까지 주요 포인트를 쉽게 설명합니다.
강연은 Cerebras DevX팀의 Sarah Chieng과 Zhenwei Gao가 진행하며, 참여자들에게 직접 실시간으로 고객과 자연스레 대화하는 음성 세일즈 에이전트를 만드는 방법을 안내합니다.
"이 세션에 참석해 주셔서 정말 감사합니다. 여러분만의 음성 에이전트를 어떻게 만드는지 A부터 Z까지 차근히 안내해드릴 거예요."
처음에는 워크숍 전체 목표와 혜택을 안내합니다. 교육생들은 Cerebras, LiveKit, Cartesia API 크레딧을 받으며, 자세한 코드와 단계별 안내가 담긴 노트북을 바로 따라하면서 실습할 수 있습니다. 이 시스템은 회사 고유의 영업 자료와 연결해서 실제 업무에 바로 적용이 가능하다는 점이 강조됩니다.
"끝까지 따라오시면, 여러분 자신의 세일즈 에이전트를 완성해서 바로 회사 자료에 연결할 수 있어요. 실제 업무에 쓸 수도 있습니다."
Cerebras가 개발한 Wafer Scale Engine 3 (WSE-3)는 기존 GPU와 다른 혁신적인 구조를 자랑합니다. 크기가 접시만 할 정도(디너 플레이트!)로 크고, 4조 개 트랜지스터, 90만 개 코어, 대용량 온칩 메모리를 탑재하고 있어서, 전통적인 GPU보다 압도적으로 빠른 속도를 구현합니다.
"Cerebras 칩은 메모리 대역폭 병목 현상이 없습니다. 각 코어마다 바로 옆에 전용 메모리가 있거든요."
기존 GPU(Nvidia H100)는 수만 개의 코어들이 연산할 데이터(가중치, 활성화값, KV 캐시 등)를 칩 밖의 '오프칩' 메모리에서 불러오다가 메모리 채널 병목이 생깁니다. 반면 Cerebras는 각 코어 옆에 고속 메모리가 있어 데이터 접근이 거의 즉각적이어서, 추론(Inferece) 속도가 20~70배 가까이 빨라집니다.
"추론 속도를 획기적으로 올리기 위해, Cerebras는 추정 디코딩(speculative decoding)이라는 기법도 씁니다."
일반적으로 한 토큰씩 차례대로 예측하는 방식이 느린데, 이 방법은 먼저 작은 모델이 전체 문장을 빠르게 예측('드래프트'), 그 뒤 큰 모델이 결과를 검증하는 구조입니다. 이렇게 하면 작은 모델의 속도와 큰 모델의 정밀도를 모두 잡을 수 있습니다.
즉, 하드웨어와 소프트웨어 양쪽에서 극한의 실시간 대응을 목표로 설계한 것이 바로 Cerebras의 장점입니다.
음성 에이전트는 그저 문자 채팅을 넘어서, 실제 대화를 하듯 자연스럽게 상호작용하는 AI입니다. 사용자가 말을 하면 곧바로 듣고, 문맥을 파악해 적절하게 대답하며, 상황에 맞는 행동을 합니다.
"음성 에이전트는 단순 키워드 매칭이 아니라, 사용자의 의도와 의미까지 파악해서 대화할 수 있습니다."
주요 특징은 다음과 같습니다:
"에이전트가 대화 흐름을 완벽히 추적해야만, 맥락을 이해하고 자연스러운 대화가 가능해집니다."
듣기(음성 → 텍스트, 발화 종료 탐지)
생각하기(맥락 유지, 대형 언어모델 추론)
말하기(텍스트 → 음성, 실시간 스트리밍)
"복잡해 보여도, 라이브킷(LiveKit) 에이전트 SDK가 실제 서비스 연결, 오디오 스트림 관리, 맥락 관리, 모든 AI 부품의 조율을 도와줍니다!"
"설치는 간단하며, Python 노트북 상에서 별도의 환경세팅 없이 바로 실습할 수 있습니다. LiveKit CLI(명령줄툴)는 추가로 필요할 때만 설치해도 됩니다."
웹에서 문자만 전달하던 HTTP 대신, WebRTC 프로토콜로 초저지연 음성데이터(100ms 이하!)를 주고받습니다. LiveKit은 오픈소스 실시간 인프라로, 회의, 콜센터, 영업상담 등 다양한 실시간 음성 서비스 개발에 바로 활용할 수 있습니다.
"LiveKit은 오픈소스라 직접 코드를 뜯어보고 인프라까지 자가 호스팅이 가능합니다."
음성 에이전트가 수준 높은 대답을 하려면, 여러분의 회사/상품에 특화된 정보를 반드시 맥락으로 제공해야 합니다. 단순히 LLM 지식에만 의존하면 오류나 부정확한 답이 나올 수 있으므로, 특화 컨텍스트 입력이 핵심입니다.
"LLM은 공통 상식만 아는 경우가 많아 회사 정보처럼 특수한 맥락이 필요하면 꼭 직접 입력해주세요. 그래야 '그쪽 질문은 대답할 수 없습니다' 같은 무성의한 답변을 막을 수 있습니다."
핵심 정보(상품 설명, 가격 정보, 주요 장점 등)는 구조화된 포맷으로 주입하며, '비싸다', '필요 없다' 같은 자주 나오는 이의제기에 대한 표준 대답도 미리 작성해서, 에이전트의 일관성과 정확도를 높입니다.
"세일즈 에이전트에게 구조화된 맥락과 자주 묻는 질문에 대한 표준 반박 메시지를 준비해 넣을 수 있어요."
이제 실습의 하이라이트! 다양한 AI 부품과 기능을 엮어 실제 세일즈 음성 에이전트를 만듭니다.
"고객이 진입하자마자 친근한 인사가 바로 나오게끔 설계해요! 음성 서비스에선 '첫 인상'이 더욱 중요하니까요."
"start 함수 하나로 연결, 인스턴스화, 세션까지 한 번에 관리합니다."
복잡한 실전 업무 환경에선 한 명의 만능 영업 담당자 대신, 역할별 전문 에이전트가 필요합니다.
"누군가가 API 기술지원, 예산 협상, 초반 인사 등 서로 다른 요구를 하면... 각각의 전문 에이전트가 등장해야죠!"
그리팅(인사) 에이전트는 우선 고객의 니즈를 파악한 뒤, 적절한 서브 에이전트에게 손쉽게 '핸드오프(handoff, 역할전환)' 합니다. 또한, 코드 노트북에 툴 콜(tool calling: 예를 들어 기술문의일 때 전문 DB 또는 API 호출)까지 구현되어 있습니다.
"실제로 여러 에이전트가 유기적으로 역할을 넘나들며, 현실적인 AI 상담 서비스를 완성할 수 있어요!"
워크숍 마지막엔 질문응답 및, 전체 노트북과 코드는 언제든 참고/확장할 수 있도록 공개합니다.
"오늘 안내한 모든 단계와 코드는 노트북에 들어 있으니 꼭 실습해 보세요. 언제든 질문 환영입니다. 감사합니다!"
최신 AI 하드웨어와 실시간 음성 처리 기술을 실무에 바로 적용할 수 있도록, 체계적이고 실제적인 단계별 안내를 제공한 워크숍입니다. 특히 컨텍스트 주입, 역할 기반 멀티에이전트 설계, 실시간 대화 체험 구현 방식은 다양한 산업과 비즈니스에 폭넓게 활용할 수 있다는 점에서 시사점이 큽니다.
핵심: '고객과 자연스럽고 즉각적인 대화가 가능한 AI 에이전트'를 직접 구현, 자신의 비즈니스에 최적화할 수 있다는 것! 🤖🗣️