지금 AI 시장에서 가장 빠르게 커지는 레이어 중 하나는 “생성”이 아니라 “대화”다. 텍스트 챗봇은 이미 흔해졌지만, 실제 고객 응대와 세일즈, 콜센터, 로컬 디바이스, 통신 인프라까지 들어가는 음성 AI는 아직 승자가 정해지지 않았다. 그런 시장에서 ElevenLabs는 2026년 2월 110억 달러 밸류에이션으로 5억 달러를 조달했고, 2026년 5월에는 ARR 5억 달러 돌파를 공개했다. 지금 이 회사를 봐야 하는 이유는 간단하다. ElevenLabs는 더 이상 “목소리 생성 스타트업”이 아니라, 기업의 커뮤니케이션 인프라를 노리는 회사로 변하고 있기 때문이다.
왜 지금 ElevenLabs가 주목받는가?
핵심은 세 가지다. 첫째, 숫자다. 회사 발표 기준 ElevenLabs는 2025년 말 ARR 3억5000만 달러를 기록했고, 2026년 첫 4개월 만에 ARR 5억 달러를 넘겼다. 둘째, 제품 방향이다. 이 회사는 단순 TTS를 넘어 AI voice agent, 더 나아가 기업용 conversational AI 플랫폼으로 무게중심을 옮기고 있다. 셋째, 배포 방식이다. 2026년 4월에는 온프레미스, 온디바이스, VPC 배포까지 공개하며 “재미있는 데모”가 아니라 보안 요구가 높은 엔터프라이즈 워크로드를 노리기 시작했다.
- 성장: 2026년 5월 회사 발표 기준 ARR 5억 달러 돌파
- 투자: 2026년 2월 Series D 5억 달러, 밸류에이션 110억 달러
- 전환: 음성 생성 툴에서 enterprise voice agents 플랫폼으로 확장
- 배포: 클라우드 외에 VPC, 온프레미스, 온디바이스까지 제공
기업 개요: ElevenLabs는 무엇을 하는 회사인가?
ElevenLabs는 원래 자연스러운 음성 합성, 더빙, 보이스 클로닝으로 빠르게 이름을 알린 AI 오디오 스타트업이다. 다만 지금 시장이 이 회사를 높게 평가하는 이유는 TTS 품질 하나가 아니다. 최근 공식 발표들을 보면 회사는 크게 세 축으로 확장하고 있다.
- Creative: 음성 생성, 더빙, 오디오 제작 도구
- API: 개발자가 제품 안에 음성 기능을 붙일 수 있는 인프라
- Agents: 고객지원, 세일즈, 채용, 내부 업무에 쓰는 conversational AI
즉, ElevenLabs의 현재 정체성은 “소리를 잘 만드는 모델 회사”라기보다 기업이 사람처럼 말하는 AI 인터페이스를 구축하도록 돕는 플랫폼 회사에 가깝다.
110억 달러 밸류에이션, 왜 시장은 이렇게 높게 보나?
2026년 2월 ElevenLabs는 Series D로 5억 달러를 유치했고, 회사 발표 기준 밸류에이션은 110억 달러였다. 1년 전 대비 3배 이상 뛴 숫자다. 비상장 스타트업 기준으로 보면 상당히 공격적인 멀티플처럼 보이지만, 투자자들이 보는 논리는 분명하다. 음성 AI는 단순 소프트웨어 기능이 아니라 고객 접점 전체를 바꾸는 인터페이스 레이어가 될 수 있기 때문이다.
여기서 중요한 것은 단순 사용자 수가 아니라 매출의 질이다. 회사는 Deutsche Telekom, Square, Revolut, 우크라이나 정부 등 엔터프라이즈 채택 사례를 제시했고, 이후 NVIDIA, Salesforce, Santander, Deutsche Telekom 같은 전략적 투자자도 추가로 합류했다고 밝혔다. 투자와 고객이 겹치기 시작하면, 시장은 이를 “좋은 모델”이 아니라 기업 시스템 안에 들어간 인프라로 해석한다.
물론 주의할 점도 있다. ARR과 고객 활용 사례 대부분은 회사 발표 기준이다. 비상장사 특성상 해지율, 매출총이익률, 실제 유료 agent 사용 비중은 외부에서 완전히 검증하기 어렵다. 따라서 밸류에이션 판단은 어디까지나 공개 숫자와 시장 구조를 바탕으로 한 추정이다.
핵심 제품은 무엇이고, 왜 Voice AI에서 Agents로 넘어가나?
초기 ElevenLabs의 강점은 사람 같은 음성을 저렴하고 빠르게 만드는 것이었다. 하지만 그것만으로는 장기 방어력이 약하다. TTS 품질은 시간이 갈수록 평준화될 가능성이 크기 때문이다. 그래서 이 회사는 최근 몇 달 사이 제품 설명의 중심을 voice generation에서 voice agents로 옮기고 있다.
이 변화는 합리적이다. 기업 입장에서 예산이 크게 열리는 영역은 “광고 내레이션 한 번 생성”이 아니라, 고객지원과 인바운드 세일즈, 채용 스크리닝, 내부 헬프데스크 같은 반복 업무 자동화다. 이 시장에서는 단순 발화 품질보다도 다음 요소가 중요하다.
- 낮은 지연시간: 실제 통화에서 답변이 늦으면 바로 이탈이 발생한다
- 자연스러운 턴테이킹: 사람처럼 끊고 받는 대화 흐름이 필요하다
- 다국어 일관성: 글로벌 기업은 같은 브랜드 목소리를 여러 언어에 유지해야 한다
- 엔터프라이즈 통합: CRM, 콜센터, 기존 업무 시스템과 연결돼야 한다
ElevenLabs는 이 지점에서 단순 모델이 아니라 업무용 conversational stack을 팔려는 것으로 보인다.
돈은 어디서 버는가?
이 회사의 수익원은 하나가 아니다. 오히려 다층 구조라는 점이 강점이다.
- 사용량 기반 API 매출: 음성 생성, 더빙, STT, 오디오 API
- SaaS 구독 매출: 크리에이터와 팀용 툴
- 엔터프라이즈 계약: 보안, 컴플라이언스, 전용 배포, 지원이 포함된 고가 계약
- Agent 매출: 고객지원, 세일즈, 채용 등 실제 업무 자동화에서 나오는 반복 매출
여기서 가장 중요한 축은 아마 마지막이다. API나 크리에이터 툴은 경쟁이 치열하고 가격 하락 압력이 크다. 반면 기업의 콜·상담·응대 워크플로에 들어간 agent는 전환 비용이 높고 예산 규모도 훨씬 크다. ElevenLabs의 높은 밸류에이션은 결국 “오디오 모델”보다 “업무 자동화 매출”에 베팅한 결과로 읽는 편이 맞다.
왜 온프레미스와 온디바이스가 중요한가?
많은 생성형 AI 스타트업은 엔터프라이즈를 말하지만, 실제로는 SaaS 한 가지 배포 형태에 머무는 경우가 많다. ElevenLabs는 2026년 4월 공식 블로그에서 온프레미스, 온디바이스, VPC 배포를 공개했다. 이건 생각보다 큰 변화다.
- 온프레미스: 자체 서버와 데이터센터에 배포 가능
- 온디바이스: 오프라인 추론이 필요한 차량, 웨어러블 등에 적합
- VPC: 고객 클라우드 계정 안에서 실행돼 데이터 통제권을 강화
이런 배포 옵션은 단순 기능 추가가 아니다. 정부, 금융, 통신, 헬스케어처럼 규제가 강한 산업으로 들어가겠다는 뜻이다. Voice AI는 텍스트 챗봇보다 민감도가 더 높다. 실제 고객 통화와 음성 데이터는 보안, 규제, 데이터 거버넌스 이슈가 훨씬 크기 때문이다. ElevenLabs가 여기까지 대응하기 시작했다는 것은 시장 타깃이 점점 대기업 중심으로 이동하고 있다는 신호다.
시장과 경쟁 구도: 가장 큰 경쟁자는 누구인가?
겉으로 보면 경쟁자는 많다. OpenAI, Google, Anthropic 계열 음성 기능, Synthesia 같은 미디어형 툴, Deepgram과 AssemblyAI 같은 음성 인프라 회사, 각종 콜센터 AI 스타트업이 동시에 부딪힌다. 하지만 더 정확히 말하면 ElevenLabs는 세 개 시장을 한꺼번에 상대하고 있다.
- 크리에이티브 오디오 시장: 더빙, 보이스오버, 콘텐츠 제작
- 개발자 인프라 시장: API와 음성 모델 플랫폼
- 엔터프라이즈 agent 시장: 고객지원과 세일즈 자동화
이 중 가장 큰 기회는 마지막이다. 그리고 가장 까다로운 시장도 마지막이다. 이유는 명확하다. 음성 품질만 좋다고 이기지 못하고, 실제 대화 설계와 시스템 통합, 지연시간, 안정성, 보안, 규제 대응이 모두 필요하기 때문이다.
이 밸류에이션은 말이 되는가?
숫자만 보면 비싸다. 110억 달러 밸류에이션은 단순 오디오 툴 회사에 붙는 가격이 아니다. 하지만 ElevenLabs를 “TTS SaaS”가 아니라 enterprise conversational AI infrastructure로 보면 논리가 달라진다. 회사 발표 기준으로 ARR이 매우 빠르게 증가하고 있고, 전략적 고객과 투자자가 겹치며, 보안 요구가 높은 배포 방식까지 넓히고 있기 때문이다.
내 판단은 이렇다. 현재 가격은 이미 낙관을 상당 부분 선반영하고 있다. 다만 완전히 비이성적이라고 보기는 어렵다. 음성은 여전히 사람이 가장 편하게 쓰는 인터페이스고, AI agent가 실제 현업에 침투할수록 텍스트보다 음성 접점의 가치가 커질 가능성이 높다. ElevenLabs가 이 레이어를 선점하면 지금 멀티플은 어느 정도 설명될 수 있다.
가장 큰 리스크는 무엇인가?
내가 보는 핵심 리스크는 네 가지다.
- 모델 평준화 리스크: 음성 품질 자체는 시간이 갈수록 경쟁사와 격차가 줄어들 수 있다
- 플랫폼 리스크: OpenAI나 Google 같은 플랫폼이 음성 스택을 수직 통합할 가능성
- 규제 리스크: 음성 복제, 딥페이크, 동의 문제는 텍스트보다 훨씬 민감하다
- 매출 믹스 리스크: 고마진 엔터프라이즈 agent보다 저마진 API 사용량 비중이 너무 높아질 수 있다
특히 세 번째는 무시하기 어렵다. ElevenLabs가 아무리 좋은 기술을 갖고 있어도, 음성 AI는 사회적 신뢰가 깨지는 순간 규제가 강하게 들어올 수 있다. 그래서 이 회사의 장기 가치는 음성 품질뿐 아니라 안전장치와 거버넌스를 얼마나 잘 상품화하느냐에도 달려 있다.
결국 ElevenLabs는 미디어 툴인가, 인프라 회사인가?
초기에는 미디어 툴처럼 보였다. 하지만 최근의 투자, 제품, 파트너십, 배포 전략을 보면 답은 점점 인프라 쪽으로 기울고 있다. Deloitte 같은 컨설팅 파트너와 함께 기업용 conversational agent를 설계하고, VPC와 온프레미스로 규제 산업을 공략하는 방식은 전형적인 인프라 회사의 움직임이다.
이 말은 곧, ElevenLabs의 진짜 경쟁력이 “목소리가 자연스럽다”에서 끝나지 않는다는 뜻이기도 하다. 이 회사가 노리는 최종 지점은 기업이 고객과 대화하는 기본 운영 레이어일 가능성이 높다.
개인적 판단: ElevenLabs는 과대평가보다 과소평가 위험이 더 큰 회사다
많은 사람이 ElevenLabs를 아직도 “재밌는 AI 음성 서비스” 정도로 기억한다. 하지만 지금 공개 자료만 봐도 회사는 전혀 다른 방향으로 가고 있다. 투자자 구성, 엔터프라이즈 사례, agent 중심 제품 설명, 로컬 배포 옵션을 종합하면, ElevenLabs는 단순 생성 모델 회사를 넘어 voice-first enterprise AI 플랫폼이 되려 한다.
내 생각에 가장 중요한 질문은 “음성 생성 품질이 더 좋아질까?”가 아니다. 진짜 질문은 “기업이 고객과 직원과의 대화를 AI로 운영할 때, 그 기본 인프라를 누가 쥘 것인가?”다. 그 관점에서 보면 ElevenLabs는 지금 시장에서 가장 앞선 후보 중 하나다. 밸류에이션은 분명 높지만, 음성 인터페이스가 AI 보급의 핵심 채널이 된다면 오히려 아직 싸다고 평가받을 여지도 있다.
참고 자료
- ElevenLabs 공식 블로그 – ARR 5억 달러 돌파 및 신규 투자자 발표 (2026년 5월 5일, 5월 28일 업데이트)
- ElevenLabs 공식 블로그 – Series D 5억 달러, 110억 달러 밸류에이션 발표 (2026년 2월 4일)
- ElevenLabs 공식 블로그 – 온프레미스·온디바이스·VPC 배포 발표 (2026년 4월 9일)
- ElevenLabs 공식 블로그 – Deloitte와의 엔터프라이즈 conversational AI 파트너십 (2026년 3월 2일)
- TechCrunch – ElevenLabs 신규 투자자 및 ARR/밸류에이션 업데이트 (2026년 5월 5일)
답글 남기기
댓글을 달기 위해서는 로그인해야합니다.