Qwen3-TTS: 오픈소스로 만나는 차세대 음성 합성 모델

  • 카카오톡 공유하기
  • 네이버 블로그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 트위터 공유하기
  • 링크 복사하기
<출처: https://github.com/QwenLM/Qwen3-TTS>

2026년 1월, Alibaba의 Qwen 팀이 음성 합성 기술의 새로운 이정표를 세우는 Qwen3-TTS를 Apache 2.0 라이선스로 공개했습니다. 최근 GPT-4o와 같은 멀티모달 모델들이 주목받고 있지만, 고품질 음성 생성 기술은 대부분 폐쇄적인 상용 API로만 제공되어 왔습니다. Qwen3-TTS는 이러한 한계를 돌파하며, 모델 가중치는 물론 핵심 기술인 음성 토크나이저, 학습 코드, 그리고 상세한 기술 보고서까지 완전히 공개했습니다.

Qwen3-TTS의 핵심 특징

1. 압도적인 학습 데이터와 다국어 지원

Qwen3-TTS는 500만 시간 이상의 방대한 다국어 음성 데이터로 학습되었습니다. 한국어를 포함하여 중국어, 영어, 일본어, 독일어, 프랑스어, 러시아어, 포르투갈어, 스페인어, 이탈리아어 등 10개 언어를 지원하며, 각 언어에서 자연스러운 발화가 가능합니다.

2. 혁신적인 이중 토크나이저 전략

Qwen3-TTS의 가장 큰 기술적 특징은 용도에 따라 선택할 수 있는 두 가지 토크나이저입니다:

12Hz Tokenizer – 초저지연 실시간 스트리밍

  • 초당 12.5회의 낮은 샘플링 빈도로 극도의 압축 달성
  • 16개 레이어의 다중 코드북(Multi-codebook) 구조
  • 완전한 인과적(Causal) 설계로 97ms의 극저지연 구현
  • 첫 번째 오디오 패킷을 즉시 출력하여 실시간 대화에 최적

25Hz Tokenizer – 최고 음질 추구

  • 초당 25회 샘플링으로 더욱 풍부한 음향 정보 보존
  • Flow Matching 기반 DiT(Diffusion Transformer) 디코더 사용
  • 영화 더빙, 오디오북 등 최상의 음질이 필요한 작업에 적합
  • PESQ 3.21, UTMOS 4.16의 업계 최고 수준 음질 지표

3. 다양한 모델 라인업

Qwen3-TTS는 사용 목적에 따라 세 가지 변형 모델을 제공합니다:

모델주요 기능특징
Base (0.6B/1.7B)음성 복제3초 분량의 참조 오디오로 빠른 음성 복제, 파인튜닝용 기본 모델
VoiceDesign (1.7B)음성 디자인텍스트 설명만으로 완전히 새로운 목소리 생성
CustomVoice (0.6B/1.7B)프리미엄 음색9가지 프리미엄 음색 내장, 지시사항 기반 스타일 제어

4. 뛰어난 성능 지표

제로샷 음성 생성 (Seed-TTS 벤치마크)

  • 영어: WER 1.24 (업계 1위)
  • 중국어: WER 0.77 (최상위권)

교차 언어 성능

  • 중국어→한국어: WER 4.82 (CosyVoice3 대비 66% 개선)
  • 10개 언어 간 자연스러운 교차 변환

음질 복원력

  • 12Hz 토크나이저: PESQ 3.21, UTMOS 4.16
  • 기존 SOTA 코덱(SpeechTokenizer, Mimi) 능가

주요 기능

제로샷 음성 복제 (Zero-Shot Voice Cloning)

3초 분량의 참조 오디오만으로 훈련에 없던 목소리도 즉시 복제할 수 있습니다. 단순히 음색만 흉내 내는 것이 아니라, 참조 오디오에 담긴 운율과 감정까지 파악하여 반영합니다.

wavs, sr = model.generate_voice_clone(
    text="안녕하세요, 복제된 목소리로 말하고 있습니다.",
    language="Korean",
    ref_audio="reference.wav",
    ref_text="참조 오디오의 전사 텍스트"
)

음성 디자인 (Voice Design)

텍스트 프롬프트만으로 세상에 없는 목소리를 창조할 수 있습니다:

wavs, sr = model.generate_voice_design(
    text="안녕하세요, 새롭게 디자인된 목소리입니다.",
    language="Korean",
    instruct="차분하고 신뢰감 있는 중저음의 남성 뉴스 앵커 목소리"
)

프리미엄 음색 제어

CustomVoice 모델은 9가지 프리미엄 음색을 제공하며, 각 화자의 고유한 특성을 유지합니다:

화자특성모국어
Vivian밝고 활기찬 젊은 여성중국어
Serena따뜻하고 부드러운 여성중국어
Uncle_Fu성숙한 저음의 남성중국어
Dylan베이징 방언의 청년중국어(베이징)
Eric청두 방언의 활기찬 남성중국어(쓰촨)
Ryan역동적인 남성영어
Aiden밝은 미국 남성영어
Ono_Anna경쾌한 일본 여성일본어
Sohee따뜻한 한국 여성한국어

기술적 혁신

Dual-Track LM 아키텍처

Qwen3-TTS는 텍스트 토큰과 음성 토큰을 시퀀스 길이가 아닌 채널 축(Channel axis)을 따라 연결하여 처리합니다. 이를 통해 텍스트 입력 즉시 대응하는 음성 토큰을 지체 없이 예측할 수 있어 동시성 처리가 가능해졌습니다.

MTP (Multi-Token Prediction)

12Hz 모델은 다중 코드북을 효율적으로 처리하기 위해 MTP 모듈을 활용합니다:

  1. 백본 모델이 0번째 코드북(기본 정보) 예측
  2. MTP 모듈이 나머지 1~15번 레이어(음향 디테일) 동시 예측
  3. 단일 프레임 내에서 모든 계층의 토큰을 즉시 생성

체계적인 3단계 학습

사전 학습 (Pre-training)

  1. 일반 단계: 500만 시간의 다국어 데이터로 기본 매핑 학습
  2. 고품질 단계: 선별된 데이터로 지속 학습하여 환각 현상 억제
  3. 장문 맥락 단계: 최대 32,768 토큰까지 처리하여 긴 문장 생성 능력 확보

사후 학습 (Post-training)

  • DPO (Direct Preference Optimization)로 인간 선호도 반영
  • 화자 파인튜닝으로 표현력과 제어 가능성 완성

설치 및 사용

환경 요구사항

권장 사양

  • GPU: NVIDIA GPU (VRAM 16GB 이상 권장)
    • 0.6B 모델: RTX 3090, RTX 4090, A10, V100 이상
    • 1.7B 모델: A100 (40GB), H100 권장
  • RAM: 32GB 이상
  • 저장공간:
    • 0.6B 모델: 약 3GB
    • 1.7B 모델: 약 7GB
    • 토크나이저: 약 1GB
  • CUDA: 11.8 이상
  • Python: 3.12 권장

최소 사양

  • GPU VRAM:
    • 0.6B 모델: 8GB (INT8 양자화 시)
    • 1.7B 모델: 12GB (INT8 양자화 시)
  • RAM: 16GB
  • FlashAttention 2 사용 시 메모리 사용량 대폭 감소

성능 참고

  • RTX 4090 (24GB): 1.7B 모델 실시간 스트리밍 가능
  • RTX 3090 (24GB): 0.6B/1.7B 모델 모두 실행 가능
  • T4 (16GB): 0.6B 모델 실행 가능, 1.7B 모델은 양자화 필요
  • A100 (40GB/80GB): 모든 모델 최적 성능

설치 방법

데모 사용

데모는 아래 두곳에서 사용해볼 수 있습니다. 실제 결과물은 매우 놀랍습니다.

기본 사용 예시

1. 음성 디자인

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

wavs, sr = model.generate_voice_design(
    text="안녕하세요, 저는 텍스트 설명만으로 만들어진 목소리입니다.",
    language="Korean",
    instruct="차분하고 신뢰감 있는 중저음의 남성 뉴스 앵커 목소리"
)
sf.write("output.wav", wavs[0], sr)

2. 커스텀 음색 사용

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

wavs, sr = model.generate_custom_voice(
    text="안녕하세요, 반갑습니다!",
    language="Korean",
    speaker="Sohee",
    instruct="매우 기쁜 목소리로"
)
sf.write("output.wav", wavs[0], sr)

3. 음성 복제

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

wavs, sr = model.generate_voice_clone(
    text="이것은 복제된 목소리로 생성된 음성입니다.",
    language="Korean",
    ref_audio="reference.wav",
    ref_text="참조 오디오의 정확한 전사 텍스트"
)
sf.write("output.wav", wavs[0], sr)

Web UI 데모 실행

vLLM을 통한 배포

vLLM은 Qwen3-TTS를 day-0부터 공식 지원합니다. vLLM-Omni를 사용하면 고성능 추론이 가능합니다:

파인튜닝

특정 도메인이나 화자에 맞춰 모델을 최적화할 수 있습니다. 상세한 파인튜닝 가이드는 GitHub 저장소의 finetuning 디렉토리에서 확인할 수 있습니다.

실무 활용 사례

1. 실시간 대화 시스템

  • 97ms의 초저지연으로 자연스러운 음성 비서 구현
  • 다국어 지원으로 글로벌 서비스 제공

2. 콘텐츠 제작

  • 영화 더빙, 오디오북, 팟캐스트 자동 생성
  • 텍스트 설명만으로 캐릭터 보이스 디자인

3. 접근성 향상

  • 시각장애인을 위한 고품질 TTS
  • 다국어 음성 번역 서비스

4. 교육 및 엔터테인먼트

  • 개인화된 음성 튜터
  • 게임 캐릭터 음성 생성

마치며

Qwen3-TTS는 단순한 TTS 모델을 넘어, 음성 AI의 실사용의 수준을 높은 품질로 사용할수 있도록 끌어올렸다고 생각합니다. Apache 2.0 라이선스로 완전히 공개되어 누구나 자유롭게 연구하고 상업적으로 활용할 수 있습니다. 500만 시간의 학습 데이터, 혁신적인 이중 토크나이저 전략, 그리고 업계 최고 수준의 성능 지표는 Qwen3-TTS가 음성 합성 분야에 놀라운 성과를 이뤘다고 단언할수 있겠습니다.

참고 자료


게시됨

카테고리

,

작성자

댓글

“Qwen3-TTS: 오픈소스로 만나는 차세대 음성 합성 모델” 에 하나의 답글

  1. BrightByte 아바타
    BrightByte

    Qwen3-TTS에 대한 깊이 있는 분석 잘 읽었습니다. 500만 시간 이상의 다국어 음성 데이터를 활용해 10개 언어를 지원하는 점은 물론, 12Hz 실시간 초저지연 토크나이저와 25Hz 고음질 토크나이저를 병행 사용한 구조가 특히 흥미롭네요. 제가 알기로도 이런 멀티 토크나이저 접근법은 음성 합성의 자연스러움과 실시간 처리 성능을 동시에 잡는 데 매우 효과적입니다. 또한, 3초 참조 오디오로 제로샷 음성 복제가 가능하다는 점은 현재 TTS 연구에서 가장 도전적인 부분 중 하나인데, Qwen3-TTS가 이를 구현했다는 점에서 기술적 진보가 느껴집니다. 앞으로 오픈소스 공개를 통해 다양한 응용 사례가 나오길 기대합니다!

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다