Qwen3-TTS: 오픈소스로 만나는 차세대 음성 합성 모델

  • 카카오톡 공유하기
  • 네이버 블로그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 트위터 공유하기
  • 링크 복사하기
<출처: https://github.com/QwenLM/Qwen3-TTS>

2026년 1월, Alibaba의 Qwen 팀이 음성 합성 기술의 새로운 이정표를 세우는 Qwen3-TTS를 Apache 2.0 라이선스로 공개했습니다. 최근 GPT-4o와 같은 멀티모달 모델들이 주목받고 있지만, 고품질 음성 생성 기술은 대부분 폐쇄적인 상용 API로만 제공되어 왔습니다. Qwen3-TTS는 이러한 한계를 돌파하며, 모델 가중치는 물론 핵심 기술인 음성 토크나이저, 학습 코드, 그리고 상세한 기술 보고서까지 완전히 공개했습니다.

Qwen3-TTS의 핵심 특징

1. 압도적인 학습 데이터와 다국어 지원

Qwen3-TTS는 500만 시간 이상의 방대한 다국어 음성 데이터로 학습되었습니다. 한국어를 포함하여 중국어, 영어, 일본어, 독일어, 프랑스어, 러시아어, 포르투갈어, 스페인어, 이탈리아어 등 10개 언어를 지원하며, 각 언어에서 자연스러운 발화가 가능합니다.

2. 혁신적인 이중 토크나이저 전략

Qwen3-TTS의 가장 큰 기술적 특징은 용도에 따라 선택할 수 있는 두 가지 토크나이저입니다:

12Hz Tokenizer – 초저지연 실시간 스트리밍

  • 초당 12.5회의 낮은 샘플링 빈도로 극도의 압축 달성
  • 16개 레이어의 다중 코드북(Multi-codebook) 구조
  • 완전한 인과적(Causal) 설계로 97ms의 극저지연 구현
  • 첫 번째 오디오 패킷을 즉시 출력하여 실시간 대화에 최적

25Hz Tokenizer – 최고 음질 추구

  • 초당 25회 샘플링으로 더욱 풍부한 음향 정보 보존
  • Flow Matching 기반 DiT(Diffusion Transformer) 디코더 사용
  • 영화 더빙, 오디오북 등 최상의 음질이 필요한 작업에 적합
  • PESQ 3.21, UTMOS 4.16의 업계 최고 수준 음질 지표

3. 다양한 모델 라인업

Qwen3-TTS는 사용 목적에 따라 세 가지 변형 모델을 제공합니다:

모델주요 기능특징
Base (0.6B/1.7B)음성 복제3초 분량의 참조 오디오로 빠른 음성 복제, 파인튜닝용 기본 모델
VoiceDesign (1.7B)음성 디자인텍스트 설명만으로 완전히 새로운 목소리 생성
CustomVoice (0.6B/1.7B)프리미엄 음색9가지 프리미엄 음색 내장, 지시사항 기반 스타일 제어

4. 뛰어난 성능 지표

제로샷 음성 생성 (Seed-TTS 벤치마크)

  • 영어: WER 1.24 (업계 1위)
  • 중국어: WER 0.77 (최상위권)

교차 언어 성능

  • 중국어→한국어: WER 4.82 (CosyVoice3 대비 66% 개선)
  • 10개 언어 간 자연스러운 교차 변환

음질 복원력

  • 12Hz 토크나이저: PESQ 3.21, UTMOS 4.16
  • 기존 SOTA 코덱(SpeechTokenizer, Mimi) 능가

주요 기능

제로샷 음성 복제 (Zero-Shot Voice Cloning)

3초 분량의 참조 오디오만으로 훈련에 없던 목소리도 즉시 복제할 수 있습니다. 단순히 음색만 흉내 내는 것이 아니라, 참조 오디오에 담긴 운율과 감정까지 파악하여 반영합니다.

wavs, sr = model.generate_voice_clone(
    text="안녕하세요, 복제된 목소리로 말하고 있습니다.",
    language="Korean",
    ref_audio="reference.wav",
    ref_text="참조 오디오의 전사 텍스트"
)

음성 디자인 (Voice Design)

텍스트 프롬프트만으로 세상에 없는 목소리를 창조할 수 있습니다:

wavs, sr = model.generate_voice_design(
    text="안녕하세요, 새롭게 디자인된 목소리입니다.",
    language="Korean",
    instruct="차분하고 신뢰감 있는 중저음의 남성 뉴스 앵커 목소리"
)

프리미엄 음색 제어

CustomVoice 모델은 9가지 프리미엄 음색을 제공하며, 각 화자의 고유한 특성을 유지합니다:

화자특성모국어
Vivian밝고 활기찬 젊은 여성중국어
Serena따뜻하고 부드러운 여성중국어
Uncle_Fu성숙한 저음의 남성중국어
Dylan베이징 방언의 청년중국어(베이징)
Eric청두 방언의 활기찬 남성중국어(쓰촨)
Ryan역동적인 남성영어
Aiden밝은 미국 남성영어
Ono_Anna경쾌한 일본 여성일본어
Sohee따뜻한 한국 여성한국어

기술적 혁신

Dual-Track LM 아키텍처

Qwen3-TTS는 텍스트 토큰과 음성 토큰을 시퀀스 길이가 아닌 채널 축(Channel axis)을 따라 연결하여 처리합니다. 이를 통해 텍스트 입력 즉시 대응하는 음성 토큰을 지체 없이 예측할 수 있어 동시성 처리가 가능해졌습니다.

MTP (Multi-Token Prediction)

12Hz 모델은 다중 코드북을 효율적으로 처리하기 위해 MTP 모듈을 활용합니다:

  1. 백본 모델이 0번째 코드북(기본 정보) 예측
  2. MTP 모듈이 나머지 1~15번 레이어(음향 디테일) 동시 예측
  3. 단일 프레임 내에서 모든 계층의 토큰을 즉시 생성

체계적인 3단계 학습

사전 학습 (Pre-training)

  1. 일반 단계: 500만 시간의 다국어 데이터로 기본 매핑 학습
  2. 고품질 단계: 선별된 데이터로 지속 학습하여 환각 현상 억제
  3. 장문 맥락 단계: 최대 32,768 토큰까지 처리하여 긴 문장 생성 능력 확보

사후 학습 (Post-training)

  • DPO (Direct Preference Optimization)로 인간 선호도 반영
  • 화자 파인튜닝으로 표현력과 제어 가능성 완성

설치 및 사용

환경 요구사항

권장 사양

  • GPU: NVIDIA GPU (VRAM 16GB 이상 권장)
    • 0.6B 모델: RTX 3090, RTX 4090, A10, V100 이상
    • 1.7B 모델: A100 (40GB), H100 권장
  • RAM: 32GB 이상
  • 저장공간:
    • 0.6B 모델: 약 3GB
    • 1.7B 모델: 약 7GB
    • 토크나이저: 약 1GB
  • CUDA: 11.8 이상
  • Python: 3.12 권장

최소 사양

  • GPU VRAM:
    • 0.6B 모델: 8GB (INT8 양자화 시)
    • 1.7B 모델: 12GB (INT8 양자화 시)
  • RAM: 16GB
  • FlashAttention 2 사용 시 메모리 사용량 대폭 감소

성능 참고

  • RTX 4090 (24GB): 1.7B 모델 실시간 스트리밍 가능
  • RTX 3090 (24GB): 0.6B/1.7B 모델 모두 실행 가능
  • T4 (16GB): 0.6B 모델 실행 가능, 1.7B 모델은 양자화 필요
  • A100 (40GB/80GB): 모든 모델 최적 성능

설치 방법

데모 사용

데모는 아래 두곳에서 사용해볼 수 있습니다. 실제 결과물은 매우 놀랍습니다.

기본 사용 예시

1. 음성 디자인

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

wavs, sr = model.generate_voice_design(
    text="안녕하세요, 저는 텍스트 설명만으로 만들어진 목소리입니다.",
    language="Korean",
    instruct="차분하고 신뢰감 있는 중저음의 남성 뉴스 앵커 목소리"
)
sf.write("output.wav", wavs[0], sr)

2. 커스텀 음색 사용

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

wavs, sr = model.generate_custom_voice(
    text="안녕하세요, 반갑습니다!",
    language="Korean",
    speaker="Sohee",
    instruct="매우 기쁜 목소리로"
)
sf.write("output.wav", wavs[0], sr)

3. 음성 복제

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

wavs, sr = model.generate_voice_clone(
    text="이것은 복제된 목소리로 생성된 음성입니다.",
    language="Korean",
    ref_audio="reference.wav",
    ref_text="참조 오디오의 정확한 전사 텍스트"
)
sf.write("output.wav", wavs[0], sr)

Web UI 데모 실행

vLLM을 통한 배포

vLLM은 Qwen3-TTS를 day-0부터 공식 지원합니다. vLLM-Omni를 사용하면 고성능 추론이 가능합니다:

파인튜닝

특정 도메인이나 화자에 맞춰 모델을 최적화할 수 있습니다. 상세한 파인튜닝 가이드는 GitHub 저장소의 finetuning 디렉토리에서 확인할 수 있습니다.

실무 활용 사례

1. 실시간 대화 시스템

  • 97ms의 초저지연으로 자연스러운 음성 비서 구현
  • 다국어 지원으로 글로벌 서비스 제공

2. 콘텐츠 제작

  • 영화 더빙, 오디오북, 팟캐스트 자동 생성
  • 텍스트 설명만으로 캐릭터 보이스 디자인

3. 접근성 향상

  • 시각장애인을 위한 고품질 TTS
  • 다국어 음성 번역 서비스

4. 교육 및 엔터테인먼트

  • 개인화된 음성 튜터
  • 게임 캐릭터 음성 생성

마치며

Qwen3-TTS는 단순한 TTS 모델을 넘어, 음성 AI의 실사용의 수준을 높은 품질로 사용할수 있도록 끌어올렸다고 생각합니다. Apache 2.0 라이선스로 완전히 공개되어 누구나 자유롭게 연구하고 상업적으로 활용할 수 있습니다. 500만 시간의 학습 데이터, 혁신적인 이중 토크나이저 전략, 그리고 업계 최고 수준의 성능 지표는 Qwen3-TTS가 음성 합성 분야에 놀라운 성과를 이뤘다고 단언할수 있겠습니다.

참고 자료


게시됨

카테고리

,

작성자

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다