Gemma 4 12B 공개 — 인코더 없이 노트북에서 구동되는 통합 멀티모달 AI

들어가며

<출처: https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/>

2026년 4월 3일, Google DeepMind는 Gemma 4 라인업을 공개했습니다. 모바일 엣지용 E2B·E4B부터 대규모 서버급 31B Dense와 26B MoE 모델까지, 다양한 환경을 커버하는 포트폴리오였습니다. 그리고 그로부터 약 두 달 뒤인 2026년 6월 3일, 그 라인업의 빈칸을 채우는 중간 라인업 Gemma 4 12B가 등장했습니다.

이 모델은 단순히 “중간 크기”를 채우는 데 그치지 않습니다. 인코더 없는(Encoder-free) 통합 멀티모달 아키텍처라는 구조적 혁신을 통해, 텍스트·이미지·오디오를 단일 트랜스포머 하나로 처리하면서도 16GB VRAM 또는 통합 메모리를 갖춘 일반 노트북에서 로컬 실행이 가능한 수준으로 설계되었습니다.

Gemma 4 라인업에서의 위치

Gemma 4 전체 라인업은 다섯 가지 크기로 구성됩니다.

모델	파라미터	컨텍스트	지원 모달리티	비고
E2B	2.3B (유효)	128K	텍스트 · 이미지 · 오디오	Per-Layer Embeddings
E4B	4.5B (유효)	128K	텍스트 · 이미지 · 오디오	Per-Layer Embeddings
12B Unified	11.95B	256K	텍스트 · 이미지 · 오디오	인코더 없는 통합 구조
26B A4B	25.2B (활성 3.8B)	256K	텍스트 · 이미지	MoE, 전문가 128개 중 8개 활성
31B Dense	30.7B	256K	텍스트 · 이미지	모델군 최고 성능

12B Unified는 엣지 모델(E4B)과 대형 MoE 모델(26B) 사이의 공백을 메우며, 26B에 근접한 추론 성능을 절반 이하의 메모리로 제공하는 것이 핵심 목표입니다.

참고: Gemma 4 모델군은 공개 이후 누적 1억 5천만 다운로드를 돌파하며 개발자 커뮤니티에서 큰 호응을 얻고 있습니다.

핵심 혁신: 인코더 없는 통합 아키텍처

기존 멀티모달 모델의 구조

기존 멀티모달 모델은 분리된 인코더에 의존합니다. 실제로 Gemma 4의 다른 모델들도:

비전 인코더: 엣지 크기 150M, 중간 크기 550M 파라미터의 Vision Transformer 레이어 27개
오디오 인코더: E2B·E4B에서 300M 파라미터의 컨포머(Conformer) 레이어 12개

를 별도로 운용해 왔습니다. 이 구조는 각 인코더가 입력을 전처리한 뒤 LLM으로 전달하는 방식으로, 지연 시간 증가와 파편화된 메모리 사용이라는 비용을 수반합니다.

Gemma 4 12B의 해법: 단일 디코더 전용 트랜스포머

Gemma 4 12B는 이 모든 인코더를 제거하고, 비전·오디오·텍스트 입력이 LLM 백본으로 직접 흘러 들어가도록 설계되었습니다. 모델명의 “Unified“가 바로 이 구조를 가리킵니다.

비전 임베더 (Vision Embedder, 35M 파라미터)

기존 27개 Vision Transformer 레이어를 단 35M 파라미터의 경량 임베더로 대체합니다.

원시 48×48 픽셀 패치를 단일 행렬 곱셈(matmul) 한 번으로 LLM 은닉 차원에 투영
X축·Y축 행렬로 분해된 좌표 조회(factorized coordinate lookup)를 통해 공간 위치 정보를 직접 부착
가변 비주얼 토큰 예산(Visual Token Budget): 70~1120 토큰 범위의 5단계로 해상도와 연산량 조절 가능
빠른 분류/영상 이해 → 낮은 예산
OCR·문서 파싱처럼 세밀한 판독 → 높은 예산

오디오 파형 투영 (Audio Wave Projection)

별도의 오디오 인코더를 완전히 제거했습니다.

원시 16kHz 오디오 신호를 40ms 프레임(각 640개 부동소수점)으로 분할 후 LLM 입력 공간에 선형 투영
Gemma 4 12B는 네이티브 오디오 입력을 지원하는 첫 번째 중간 크기 Gemma 모델입니다
(기존에는 경량 엣지 모델인 E2B, E4B에서만 오디오 지원)

통합 파인튜닝의 이점

비전·오디오·텍스트 입력이 완전히 동일한 가중치를 공유하기 때문에, 고정된 인코더를 별도로 함께 조정할 필요가 없습니다. Hugging Face Transformers나 Unsloth를 통한 LoRA 어댑터 또는 전체 파인튜닝이 한 번의 패스로 전체 멀티모달 루프를 갱신합니다.

성능 벤치마크: 절반 이하의 메모리로 26B에 근접

Gemma 4 12B는 주요 벤치마크에서 상위 26B MoE 모델에 근접한 점수를 기록했으며, 전 세대 Gemma 3 27B를 큰 폭으로 앞섰습니다.

벤치마크	Gemma 4 12B	Gemma 4 26B	Gemma 4 E4B	Gemma 3 27B
MMLU Pro (종합 지식)	77.2%	82.6%	69.4%	67.6%
AIME 2026 (수학 추론, 도구 미사용)	77.5%	88.3%	42.5%	20.8%
LiveCodeBench v6 (코딩)	72.0%	77.1%	52.0%	29.1%
GPQA Diamond (과학 전문 추론)	78.8%	82.3%	58.6%	42.4%
MMMU Pro (비전 이해)	69.1%	73.8%	52.6%	49.7%
CoVoST (음성 번역)	38.5	—	35.54	—

주목할 만한 포인트

수학(AIME 2026): 77.5%로, 전 세대 27B 모델(20.8%) 대비 3.7배 이상 향상
코딩(LiveCodeBench v6): 72.0%로, 전 세대 27B 모델(29.1%) 대비 2.5배 이상 향상
과학 추론(GPQA Diamond): 78.8%로, 전 세대 27B 모델(42.4%) 대비 36%p 향상
오디오 번역(CoVoST): 38.5점으로, E4B(35.54)를 앞서는 성능

노트북에서 구동 가능한가? — 하드웨어 요구 사양 상세 가이드

Gemma 4 12B의 핵심 가치 중 하나는 일반 노트북에서의 로컬 실행 가능성입니다.

최소 권장 사양 (일반 노트북)

구성 요소	최소 요구 사항	권장 사항
메모리	16GB VRAM 또는 통합 메모리	24GB 이상
GPU	NVIDIA RTX 3080/4070 이상 (16GB VRAM)	RTX 4090 / A6000
Apple Silicon	M3 Pro (18GB 통합 메모리)	M3 Max / M4 Max (36GB+)
RAM	32GB	64GB
저장공간	~25GB (BF16 기준)	NVMe SSD 권장

Apple Silicon (Mac) — 특히 주목!

이번 출시와 함께 Apple Silicon GPU에서 Gemma 4 12B를 완전히 오프라인으로 실행할 수 있는 데스크톱 통합이 공개되었습니다.

Google AI Edge Gallery: 기존 모바일 앱이 처음으로 macOS 데스크톱 플랫폼으로 확장
채팅 안에서 과학 차트 작성 및 실행 가능한 샌드박스 Python 실행 루프 포함
Google AI Edge Eloquent: Gemma 4 12B 기반 음성 편집(Voice Edit) 대화형 입력 지원 macOS 앱

M3 Pro (18GB 통합 메모리) 이상이면 INT4 양자화 모델로 원활한 실행이 가능합니다.
M3 Max (36GB 통합 메모리) 이상에서는 BF16 풀 정밀도로도 빠른 추론이 가능합니다.

Windows / Linux (NVIDIA GPU)

상황	권장 구성
최소 실행	RTX 3080 Ti (12GB VRAM) + CPU 오프로딩 + INT4 양자화
원활한 실행	RTX 4070 Ti (16GB VRAM) + INT4/INT8 양자화
최적 실행	RTX 4090 (24GB VRAM) 이상, BF16
프로 워크스테이션	RTX 6000 Ada (48GB VRAM), 양자화 불필요

팁: 12GB VRAM 환경에서도 llama.cpp의 GPU 오프로딩 기능을 활용하면 일부 레이어를 CPU RAM으로 보조하여 실행할 수 있습니다. 다만 추론 속도는 저하됩니다.

MTP(Multi-Token Prediction) 드래프터로 속도 개선

Gemma 4 12B에는 전용 MTP 드래프터 모델이 동봉됩니다. 이 드래프터는 투기적 디코딩(Speculative Decoding) 방식으로 본 모델의 추론을 가속화하여, 로컬 환경에서의 체감 응답 속도를 크게 개선합니다.

주요 활용 사례

Gemma 4 12B는 폭넓은 작업을 처리할 수 있습니다.

텍스트 작업

고난도 수학·추론: AIME 2026 77.5% 수준의 수학 문제 해결
전문 지식 QA: GPQA Diamond 78.8%의 대학원급 과학 추론
긴 문서 처리: 256K 토큰 컨텍스트 윈도우 (A4 용지 약 500장 분량)
140개 이상 언어 지원: 한국어 포함 다국어 처리

코딩 & 개발

코드 생성 및 디버깅: LiveCodeBench v6 72.0% 수준
에이전트 코딩: llama.cpp로 로컬 서빙 후 OpenCode, Aider 같은 에이전트 하니스와 바로 연결
네이티브 함수 호출(Function Calling): 에이전트 워크플로우 직접 통합

비전·이미지 이해

이미지 내 텍스트 인식(OCR), 차트 분석, 문서 파싱
최대 60초 비디오(초당 1프레임 기준) 입력 지원
가변 비주얼 토큰 예산으로 속도와 정밀도 트레이드오프 조절

오디오 처리

자동 음성 인식(ASR)
음성 번역: CoVoST 38.5점 (E4B 35.54점 초과)
화자 분리(Diarization)
최대 30초 오디오 입력 지원

생태계 및 시작하기

Hugging Face Transformers

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto"
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "한국어로 멀티모달 AI를 간단히 설명해줘."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False  # 단계별 추론 on/off 가능
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=False)
processor.parse_response(response)

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto"
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "한국어로 멀티모달 AI를 간단히 설명해줘."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False  # 단계별 추론 on/off 가능
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=False)
processor.parse_response(response)

권장 샘플링 파라미터: temperature=1.0, top_p=0.95, top_k=64

LiteRT-LM (로컬 OpenAI 호환 서버)

# Hugging Face에서 모델 가져오기
litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b

# OpenAI 호환 로컬 API 서버 실행
litert-lm serve

Continue, Aider, OpenCode 같은 기존 AI 코딩 도구와 드롭인(drop-in) 방식으로 연결할 수 있습니다.

지원 도구 및 프레임워크

카테고리	지원 도구
로컬 실행	Ollama, LM Studio, llama.cpp, MLX (Apple Silicon)
서빙 프레임워크	vLLM, SGLang, LiteRT-LM
클라우드 배포	Google Cloud Run (RTX Pro 6000), GKE
파인튜닝	Hugging Face Transformers, Unsloth (LoRA)
데스크톱 앱	Google AI Edge Gallery (macOS), Eloquent (macOS)

모델 다운로드

Hugging Face: google/gemma-4-12B-it (Instruction-Tuned) / google/gemma-4-12B (Pre-Trained)
Kaggle: Gemma 4 Models

라이선스

Gemma 4 12B는 Apache 2.0 라이선스로 공개되어 있습니다. 연구 목적은 물론 상업적 용도로도 자유롭게 사용·수정·배포가 가능합니다.

정리: Gemma 4 12B가 특별한 이유

항목	내용
모델 크기	11.95B (Dense)
아키텍처	인코더 없는 단일 디코더 전용 트랜스포머
멀티모달	텍스트 + 이미지 + 오디오 (중간 크기 Gemma 최초 오디오 지원)
컨텍스트	256K 토큰
최소 메모리	16GB VRAM 또는 통합 메모리
노트북 실행	Apple Silicon M3 Pro+ / RTX 4070 Ti+
라이선스	Apache 2.0 (상업적 사용 가능)
핵심 경쟁력	26B급 성능 × 노트북 친화적 메모리 × 통합 멀티모달

Gemma 4 12B는 “로컬에서 돌아가는 AI”의 새로운 기준을 제시합니다. 26B MoE의 성능에 근접하면서도 16GB 메모리 환경에서 텍스트·이미지·오디오를 하나의 모델로 처리할 수 있다는 것은, 개인 개발자부터 기업 연구팀까지 폭넓은 활용 가능성을 열어줍니다.

참고 자료:
· Google AI for Developers – Gemma 4 Overview
· PyTorchKR – Gemma 4 12B 소개
· Google Blog – Introducing Gemma 4 12B