릴리스 노트

Gemma 4 — 31B로 400B 모델을 이긴 구글의 온디바이스 오픈모델

Google DeepMind가 2026년 4월 2일 공개한 Gemma 4는 "더 크게"가 아니라 "같은 크기에서 더 똑똑하게"라는 축으로 오픈모델 경쟁의 판을 다시 그렸습니다. 31B Dense 모델이 Arena AI 오픈모델 순위 3위(Elo 1452)에 오르면서, 20배 큰 프런티어 모델들과 어깨를 나란히 하고 있어요. 그것도 Apache 2.0으로요.

GLM 5.1이 "오픈 웨이트로 프런티어 품질"이라는 축을 열었다면, Gemma 4가 강조하는 것은 intelligence-per-parameter, 즉 파라미터당 지능입니다. 같은 H100 한 장, 같은 배터리, 같은 메모리 예산에서 얼마나 똑똑할 수 있는가에 대한 답이에요. 그래서 이 모델은 "가장 센 모델"이 아니라 "가장 쓰기 좋은 크기의 똑똑한 모델"을 노립니다.

01한 줄 요약 — "지능/파라미터" 프런티어의 새 기준점

Gemma 4가 의미 있는 지점은 세 가지입니다.

  • 효율 프런티어 — 31B가 Arena 오픈 3위, 26B A4B(활성 4B MoE)가 오픈 6위. 모두 20배 큰 모델과 맞먹는다고 구글은 주장
  • 넷으로 쪼개진 라인업 — 스마트폰(E2B)부터 워크스테이션(31B)까지 연속 스펙트럼을 하나의 API로 커버
  • Apache 2.0 — 상업적 이용·재배포·수정 모두 허용. 이전 Gemma의 비표준 라이선스에 있던 애매함을 걷어냄

같은 주 공개된 GLM 5.1이 "오픈 웨이트로 벤치마크 1위"를 가져갔다면, Gemma 4는 "온디바이스 프런티어"라는 다른 영역에서 기준점을 찍은 셈입니다. 두 모델은 겹치지 않고 오히려 오픈소스 생태계의 위·아래를 나눠 맡고 있어요.

02출시 정보와 접근 경로

항목Gemma 4
공개일2026년 4월 2일
개발사Google DeepMind
라이선스Apache 2.0 — 상업적 이용·수정·재배포 허용
모델 라인업E2B · E4B · 26B A4B (MoE) · 31B Dense
컨텍스트E2B·E4B 128K / 26B·31B 256K
언어 지원140개 이상 (한국어 포함)
멀티모달 입력전 모델 텍스트+이미지, 26B·31B는 최대 60초 비디오, E2B·E4B는 오디오까지
출력텍스트
Hugging Facegoogle/gemma-4-E2B · E4B · 26B-A4B · 31B (+ -it IT 변형)
배포 채널Hugging Face · Kaggle · Ollama · Google AI Studio · Vertex AI · NVIDIA NIM
추론 프레임워크transformers · vLLM · llama.cpp · MLX · mistral.rs · ONNX · transformers.js

눈여겨볼 지점은 Apache 2.0입니다. 이전 Gemma 세대의 "Gemma Terms of Use"는 상업적 이용은 허용했지만 일부 재배포·파생에서 조항이 걸려 기업 도입 시 법무 검토가 필요했어요. Gemma 4는 그 제약을 없앴습니다. 이제 Llama·Qwen과 동일한 기준의 "정말로 오픈"한 라이선스예요.

03네 개의 사이즈 — 역할이 다 다릅니다

Gemma 4를 이해하는 핵심은 "어느 모델을 고르느냐"입니다. 네 개 사이즈가 각기 다른 하드웨어 예산을 겨냥해요.

E2B · 효율 2B

스마트폰과 Raspberry Pi를 위한 오픈모델

실효 파라미터 2.3B, 임베딩 포함 5.1B. 128K 컨텍스트. int4 양자화 기준 2~3GB VRAM이면 돌아갑니다. Android 폰, Jetson Orin Nano, 심지어 Raspberry Pi에서도 로컬 에이전트로 실행하는 것을 전제로 설계되었어요. 오디오 입력도 받아서 온디바이스 음성 인터페이스를 바로 만들 수 있습니다.

E4B · 효율 4B

노트북 기반 로컬 에이전트의 기본값

실효 4.5B, 임베딩 포함 8B. 128K 컨텍스트. int4에서 약 4GB VRAM이라 M 시리즈 Mac 한 대에서 문제 없이 돌아갑니다. 온디바이스 코드 보조, 요약, 번역처럼 "노트북에서 닫아두고 쓰는" 에이전트용으로 제일 무난한 크기입니다. E2B와 마찬가지로 오디오 입력을 네이티브로 지원해요.

26B A4B · 저지연 MoE

소비자 GPU에서 가장 빠른 토큰/초

총 26B 중 토큰당 4B만 활성화되는 Mixture of Experts 구조. 256K 컨텍스트를 지원하면서도 추론 지연은 4B급. int4에서 15~20GB VRAM으로 RTX 4090 한 장에 올라가며, 체감 속도는 31B Dense보다 확연히 빠릅니다. 실시간 채팅·툴 호출처럼 "똑똑하면서 빠른 게 더 중요한" 용도에 최적화되어 있어요.

31B Dense · 최대 품질

H100 한 장으로 닿는 프런티어

31B 밀집 모델, 256K 컨텍스트. bfloat16 원본 가중치가 NVIDIA H100 80GB 한 장에 맞도록 설계되었습니다. int4로 양자화하면 20~25GB VRAM까지 떨어져서 소비자 GPU에서도 운용 가능. 파인튜닝을 위한 베이스 모델이자, 오픈 상태에서 가능한 최고 품질을 뽑는 선택지입니다.

04벤치마크 — 숫자로 보는 위치

Google과 Hugging Face가 공개한 IT(Instruction-Tuned) 모델 기준 주요 지표를 정리했습니다.

벤치마크31B Dense26B A4BE4BE2B
Arena AI (텍스트 Elo)14521441
MMLU Pro85.282.669.460.0
AIME 202689.288.342.537.5
GPQA Diamond84.3
LiveCodeBench v680.077.152.044.0
Codeforces Elo2150
128K Needle 회수66.444.125.419.1

구글이 자신 있게 내세운 지표는 Arena AI 리더보드의 상대 순위입니다. 31B가 오픈 3위, 26B A4B가 오픈 6위. 두 모델 모두 20배 큰 파라미터를 가진 모델과 맞붙고 있다는 뜻이에요. AIME 89.2, LiveCodeBench 80.0은 수학·코딩에서도 이전 세대 오픈모델을 확실히 뛰어넘은 수치입니다.

한 가지 솔직한 단서: 128K 니들-인-헤이스택 회수율이 31B 기준 66.4%입니다. 긴 문맥을 넣을 수는 있지만, 256K 전체에 걸쳐 완벽한 회수를 기대하면 실망할 수 있어요.

05아키텍처 — "지능/파라미터"를 쥐어짜낸 네 가지 기법

01 — 하이브리드 어텐션

Sliding Window 512~1024 + Global Full-context 교대

모든 층을 풀 어텐션으로 쓰지 않습니다. 대부분의 레이어는 512~1024 토큰 짜리 슬라이딩 윈도우로 로컬 문맥만 보고, 일부 레이어만 전 컨텍스트 어텐션을 수행합니다. 256K 컨텍스트에서도 메모리·지연이 폭발하지 않는 핵심 장치예요.

02 — Dual RoPE

슬라이딩/글로벌 레이어에 다른 위치 인코딩

슬라이딩 윈도우 레이어에는 표준 RoPE를, 글로벌 어텐션 레이어에는 프루닝된 RoPE를 적용해 장거리 위치 신호를 더 길게 유지합니다. 256K까지 컨텍스트 길이가 늘어난 배경이기도 합니다.

03 — Shared KV Cache

끝단 레이어가 앞 레이어의 K/V를 재사용

마지막 N개 레이어가 더 앞쪽 레이어의 Key/Value를 공유합니다. KV 캐시 크기와 연산량이 줄어들어, 같은 VRAM에서 더 긴 컨텍스트를 저장할 수 있어요. 특히 온디바이스 E2B/E4B가 장문을 버티는 이유의 상당 부분.

04 — Per-Layer Embedding

레이어마다 별도 임베딩 신호를 더함

보조 임베딩 테이블을 두고 각 디코더 레이어에 잔차 신호를 주입하는 구조. 같은 파라미터 예산 안에서 표현력을 더 확보하려는 설계로, 작은 모델(E2B/E4B)에서도 품질이 잘 나오는 이유로 꼽힙니다.

06멀티모달 — 누가 뭘 받는가

Gemma 4의 멀티모달 지원은 모델 사이즈에 따라 의외로 교차합니다. 작은 모델이 더 많은 모달리티를 받는 구간이 있어요.

140+
지원 언어
256K
컨텍스트 (대형)
60s
비디오 길이
H100×1
31B bf16 구동
모달리티E2BE4B26B A4B31B
텍스트 입력
이미지 입력
오디오 입력
비디오 입력 (최대 60초)✓ (오디오 포함)✓ (오디오 포함)✓ (오디오 없음)✓ (오디오 없음)
텍스트 출력

작은 모델(E2B/E4B)만 오디오를 받습니다. 왜? 구글은 이 모델들을 온디바이스 음성 인터페이스에 쓰도록 명시적으로 설계했기 때문이에요. Android/Jetson 같은 엣지에서 "말하면 답하는" 모델을 돌리는 시나리오에 무게를 실은 선택입니다.

07하드웨어 예산 — 어디서 돌릴 수 있나

모델bf16 (원본)int4 양자화현실적 타겟
E2B~10GB~2~3GB스마트폰, Raspberry Pi, Jetson Orin Nano
E4B~16GB~4GBMacBook (M 시리즈), 엣지 에이전트
26B A4B~50GB~15~20GBRTX 4090 / A6000
31B Dense~60GB~20~25GBH100 80GB ×1 / A100 ×1

31B의 설계 의도가 명확합니다. "프런티어급 품질을 H100 한 장으로 올려라." GLM 5.1 같은 700B+ 모델을 돌리려면 최소 A100 4장이 필요한 것과 대조됩니다. 같은 예산이면 Gemma 4 31B를 4장에서 병렬로 돌릴 수 있다는 뜻이에요.

Day-0부터 transformers · vLLM · llama.cpp · MLX · mistral.rs · ONNX · transformers.js가 모두 지원합니다. 즉, 기존에 Llama·Mistral·Qwen 서빙 스택을 가지고 있다면 코드 변경은 모델 ID 교체 수준이에요.

08Gemma 4는 언제 선택해야 하나

상황권장이유
모바일·엣지·임베디드 에이전트Gemma 4 E2B/E4B온디바이스 실행을 위해 설계된 유일한 프런티어급 오픈모델
H100 한 장 예산의 자체 호스팅Gemma 4 31Bbf16이 H100 80GB 한 장에 맞는 유일한 오픈 프런티어
RTX 4090급에서 고속 응답Gemma 4 26B A4B활성 4B MoE로 체감 속도 우수 · 256K 컨텍스트
한국어 글쓰기·요약 중심Claude Opus 4.7 / ChatGPT한국어 생성 품질은 여전히 클로즈드 프런티어 우위
단일 초장시간 자율 실행GLM 5.18시간 자율 실행 내성은 현 시점 오픈 최강
감시 비용을 아끼고 싶을 때Claude Opus 4.7매니지드·안정성 프리미엄

정리하면, Gemma 4는 "오픈 + 온디바이스 + 한 장의 GPU"가 핵심 키워드입니다. 구글은 이번 릴리스로 "오픈모델 = 중국 모델" 구도에 균형을 맞추고, 동시에 Android/Pixel/Chrome 생태계에서 쓰일 로컬 AI의 기반을 깔았어요.

핵심 정리

  • Gemma 4는 2026-04-02 Google DeepMind가 Apache 2.0으로 공개한 4종 오픈 웨이트 모델 패밀리
  • 31B Dense가 Arena AI 오픈 3위 (Elo 1452), 26B A4B가 오픈 6위 — 20배 큰 모델과 경쟁
  • 주요 지표: MMLU Pro 85.2, AIME 2026 89.2, LiveCodeBench v6 80.0
  • 256K 컨텍스트, 140개 언어, 텍스트·이미지·오디오·60초 비디오까지 받는 멀티모달
  • 스마트폰의 E2B부터 H100 한 장의 31B까지 — "쓸 하드웨어 골라 붙이는" 연속 스펙트럼
  • 초장시간 자율 실행이 필요하면 GLM 5.1, 매니지드가 필요하면 Opus 4.7과 보완적으로 쓰는 게 현실 해답

같은 달 공개된 GLM 5.1, Claude Opus 4.7과 함께 읽으면 2026년 상반기 모델 경쟁이 "크기"가 아니라 "배치 영역"에서 갈리고 있다는 그림이 선명해집니다. 모델 선택의 큰 틀은 Claude vs ChatGPT vs Gemini 실전 비교에서 이어 보세요.

자주 묻는 질문

Gemma 4는 언제 누가 공개했나요?
Google DeepMind가 2026년 4월 2일 Apache 2.0 라이선스로 공개했습니다. Hugging Face의 google/gemma-4-* 리포지토리, Kaggle, Ollama, Google AI Studio, Vertex AI, NVIDIA NIM, vLLM, llama.cpp 등 주요 플랫폼에서 공개 당일부터 바로 사용할 수 있습니다.
Gemma 4는 어떤 사이즈로 나오고, 각각 무엇을 겨냥하나요?
네 가지 사이즈가 동시에 공개되었습니다. E2B(effective 2B, 128K)는 스마트폰·Raspberry Pi·Jetson Orin Nano 같은 엣지 디바이스용, E4B(effective 4B, 128K)는 노트북·온디바이스 에이전트용, 26B A4B(활성 4B / 총 26B MoE, 256K)는 소비자 GPU에서 빠른 토큰/초를 내는 저지연 MoE, 31B Dense(31B, 256K)는 워크스테이션·H100 한 장 기준 최고 품질을 노리는 모델입니다.
Gemma 4 31B는 벤치마크에서 얼마나 강한가요?
Arena AI 텍스트 리더보드 오픈모델 3위 (Elo 1452), MMLU Pro 85.2%, AIME 2026 89.2%, LiveCodeBench v6 80.0%, GPQA Diamond 84.3%, Codeforces Elo 2150을 기록했습니다. 26B A4B도 Arena Elo 1441로 오픈 6위에 올라, 두 모델 모두 20배 큰 모델들을 제쳤다는 것이 구글의 주장입니다.
Gemma 4는 한국어와 멀티모달을 어디까지 지원하나요?
140개 이상 언어를 네이티브로 학습했고 한국어도 공식 지원 대상에 포함됩니다. 입력 멀티모달리티는 모델 크기에 따라 달라지는데, 네 모델 모두 텍스트와 이미지를 받고, 26B·31B는 최대 60초 길이의 비디오를, E2B·E4B는 오디오까지 입력으로 처리합니다. 출력은 모든 모델이 텍스트만 생성합니다.
Gemma 4를 로컬로 돌리려면 어떤 하드웨어가 필요한가요?
31B와 26B A4B의 bfloat16 가중치는 NVIDIA H100 80GB 한 장에 맞습니다. int4 양자화 기준으로는 31B가 약 20~25GB VRAM, 26B A4B가 15~20GB VRAM으로 내려가 소비자 GPU에서도 실행 가능합니다. E4B는 int4에서 약 4GB, E2B는 약 2~3GB로 스마트폰이나 Raspberry Pi, Jetson Orin Nano에서도 실행하도록 설계되었습니다.
Gemma 4와 GLM 5.1, Llama, Qwen은 어떻게 다른가요?
방향성이 다릅니다. GLM 5.1(754B MoE)은 "오픈 웨이트로 최고 성능"을 노린 대형 프런티어 모델이고, Gemma 4는 "파라미터당 지능(intelligence-per-parameter) 프런티어"에서 Pareto 최적을 노립니다. 같은 하드웨어에서 더 똑똑하거나, 같은 품질을 더 작은 모델로 달성하는 축입니다. 엣지/모바일/온프레미스 에이전트가 목표라면 Gemma 4, 감시 비용을 아끼고 대형 자율 실행을 돌리고 싶다면 GLM 5.1이나 Claude Opus 4.7이 현실적인 선택입니다.