Gemma 4 — 31B로 400B 모델을 이긴 구글의 온디바이스 오픈모델
Google DeepMind가 2026년 4월 2일 공개한 Gemma 4는 "더 크게"가 아니라 "같은 크기에서 더 똑똑하게"라는 축으로 오픈모델 경쟁의 판을 다시 그렸습니다. 31B Dense 모델이 Arena AI 오픈모델 순위 3위(Elo 1452)에 오르면서, 20배 큰 프런티어 모델들과 어깨를 나란히 하고 있어요. 그것도 Apache 2.0으로요.
GLM 5.1이 "오픈 웨이트로 프런티어 품질"이라는 축을 열었다면, Gemma 4가 강조하는 것은 intelligence-per-parameter, 즉 파라미터당 지능입니다. 같은 H100 한 장, 같은 배터리, 같은 메모리 예산에서 얼마나 똑똑할 수 있는가에 대한 답이에요. 그래서 이 모델은 "가장 센 모델"이 아니라 "가장 쓰기 좋은 크기의 똑똑한 모델"을 노립니다.
01한 줄 요약 — "지능/파라미터" 프런티어의 새 기준점
Gemma 4가 의미 있는 지점은 세 가지입니다.
- 효율 프런티어 — 31B가 Arena 오픈 3위, 26B A4B(활성 4B MoE)가 오픈 6위. 모두 20배 큰 모델과 맞먹는다고 구글은 주장
- 넷으로 쪼개진 라인업 — 스마트폰(E2B)부터 워크스테이션(31B)까지 연속 스펙트럼을 하나의 API로 커버
- Apache 2.0 — 상업적 이용·재배포·수정 모두 허용. 이전 Gemma의 비표준 라이선스에 있던 애매함을 걷어냄
같은 주 공개된 GLM 5.1이 "오픈 웨이트로 벤치마크 1위"를 가져갔다면, Gemma 4는 "온디바이스 프런티어"라는 다른 영역에서 기준점을 찍은 셈입니다. 두 모델은 겹치지 않고 오히려 오픈소스 생태계의 위·아래를 나눠 맡고 있어요.
02출시 정보와 접근 경로
| 항목 | Gemma 4 |
|---|---|
| 공개일 | 2026년 4월 2일 |
| 개발사 | Google DeepMind |
| 라이선스 | Apache 2.0 — 상업적 이용·수정·재배포 허용 |
| 모델 라인업 | E2B · E4B · 26B A4B (MoE) · 31B Dense |
| 컨텍스트 | E2B·E4B 128K / 26B·31B 256K |
| 언어 지원 | 140개 이상 (한국어 포함) |
| 멀티모달 입력 | 전 모델 텍스트+이미지, 26B·31B는 최대 60초 비디오, E2B·E4B는 오디오까지 |
| 출력 | 텍스트 |
| Hugging Face | google/gemma-4-E2B · E4B · 26B-A4B · 31B (+ -it IT 변형) |
| 배포 채널 | Hugging Face · Kaggle · Ollama · Google AI Studio · Vertex AI · NVIDIA NIM |
| 추론 프레임워크 | transformers · vLLM · llama.cpp · MLX · mistral.rs · ONNX · transformers.js |
눈여겨볼 지점은 Apache 2.0입니다. 이전 Gemma 세대의 "Gemma Terms of Use"는 상업적 이용은 허용했지만 일부 재배포·파생에서 조항이 걸려 기업 도입 시 법무 검토가 필요했어요. Gemma 4는 그 제약을 없앴습니다. 이제 Llama·Qwen과 동일한 기준의 "정말로 오픈"한 라이선스예요.
03네 개의 사이즈 — 역할이 다 다릅니다
Gemma 4를 이해하는 핵심은 "어느 모델을 고르느냐"입니다. 네 개 사이즈가 각기 다른 하드웨어 예산을 겨냥해요.
스마트폰과 Raspberry Pi를 위한 오픈모델
실효 파라미터 2.3B, 임베딩 포함 5.1B. 128K 컨텍스트. int4 양자화 기준 2~3GB VRAM이면 돌아갑니다. Android 폰, Jetson Orin Nano, 심지어 Raspberry Pi에서도 로컬 에이전트로 실행하는 것을 전제로 설계되었어요. 오디오 입력도 받아서 온디바이스 음성 인터페이스를 바로 만들 수 있습니다.
노트북 기반 로컬 에이전트의 기본값
실효 4.5B, 임베딩 포함 8B. 128K 컨텍스트. int4에서 약 4GB VRAM이라 M 시리즈 Mac 한 대에서 문제 없이 돌아갑니다. 온디바이스 코드 보조, 요약, 번역처럼 "노트북에서 닫아두고 쓰는" 에이전트용으로 제일 무난한 크기입니다. E2B와 마찬가지로 오디오 입력을 네이티브로 지원해요.
소비자 GPU에서 가장 빠른 토큰/초
총 26B 중 토큰당 4B만 활성화되는 Mixture of Experts 구조. 256K 컨텍스트를 지원하면서도 추론 지연은 4B급. int4에서 15~20GB VRAM으로 RTX 4090 한 장에 올라가며, 체감 속도는 31B Dense보다 확연히 빠릅니다. 실시간 채팅·툴 호출처럼 "똑똑하면서 빠른 게 더 중요한" 용도에 최적화되어 있어요.
H100 한 장으로 닿는 프런티어
31B 밀집 모델, 256K 컨텍스트. bfloat16 원본 가중치가 NVIDIA H100 80GB 한 장에 맞도록 설계되었습니다. int4로 양자화하면 20~25GB VRAM까지 떨어져서 소비자 GPU에서도 운용 가능. 파인튜닝을 위한 베이스 모델이자, 오픈 상태에서 가능한 최고 품질을 뽑는 선택지입니다.
04벤치마크 — 숫자로 보는 위치
Google과 Hugging Face가 공개한 IT(Instruction-Tuned) 모델 기준 주요 지표를 정리했습니다.
| 벤치마크 | 31B Dense | 26B A4B | E4B | E2B |
|---|---|---|---|---|
| Arena AI (텍스트 Elo) | 1452 | 1441 | — | — |
| MMLU Pro | 85.2 | 82.6 | 69.4 | 60.0 |
| AIME 2026 | 89.2 | 88.3 | 42.5 | 37.5 |
| GPQA Diamond | 84.3 | — | — | — |
| LiveCodeBench v6 | 80.0 | 77.1 | 52.0 | 44.0 |
| Codeforces Elo | 2150 | — | — | — |
| 128K Needle 회수 | 66.4 | 44.1 | 25.4 | 19.1 |
구글이 자신 있게 내세운 지표는 Arena AI 리더보드의 상대 순위입니다. 31B가 오픈 3위, 26B A4B가 오픈 6위. 두 모델 모두 20배 큰 파라미터를 가진 모델과 맞붙고 있다는 뜻이에요. AIME 89.2, LiveCodeBench 80.0은 수학·코딩에서도 이전 세대 오픈모델을 확실히 뛰어넘은 수치입니다.
한 가지 솔직한 단서: 128K 니들-인-헤이스택 회수율이 31B 기준 66.4%입니다. 긴 문맥을 넣을 수는 있지만, 256K 전체에 걸쳐 완벽한 회수를 기대하면 실망할 수 있어요.
05아키텍처 — "지능/파라미터"를 쥐어짜낸 네 가지 기법
Sliding Window 512~1024 + Global Full-context 교대
모든 층을 풀 어텐션으로 쓰지 않습니다. 대부분의 레이어는 512~1024 토큰 짜리 슬라이딩 윈도우로 로컬 문맥만 보고, 일부 레이어만 전 컨텍스트 어텐션을 수행합니다. 256K 컨텍스트에서도 메모리·지연이 폭발하지 않는 핵심 장치예요.
슬라이딩/글로벌 레이어에 다른 위치 인코딩
슬라이딩 윈도우 레이어에는 표준 RoPE를, 글로벌 어텐션 레이어에는 프루닝된 RoPE를 적용해 장거리 위치 신호를 더 길게 유지합니다. 256K까지 컨텍스트 길이가 늘어난 배경이기도 합니다.
끝단 레이어가 앞 레이어의 K/V를 재사용
마지막 N개 레이어가 더 앞쪽 레이어의 Key/Value를 공유합니다. KV 캐시 크기와 연산량이 줄어들어, 같은 VRAM에서 더 긴 컨텍스트를 저장할 수 있어요. 특히 온디바이스 E2B/E4B가 장문을 버티는 이유의 상당 부분.
레이어마다 별도 임베딩 신호를 더함
보조 임베딩 테이블을 두고 각 디코더 레이어에 잔차 신호를 주입하는 구조. 같은 파라미터 예산 안에서 표현력을 더 확보하려는 설계로, 작은 모델(E2B/E4B)에서도 품질이 잘 나오는 이유로 꼽힙니다.
06멀티모달 — 누가 뭘 받는가
Gemma 4의 멀티모달 지원은 모델 사이즈에 따라 의외로 교차합니다. 작은 모델이 더 많은 모달리티를 받는 구간이 있어요.
| 모달리티 | E2B | E4B | 26B A4B | 31B |
|---|---|---|---|---|
| 텍스트 입력 | ✓ | ✓ | ✓ | ✓ |
| 이미지 입력 | ✓ | ✓ | ✓ | ✓ |
| 오디오 입력 | ✓ | ✓ | — | — |
| 비디오 입력 (최대 60초) | ✓ (오디오 포함) | ✓ (오디오 포함) | ✓ (오디오 없음) | ✓ (오디오 없음) |
| 텍스트 출력 | ✓ | ✓ | ✓ | ✓ |
작은 모델(E2B/E4B)만 오디오를 받습니다. 왜? 구글은 이 모델들을 온디바이스 음성 인터페이스에 쓰도록 명시적으로 설계했기 때문이에요. Android/Jetson 같은 엣지에서 "말하면 답하는" 모델을 돌리는 시나리오에 무게를 실은 선택입니다.
07하드웨어 예산 — 어디서 돌릴 수 있나
| 모델 | bf16 (원본) | int4 양자화 | 현실적 타겟 |
|---|---|---|---|
| E2B | ~10GB | ~2~3GB | 스마트폰, Raspberry Pi, Jetson Orin Nano |
| E4B | ~16GB | ~4GB | MacBook (M 시리즈), 엣지 에이전트 |
| 26B A4B | ~50GB | ~15~20GB | RTX 4090 / A6000 |
| 31B Dense | ~60GB | ~20~25GB | H100 80GB ×1 / A100 ×1 |
31B의 설계 의도가 명확합니다. "프런티어급 품질을 H100 한 장으로 올려라." GLM 5.1 같은 700B+ 모델을 돌리려면 최소 A100 4장이 필요한 것과 대조됩니다. 같은 예산이면 Gemma 4 31B를 4장에서 병렬로 돌릴 수 있다는 뜻이에요.
08Gemma 4는 언제 선택해야 하나
| 상황 | 권장 | 이유 |
|---|---|---|
| 모바일·엣지·임베디드 에이전트 | Gemma 4 E2B/E4B | 온디바이스 실행을 위해 설계된 유일한 프런티어급 오픈모델 |
| H100 한 장 예산의 자체 호스팅 | Gemma 4 31B | bf16이 H100 80GB 한 장에 맞는 유일한 오픈 프런티어 |
| RTX 4090급에서 고속 응답 | Gemma 4 26B A4B | 활성 4B MoE로 체감 속도 우수 · 256K 컨텍스트 |
| 한국어 글쓰기·요약 중심 | Claude Opus 4.7 / ChatGPT | 한국어 생성 품질은 여전히 클로즈드 프런티어 우위 |
| 단일 초장시간 자율 실행 | GLM 5.1 | 8시간 자율 실행 내성은 현 시점 오픈 최강 |
| 감시 비용을 아끼고 싶을 때 | Claude Opus 4.7 | 매니지드·안정성 프리미엄 |
정리하면, Gemma 4는 "오픈 + 온디바이스 + 한 장의 GPU"가 핵심 키워드입니다. 구글은 이번 릴리스로 "오픈모델 = 중국 모델" 구도에 균형을 맞추고, 동시에 Android/Pixel/Chrome 생태계에서 쓰일 로컬 AI의 기반을 깔았어요.
핵심 정리
- Gemma 4는 2026-04-02 Google DeepMind가 Apache 2.0으로 공개한 4종 오픈 웨이트 모델 패밀리
- 31B Dense가 Arena AI 오픈 3위 (Elo 1452), 26B A4B가 오픈 6위 — 20배 큰 모델과 경쟁
- 주요 지표: MMLU Pro 85.2, AIME 2026 89.2, LiveCodeBench v6 80.0
- 256K 컨텍스트, 140개 언어, 텍스트·이미지·오디오·60초 비디오까지 받는 멀티모달
- 스마트폰의 E2B부터 H100 한 장의 31B까지 — "쓸 하드웨어 골라 붙이는" 연속 스펙트럼
- 초장시간 자율 실행이 필요하면 GLM 5.1, 매니지드가 필요하면 Opus 4.7과 보완적으로 쓰는 게 현실 해답
같은 달 공개된 GLM 5.1, Claude Opus 4.7과 함께 읽으면 2026년 상반기 모델 경쟁이 "크기"가 아니라 "배치 영역"에서 갈리고 있다는 그림이 선명해집니다. 모델 선택의 큰 틀은 Claude vs ChatGPT vs Gemini 실전 비교에서 이어 보세요.
자주 묻는 질문
Gemma 4는 언제 누가 공개했나요?
google/gemma-4-* 리포지토리, Kaggle, Ollama, Google AI Studio, Vertex AI, NVIDIA NIM,
vLLM, llama.cpp 등 주요 플랫폼에서 공개 당일부터 바로 사용할 수 있습니다.