릴리스 노트

GLM 5.1 — 8시간 동안 혼자 리눅스 데스크톱을 만든 오픈소스 AI

Z.ai가 2026년 4월 8일 조용히 공개한 GLM 5.1이 업계를 흔들고 있습니다. SWE-Bench Pro에서 GPT-5.4·Claude Opus 4.6·Gemini 3.1 Pro를 제쳤고, 영상 속 데모에서는 사람이 한 번도 개입하지 않은 8시간 동안 리눅스 스타일 데스크톱과 50여 개 앱을 만들어냈어요. 그것도 MIT 라이선스로요.

GLM 5.1이 흥미로운 건 숫자가 아니라 전제의 변화 때문입니다. 지금까지 "오픈 웨이트 모델은 유료 프론티어 모델과 경쟁은 못 하고 가격으로 승부한다"가 기본 가정이었어요. GLM 5.1은 그 가정을 SWE-Bench Pro 한 벤치마크에서, 그것도 오픈소스 최초로 뒤집었습니다.

01한 줄 요약 — 오픈 웨이트가 프론티어를 이긴 순간

Z.ai(구 Zhipu AI)가 2026년 4월 8일 공개한 GLM 5.1은 세 가지 지점에서 주목할 가치가 있습니다.

  • 최고 성능 — SWE-Bench Pro 58.4로 GPT-5.4·Claude Opus 4.6·Gemini 3.1 Pro를 모두 제침
  • 장시간 자율 실행 — 한 작업에 최대 8시간, 수백 라운드의 도구 호출 중 전략 표류 없음
  • MIT 라이선스 — 가중치 공개, 상업적 이용 허용, Hugging Face에서 다운로드 가능

Claude Opus 4.7이 "감시 비용이 비싼 작업을 맡길 만큼 신뢰할 수 있다"에 초점을 맞췄다면, GLM 5.1은 같은 방향을 오픈 웨이트로 해낸 것이 핵심입니다. 조직 내부 데이터로 파인튜닝하거나 온프레미스 배포까지 고려할 수 있는 첫 프론티어급 옵션이 된 셈이에요.

02출시 정보와 접근 경로

항목GLM 5.1
공개일2026년 4월 8일
개발사Z.AI (구 Zhipu AI / 智谱AI)
라이선스MIT — 오픈 웨이트, 상업적 이용 허용
총 파라미터754B
활성 파라미터≈ 40B / token (MoE 라우팅)
컨텍스트 길이200K 입력 / 128K 출력
훈련 하드웨어Huawei Ascend NPU (NVIDIA 의존성 없음)
API 엔드포인트api.z.ai · BigModel.cn · OpenRouter
오픈 웨이트 배포Hugging Face zai-org/GLM-5.1 · ModelScope · Ollama
로컬 런타임SGLang · vLLM · xLLM · Transformers · KTransformers · llama.cpp

특히 눈여겨볼 지점은 Huawei Ascend로 학습했다는 사실입니다. 미·중 반도체 규제 국면에서 "NVIDIA에 의존하지 않고도 프론티어급 LLM을 만들 수 있다"는 실증이라, AI 공급망 관점에서 단순 기술 뉴스 이상의 함의를 가집니다.

03벤치마크 — 숫자로 보는 위치

Z.ai가 공개한 주요 지표를 코딩·에이전트·추론 중심으로 정리했습니다. 모든 수치는 Z.ai 공식 발표 기준입니다.

벤치마크GLM 5.1비고
SWE-Bench Pro58.4GPT-5.4·Opus 4.6·Gemini 3.1 Pro 모두 상회 (오픈 1위)
CyberGym (1,507 tasks)68.7GLM-5 48.3 → +20pp
Terminal-Bench 2.063.5 (66.5*)*Claude Code 스캐폴딩 사용 시
MCP-Atlas71.8MCP 도구 사용 능력
τ³-Bench70.6멀티턴 에이전트
BrowseComp68.0브라우저 탐색
AIME 202695.3수학 추론
HMMT Nov 202594.0수학 경시
GPQA-Diamond86.2대학원 수준 과학

SWE-Bench Pro는 실제 GitHub 이슈를 에이전트가 해결하는 능력을 재는 벤치마크라, 이 한 줄이 주는 메시지는 명확합니다. "실제 소프트웨어 엔지니어링에서는 더 이상 오픈 웨이트가 뒤처진다고 말하기 어렵다."

벤치마크는 실제 업무 성능과 항상 일치하지는 않습니다. 하지만 여러 벤치마크에서 일관되게 상위권이라는 사실은 무시하기 어려운 신호예요.

04"8시간 자율 실행" — 리눅스 데스크톱 데모의 의미

공개 시점에 가장 화제가 된 건 벤치마크보다 8시간 데모 영상이었습니다. GLM 5.1이 사람이 한 번도 개입하지 않은 상태로 리눅스 스타일 데스크톱 환경을 처음부터 만들어낸 사례입니다.

8h
자율 실행
655
Iteration
50+
앱 완성
6.9×
벡터DB 쓰루풋

데모에서 GLM 5.1이 만든 것:

  • 데스크톱 셸 — 윈도우 매니저, 작업 표시줄, 멀티 워크스페이스
  • 파일 브라우저 — 디렉터리 트리, 드래그앤드롭, 미리보기
  • 터미널 에뮬레이터 — 탭, 기본 셸 명령 파싱
  • 텍스트 에디터 — 신택스 하이라이트, 세션 복원
  • 시스템 모니터 — CPU/메모리/네트워크 실시간 그래프
  • 플레이 가능한 게임 여러 개 — 데모 영상에서 실제로 클릭해서 실행
  • 그리고 덤으로, 같은 실행 안에서 벡터 데이터베이스 쿼리 처리량을 6.9배로 끌어올리는 최적화까지

이 장면의 핵심은 결과물의 완성도가 아니라 실패 없이 8시간을 달릴 수 있었다는 점입니다. 대부분의 에이전트는 50~100 라운드 안에 맥락을 잃거나, 같은 도구를 반복 호출하며 진전 없이 예산만 태웁니다. GLM 5.1은 655 iteration 동안 목표를 잃지 않고 계획·실행·테스트·수정을 돌렸어요.

05아키텍처 — 754B MoE + DSA로 어떻게 성능을 뽑았나

GLM 5.1의 성능 핵심은 두 가지 기법의 결합에 있습니다.

01 — 혼합 전문가

Mixture of Experts (MoE) — 754B 중 40B만 활성

모델은 총 754B 파라미터를 가지지만, 토큰 하나를 처리할 때 실제로 쓰이는 건 약 40B입니다. "전문가" 네트워크 중 필요한 몇 개만 깨우는 구조여서, 추론 비용은 40B 모델 수준인데 능력은 754B를 활용합니다. 이게 오픈 웨이트로도 현실적인 지연 시간과 비용을 낼 수 있는 이유.

02 — 희소 어텐션

Dynamic Sparse Attention (DSA)

긴 컨텍스트에서 어텐션이 2차로 폭발하는 문제를, DeepSeek 계열 연구를 바탕으로 동적으로 중요한 토큰만 선택해 해소했습니다. 그래서 200K 입력을 써도 메모리·지연이 전통적 풀 어텐션 모델처럼 터지지 않아요. 장시간 코딩처럼 히스토리가 쌓여도 유지가 되는 배경.

03 — 비동기 에이전트 RL

장기 상호작용에서 "학습이 끊기지 않는" 강화학습

Z.ai는 생성과 훈련을 분리한 비동기 강화학습 인프라를 썼다고 밝힙니다. 기존 에이전트 RL이 수백 라운드를 지나면 보상 신호가 희석돼 "조기 고갈"에 빠지는 문제를, 별도 알고리즘으로 완화했다는 주장이에요. 8시간 동안 전략 표류 없이 달린 데모의 배경에 있는 핵심 기법.

04 — Huawei Ascend

NVIDIA 없이도 프론티어급 학습 가능

학습은 Huawei Ascend NPU에서 수행되었습니다. 미·중 반도체 규제 국면에서 "프론티어 LLM = NVIDIA H100 군집"이라는 전제를 흔드는 실증이라, 오픈소스 커뮤니티와 지정학 양쪽에서 무게 있게 받아들여지고 있어요.

06가격 비교 — Claude Opus 4.7과 얼마나 다른가

모델 · 경로입력 / 1M출력 / 1M비고
GLM 5.1 · Z.ai (reasoning)$1.40$4.40공식 API
GLM 5.1 · OpenRouter$0.95$3.15최저가 라우팅
Claude Opus 4.7$5.00$25.00Anthropic 직접
출력 토큰 기준 차이GLM 5.1이 약 1/5~1/8 수준

에이전트 워크플로우에서 출력 토큰이 비용의 대부분을 차지한다는 점을 감안하면, "Opus 4.7 한 번 돌릴 비용으로 GLM 5.1을 5~8번 돌릴 수 있다"가 현실적인 프레임입니다. 긴 자율 실행일수록 비용 차이는 누적돼 커져요.

가격은 움직이는 숫자입니다. 각 공급자의 현재 가격 페이지를 반드시 확인하세요. OpenRouter, FriendliAI, SiliconFlow 등 3자 공급자 간에도 블렌디드 가격이 달라집니다.

07한계와 실전에서 고려할 점

"벤치마크 1위 + 8시간 데모 + 1/5 가격"이면 갈아타야 할까요? 현실은 그렇게 단순하지 않아요.

  1. 한국어 품질 — 벤치마크는 대부분 영어 중심입니다. 한국어 글쓰기·요약 품질은 Claude·GPT 대비 아직 덜 검증됐습니다. 한국어 중심 서비스라면 실전 비교 글의 방법을 따라 동일 조건으로 직접 돌려보세요.
  2. 데이터 주권 / 컴플라이언스 — Z.ai 공식 API는 중국 기반 서비스입니다. 금융·공공·의료처럼 데이터 경로에 민감한 조직은 오픈 웨이트로 다운로드해 자체 배포하거나, OpenRouter 같은 중립 라우팅을 쓰는 편이 안전합니다.
  3. 지연 시간 — 200K 입력 + DSA라 맥락은 버티지만, 첫 토큰 지연(TTFT)은 공급자에 따라 편차가 큽니다. 채팅 UX 용도라면 체감 속도를 먼저 재보세요.
  4. 로컬 실행 부담 — 754B는 소비자 GPU에서는 양자화로도 버겁습니다. Q5_K_M 기준 96~128GB RAM이 필요하고 프로덕션 성능은 A100 80GB 4장 수준. 개인 실험은 IQ2_M / IQ4_XS 양자화로 시작하는 게 현실적이에요.
  5. 도구 호환성 — MCP·함수 호출·구조화 출력·OpenAI SDK 호환 등 주요 기능은 모두 지원. 기존 파이프라인 이식 비용은 낮은 편입니다.

08GLM 5.1을 언제 써야 하나

상황권장이유
장시간 코딩 에이전트 · 대량 실행GLM 5.1가격 1/5, 장기 자율 실행 내성
온프레미스 / 에어갭 환경GLM 5.1오픈 웨이트, MIT 라이선스
자사 데이터로 파인튜닝 필요GLM 5.1가중치 접근 가능
중국 리전 제약이 있는 산업GLM 5.1 (셀프호스트) 또는 Opus/GPTZ.ai 직접 API는 피하고 자체 배포
최고의 한국어 글쓰기 품질Claude Opus 4.7 / ChatGPT현 시점 가장 검증된 선택
즉시 운영 · 감시 비용 최소화Claude Opus 4.7매니지드 · 안정성 프리미엄

단순하게 말하면 이렇습니다. "비용·주권이 중요한 에이전트 자동화 = GLM 5.1", "감시 안 하고도 맡기려는 매니지드 워크플로우 = Opus 4.7". 두 모델은 겹치는 시장보다 보완하는 시장이 더 큽니다.

핵심 정리

  • GLM 5.1은 2026-04-08 Z.ai가 MIT 라이선스로 공개한 754B MoE + DSA 모델
  • SWE-Bench Pro 58.4로 GPT-5.4·Opus 4.6·Gemini 3.1 Pro 상회 (오픈소스 최초)
  • 655 iteration, 8시간 자율 실행으로 리눅스 데스크톱 + 앱 50+ 완성
  • 가격은 Opus 4.7의 약 1/5~1/8, NVIDIA 의존 없이 Huawei Ascend로 학습
  • 한국어 품질·지연·주권 요구 사항에 따라 Opus 4.7과 보완적으로 쓰는 게 현실 해답

같은 주에 공개된 Claude Opus 4.7과 함께 읽으면, "장시간 자율 실행"이 2026년 상반기 모델 경쟁의 공통 축이 된 맥락이 더 선명해집니다. 모델 선택 전체 그림은 Claude vs ChatGPT vs Gemini 실전 비교에서 이어 보세요.

자주 묻는 질문

GLM 5.1은 언제 누가 공개했나요?
중국 Z.ai(구 Zhipu AI)가 2026년 4월 8일 오픈 웨이트로 공개했습니다. 라이선스는 MIT이므로 상업적 이용이 허용되며, Hugging Face의 zai-org/GLM-5.1, ModelScope, Ollama, 그리고 api.z.ai·BigModel.cn API를 통해 사용할 수 있습니다.
GLM 5.1의 SWE-Bench Pro 점수는 얼마이고 경쟁 모델과 어떻게 비교되나요?
GLM 5.1은 SWE-Bench Pro에서 58.4점을 기록해, Anthropic Claude Opus 4.6, OpenAI GPT-5.4, Google Gemini 3.1 Pro를 모두 제치고 1위를 기록했습니다. 오픈 웨이트 모델이 이 벤치마크에서 최고 점수를 차지한 것은 이번이 처음입니다.
"8시간 자율 실행 리눅스 데스크톱 데모"는 실제로 어떤 내용이었나요?
GLM 5.1이 사람 개입 없이 655 iteration 동안 스스로 계획·구현·테스트·수정을 반복하며 리눅스 스타일 데스크톱 환경을 처음부터 만든 사례입니다. 파일 브라우저, 터미널, 텍스트 에디터, 시스템 모니터, 플레이 가능한 게임을 포함해 50여 개 앱이 동작하는 수준까지 완성했고, 같은 시간 범위 안에서 벡터 데이터베이스 쿼리 처리량을 6.9배로 끌어올린 최적화도 함께 수행했습니다.
GLM 5.1의 API 가격은 Claude Opus 4.7과 얼마나 차이 나나요?
Z.ai 공식 추론 API 기준 입력 $1.40 / 출력 $4.40 per 1M tokens 수준이며, OpenRouter를 통하면 입력 $0.95 / 출력 $3.15까지 내려갑니다. 동일 단위에서 Claude Opus 4.7의 입력 $5 / 출력 $25와 비교하면 출력 토큰 기준 약 1/5~1/8 수준입니다. 다만 라우팅·지연·지역별 가용성에 따라 실제 체감 비용은 달라질 수 있으니 공식 가격 페이지에서 최신값을 확인하세요.
GLM 5.1을 로컬로 돌리려면 어떤 하드웨어가 필요한가요?
총 파라미터는 754B이지만 토큰당 활성 파라미터는 약 40B입니다. 양자화 버전 기준 대략 IQ2_M은 32GB RAM, IQ4_XS는 64GB RAM, Q5_K_M은 96~128GB RAM이 권장됩니다. 프로덕션급 성능을 원한다면 NVIDIA A100 80GB 4장 또는 동급 구성이 필요합니다. 학습은 Huawei Ascend NPU에서 수행되어 NVIDIA 의존성이 없다는 점도 특이점입니다.