GPT-5.5 — OpenAI가 Codex 엔진을 통째로 갈아끼운 "리얼 워크" 모델
2026년 4월 23일, OpenAI가 GPT-5.5를 공개했습니다. GPT-4.5 이후 처음으로 "완전히 재학습된 베이스 모델"이라는 점, 그리고 약 4백만 명의 주간 개발자가 쓰는 Codex의 기본 엔진을 GPT-5.4에서 곧장 교체했다는 점이 가장 큰 사건입니다. 숫자로는 Terminal-Bench 2.0 82.7%, GDPval 84.9%, OSWorld-Verified 78.7%.
지난 한 달은 모델 시장의 격변기였습니다. Claude Opus 4.7이 코딩 벤치마크의 천장을 다시 올렸고, Gemma 4는 31B로 400B급을 잡았으며, GLM 5.1은 8시간 자율 실행으로 오픈 웨이트의 한계를 넓혔습니다. 그 사이 OpenAI는 Codex for Almost Everything으로 "코딩 CLI에서 운영 엔진"으로의 제품 확장을 끝낸 상태였고요. GPT-5.5는 그 운영 엔진의 두뇌를 통째로 교체한 릴리스입니다.
01한 줄 요약 — "Real Work를 끝내는 모델"
OpenAI 본문의 슬로건은 "a new class of intelligence for real work"입니다. '리얼 워크(real work)'는 단발성 질의응답이 아니라 여러 도구를 넘나들며 컨텍스트를 추론하고 행동을 누적해 끝내는 일을 가리킵니다. 구체적으로 OpenAI가 강조한 강점 영역은 네 가지예요.
- 에이전틱 코딩 — 사용 도구가 늘어난 환경에서 코드를 쓰고 실행하고 수정하는 능력
- 컴퓨터 사용 — 실제 OS·앱·브라우저에서 화면을 읽고 조작하는 능력
- 지식 노동 — 문서·스프레드시트·리서치를 합쳐 결과물을 만드는 능력
- 초기 과학 연구 — 데이터와 가설을 연결해 다음 실험을 제안하는 능력
GPT-5.4가 "답을 더 잘하는 모델"이었다면, GPT-5.5는 "일을 끝까지 들고 가는 모델"로 한 칸 옮겼습니다.
02출시 정보와 접근 경로
| 항목 | GPT-5.5 |
|---|---|
| 발표일 | 2026년 4월 23일 |
| 이전 버전 | GPT-5.4 (2026-03-05) — 7주 간격 |
| 학습 방식 | GPT-4.5 이후 첫 완전 재학습 베이스 모델 |
| 변형 | GPT-5.5 · GPT-5.5 Thinking · GPT-5.5 Pro |
| ChatGPT 가용 플랜 | Plus · Pro · Business · Enterprise · Pro 변형은 Pro·Business·Enterprise 한정 |
| Codex 가용 플랜 | Plus · Pro · Business · Enterprise · Edu · Go (400K 컨텍스트) |
| API 가용 시점 | 출시일 기준 미공개 (very soon) · Codex 안에서는 즉시 호출 가능 |
| API 단가(예정) | $5 / $30 per 1M tokens · 1M 컨텍스트 · Batch·Flex 50% 할인 |
| 인프라 | NVIDIA 인프라 위에서 Codex 서빙 |
03벤치마크 — 숫자가 말하는 점프
| 벤치마크 | GPT-5.5 | 비교군 | 의미 |
|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | Opus 4.7 69.4% · Gemini 3.1 Pro 68.5% | 새 SOTA |
| GDPval (44개 직군) | 84.9% | 지식 노동 종합 | 새 SOTA |
| OSWorld-Verified | 78.7% | 컴퓨터 사용 | 에이전트 환경 SOTA |
| SWE-Bench Pro | 58.6% | 코딩 종합 | Opus 4.7 우위 유지 |
| 토큰당 latency | GPT-5.4 동일 | 실서빙 기준 | 속도 손해 없음 |
| 같은 작업 토큰 사용량 | 크게 감소 | Codex 작업 기준 | 비용·시간 동시 절감 |
가장 눈에 띄는 건 Terminal-Bench 2.0 점수입니다.
복합적인 커맨드라인 워크플로를 끝까지 끌고 가는 능력을 측정하는데,
GPT-5.5의 82.7%는 Claude Opus 4.7(69.4%)·Gemini 3.1 Pro(68.5%)를 두 자릿수 차이로 따돌린 수치예요.
터미널은 곧 도구 선택·에러 핸들링·재시도 루프의 종합 시험장입니다. 여기서의 점프는 단일 응답 품질이 아니라 "에이전트가 실제로 일을 끝낸다"는 신호에 가깝습니다.
한편 SWE-Bench Pro(58.6%)는 Claude Opus 4.7이 여전히 우위입니다.
OpenAI는 단일 코딩 정답 적중률이 아니라 "주변 도구를 조합해 일을 끝내는 비율"로 경쟁축을 옮기고 있어요.
팀에서 모델을 고를 때, 단발 코딩 품질을 보면 Opus 4.7, 자율 실행·복합 워크플로 완수를 보면 GPT-5.5라는 이중 트랙이 당분간 유지될 가능성이 큽니다.
04Codex가 받은 가장 큰 업그레이드
OpenAI가 강조하는 "real work" 메시지에서 가장 직관적인 수혜자는 Codex입니다. 지난 4월 16일 Codex가 9가지 기능을 한 번에 얹은 직후 일주일 만에 그 위의 모델 자체가 GPT-5.5로 교체됐어요. Codex 측의 변화는 세 가지로 요약됩니다.
아키텍처와 실패 지점을 함께 본다
초기 테스터 보고에 따르면 GPT-5.5는 시스템 아키텍처와 실패 지점을 더 잘 짚어내, 코드베이스 어디를 고쳐야 하는지와 그 수정이 다운스트림에 어떤 영향을 주는지를 함께 예측합니다. 단일 함수 수정 수준이 아니라 모듈 경계를 넘는 영향 분석이 동작한다는 의미예요.
같은 일을 더 적은 토큰으로
GPT-5.5는 GPT-5.4와 토큰당 latency가 같은 채로, Codex의 동일 작업을 끝낼 때 사용하는 토큰 수가 크게 감소했습니다. 이게 곧 비용 절감 + 응답 시간 단축으로 이어지므로, API 단가가 두 배가 됐다는 사실이 Codex 사용 경험에서는 어느 정도 상쇄됩니다.
Codex 안에서 400K, API에서는 1M
Codex 환경의 GPT-5.5는 400K 컨텍스트 윈도우로 동작합니다. API가 열리면 표준 가격 그대로 1M 컨텍스트를 제공해, 대형 모노레포·장문 리서치 같은 시나리오에 곧장 들어갈 수 있어요.
Codex가 약 4백만 명의 주간 개발자가 쓰는 제품이라는 점을 감안하면, 모델 교체의 체감 임팩트는 단순한 벤치마크 점프보다 훨씬 큽니다. 같은 인터페이스 그대로 두뇌만 바꿨고, 그 두뇌가 "한 작업을 끝까지 끌고 가는 능력"에 특화돼 있어요.
05세 가지 변형 — Standard / Thinking / Pro
| 변형 | 포지션 | 차별 강점 | 가용 플랜 |
|---|---|---|---|
| GPT-5.5 | 기본 답변용 | 빠른 응답 + 새 베이스 지능 | Plus · Pro · Business · Enterprise |
| GPT-5.5 Thinking | 어려운 문제용 추론 | 스프레드시트·정돈된 프런트엔드 코드·어려운 수학·이미지 이해·도구 사용·멀티 소스 리서치 | Plus · Pro · Business · Enterprise |
| GPT-5.5 Pro | 가장 어려운 작업용 최고 사양 | 난이도와 결과물 품질 모두에서 한 단계 점프, latency까지 개선 | Pro · Business · Enterprise |
OpenAI는 GPT-5.5 Pro에 대해 "early testers는 ChatGPT가 다룰 수 있는 작업의 난이도와 품질 양쪽에서의 step up이며, latency가 개선돼 demanding한 작업에서 훨씬 실용적이라고 말한다"고 인용했습니다. Plus 등 일반 플랜에서는 Pro 변형이 잠겨 있고, Pro/Business/Enterprise만 접근 가능합니다.
06API 가격 — 두 배가 된 단가, 절반이 된 토큰
| 모델 | 입력 / 출력 (per 1M tokens) | 컨텍스트 | 비고 |
|---|---|---|---|
| GPT-5.4 (참고) | $2.50 / $15 | 400K | 현재 안정 라인 |
| GPT-5.5 (예정) | $5 / $30 | 1M | 2× 단가 · Batch·Flex 50% 할인 |
| Claude Opus 4.7 (참고) | $15 / $75 | 1M | 코딩 단일 SOTA |
단순 단가는 GPT-5.4 대비 두 배지만, 같은 일을 끝낼 때 토큰 사용량이 줄어드는 만큼 실질 비용 차이는 단가 차이보다 작을 가능성이 높습니다. OpenAI 본문도 "더 비싸지만 더 똑똑하고, 토큰당 효율이 훨씬 좋다"는 양면 메시지를 명시했어요. Batch·Flex 50% 할인은 다음과 같은 케이스에 명확히 유리합니다.
- Batch — 야간 배치 임베딩·요약·라벨링처럼 즉시성이 약한 잡
- Flex — 대량 트래픽을 시간대 분산해 처리하는 백엔드 잡
반대로 사용자 직접 응답이 필요한 경로(웹·모바일 채팅)는 표준 가격이 그대로 들어가니, "내 트래픽 중 즉시성이 필요 없는 비율"을 따로 측정해두면 GPT-5.5 전환 시 비용 시뮬레이션이 정확해집니다.
07경쟁 지도 — vs Opus 4.7 · vs Gemini 3.1 Pro · vs GLM 5.1
| 모델 | 강점 영역 | GPT-5.5와의 관계 |
|---|---|---|
| Claude Opus 4.7 | SWE-Bench Pro 단일 코딩, xhigh 추론, /ultrareview | 코딩 단발 정답률 우위 유지 |
| Gemini 3.1 Pro | 롱컨텍스트, 멀티모달, Google 생태 통합 | Terminal-Bench 격차 큼 |
| GLM 5.1 | 오픈 웨이트, 8시간 자율 실행, 가격 1/5~1/8 | 비용·주권 차별화 유지 |
| Gemma 4 | 온디바이스, 31B로 400B급, Apache 2.0 | 엣지·로컬 영역 비경쟁 |
| GPT-5.4-Cyber | 사이버 특화, KYC 게이팅 | 베이스가 GPT-5.4 → 후속 GPT-5.5-Cyber 가능성 |
한 줄로 정리하면 "단발 코딩 정답은 Opus 4.7, 일을 끝까지 들고 가는 에이전트는 GPT-5.5"입니다. 실제 팀 의사결정에서는 다음 분기 정도는 두 모델을 작업 카테고리별로 라우팅하는 형태가 합리적이에요.
- 한 함수 수정·정밀 리팩터·코드 리뷰 → Opus 4.7
- 멀티스텝 마이그레이션·CI 디버깅·터미널 기반 자동화 → GPT-5.5 (Codex)
- 지식 노동 산출물(문서·시트) → GPT-5.5 Thinking
- 난이도 최상위 작업·고비용 허용 → GPT-5.5 Pro
- 가격·주권 우선 → GLM 5.1
08한계와 주의할 점
- API 가용 시점 — 출시일에 API가 같이 열리지 않았습니다. OpenAI는 "안전·보안 요구가 별도라 파트너와 협의 중, 매우 곧"이라고 명시했지만, 정확한 날짜는 미공개입니다. API 키 기반 시스템 설계는 GPT-5.4를 기준선에 두고, 전환 시점은 별도 마일스톤으로 잡아두세요.
- 단가 두 배 — 단순 비용으로 보면 부담입니다. 토큰 효율이 보전해 줄 비율은 작업 종류에 따라 크게 다르니, 실제 워크로드의 입력/출력 비율을 먼저 측정한 뒤 비용 시뮬레이션을 돌리는 편이 안전합니다.
- SWE-Bench Pro 우위는 여전히 Opus 4.7 — "코딩 단일 모델 점수 기준"으로 GPT-5.5를 도입하는 건 데이터에 안 맞습니다. GPT-5.5의 가치는 도구·환경·시간을 합친 워크플로 완수율에 있어요.
- 완전 재학습 베이스의 회귀 위험 — 베이스를 새로 학습한 모델은 응답 톤·포맷 선호·코드 컨벤션이 미묘하게 달라질 수 있습니다. 프롬프트 템플릿을 GPT-5.4에 맞춰 튜닝해 둔 팀은, 출력 일관성 측정을 작은 표본부터 다시 돌려보세요.
- 플랫폼 락인 가속 — Codex의 메모리·플러그인·400K 컨텍스트가 OpenAI 계정에 묶입니다. 중립 라우팅이 필요한 조직은 동일 시나리오를 Claude Code나 오픈 웨이트로 재현 가능한지 교차 테스트를 권합니다.
09지금 GPT-5.5로 갈아타야 할 팀
| 상황 | 권장 | 이유 |
|---|---|---|
| Codex로 프로덕션 코드를 굴리는 팀 | GPT-5.5 | 같은 latency · 더 적은 토큰 · 더 깊은 이해 |
| 야간 자동화·복합 마이그레이션 | GPT-5.5 | Terminal-Bench 점프 + Codex 운영 기능 누적 |
| 지식 노동 산출물 자동화 | GPT-5.5 Thinking | GDPval 84.9 · 멀티 소스 리서치 강화 |
| 난이도 최상위 작업·고비용 허용 | GPT-5.5 Pro | 난이도·품질 동시 점프 · latency까지 개선 |
| 단발 코딩 정확도 최우선 | Claude Opus 4.7 | SWE-Bench Pro 우위 유지 |
| API 즉시 전환이 필요 | GPT-5.4 유지 | GPT-5.5 API 미공개 |
| 가격·주권 우선 | GLM 5.1 / Gemma 4 | 오픈 웨이트 + 비용 1/5~1/8 |
체크리스트를 단순화하면, 지금 Codex를 업무에 깊게 쓰고 있다면 전환 결정은 사실상 끝났다고 봐도 됩니다. 엔진이 자동으로 바뀌었으니까요. 그 외 팀은 (1) API 공개 시점을 모니터링하고, (2) 워크로드의 단발성 vs 멀티스텝 비율을 측정해 GPT-5.5와 Opus 4.7 사이 라우팅을 정의해두는 게 다음 분기의 가장 큰 의사결정입니다.
핵심 정리
- 2026-04-23 공개 · GPT-5.4 출시 7주 만 · GPT-4.5 이후 첫 완전 재학습 베이스 모델
- 벤치마크 — Terminal-Bench 2.0 82.7% · GDPval 84.9% · OSWorld-Verified 78.7% · SWE-Bench Pro 58.6%
- Codex 기본 엔진을 GPT-5.4 → GPT-5.5로 교체 · 400K 컨텍스트 · 토큰 효율 개선 · 약 4M 주간 개발자 즉시 수혜
- 변형: GPT-5.5 / Thinking / Pro · ChatGPT Plus·Pro·Business·Enterprise 즉시 배포 · Pro 변형은 Pro 이상
- API: 1M 컨텍스트, $5/$30 per 1M tokens(Batch·Flex 50% 할인) · 출시일에는 미공개, "very soon"
- 경쟁: 단발 코딩 정답률은 Opus 4.7, 멀티스텝 워크플로 완수율은 GPT-5.5로 라우팅 권장
같은 흐름에서 Codex for Almost Everything(엔진 위에 얹은 9가지 기능), Claude Opus 4.7(코딩 단일 SOTA), GPT-5.4-Cyber(사이버 특화 변형)를 함께 읽으면 2026년 2분기 "에이전틱 코딩 + 운영 엔진" 경쟁의 지도가 또렷해집니다. 모델 선택 전반은 Claude vs ChatGPT vs Gemini 실전 비교로 이어집니다.
자주 묻는 질문
GPT-5.5는 언제 공개됐고 무엇이 달라졌나요?
GPT-5.5의 벤치마크 성적은 어느 정도인가요?
82.7%로 Claude Opus 4.7(69.4%)·Gemini 3.1 Pro(68.5%)를 앞섰고,
GDPval(44개 직군의 지식 노동 평가)에서 84.9%,
OSWorld-Verified(에이전트의 실제 컴퓨터 환경 조작)에서 78.7%,
SWE-Bench Pro에서 58.6%를 기록했습니다.
코딩 단일 지표인 SWE-Bench Pro에서는 Claude Opus 4.7이 여전히 우위지만,
터미널·컴퓨터 제어·복합 지식 노동 영역에서는 GPT-5.5가 새 최고를 잡았습니다.
GPT-5.5는 Codex를 어떻게 바꿨나요?
GPT-5.5 / GPT-5.5 Thinking / GPT-5.5 Pro의 차이는 무엇인가요?
API에서는 언제 쓸 수 있고 가격은 어떻게 되나요?
$5 입력 / $30 출력 per 1M tokens(GPT-5.4 $2.50/$15 대비 약 두 배),
Batch·Flex 모드는 절반 가격으로 제공됩니다.
그동안에는 Codex에서 ChatGPT 로그인으로 GPT-5.5를 호출할 수 있습니다.