릴리스 노트

GPT-5.5 — OpenAI가 Codex 엔진을 통째로 갈아끼운 "리얼 워크" 모델

2026년 4월 23일, OpenAI가 GPT-5.5를 공개했습니다. GPT-4.5 이후 처음으로 "완전히 재학습된 베이스 모델"이라는 점, 그리고 약 4백만 명의 주간 개발자가 쓰는 Codex의 기본 엔진을 GPT-5.4에서 곧장 교체했다는 점이 가장 큰 사건입니다. 숫자로는 Terminal-Bench 2.0 82.7%, GDPval 84.9%, OSWorld-Verified 78.7%.

지난 한 달은 모델 시장의 격변기였습니다. Claude Opus 4.7이 코딩 벤치마크의 천장을 다시 올렸고, Gemma 4는 31B로 400B급을 잡았으며, GLM 5.1은 8시간 자율 실행으로 오픈 웨이트의 한계를 넓혔습니다. 그 사이 OpenAI는 Codex for Almost Everything으로 "코딩 CLI에서 운영 엔진"으로의 제품 확장을 끝낸 상태였고요. GPT-5.5는 그 운영 엔진의 두뇌를 통째로 교체한 릴리스입니다.

01한 줄 요약 — "Real Work를 끝내는 모델"

OpenAI 본문의 슬로건은 "a new class of intelligence for real work"입니다. '리얼 워크(real work)'는 단발성 질의응답이 아니라 여러 도구를 넘나들며 컨텍스트를 추론하고 행동을 누적해 끝내는 일을 가리킵니다. 구체적으로 OpenAI가 강조한 강점 영역은 네 가지예요.

  • 에이전틱 코딩 — 사용 도구가 늘어난 환경에서 코드를 쓰고 실행하고 수정하는 능력
  • 컴퓨터 사용 — 실제 OS·앱·브라우저에서 화면을 읽고 조작하는 능력
  • 지식 노동 — 문서·스프레드시트·리서치를 합쳐 결과물을 만드는 능력
  • 초기 과학 연구 — 데이터와 가설을 연결해 다음 실험을 제안하는 능력
GPT-5.4가 "답을 더 잘하는 모델"이었다면, GPT-5.5는 "일을 끝까지 들고 가는 모델"로 한 칸 옮겼습니다.

02출시 정보와 접근 경로

항목GPT-5.5
발표일2026년 4월 23일
이전 버전GPT-5.4 (2026-03-05) — 7주 간격
학습 방식GPT-4.5 이후 첫 완전 재학습 베이스 모델
변형GPT-5.5 · GPT-5.5 Thinking · GPT-5.5 Pro
ChatGPT 가용 플랜Plus · Pro · Business · Enterprise · Pro 변형은 Pro·Business·Enterprise 한정
Codex 가용 플랜Plus · Pro · Business · Enterprise · Edu · Go (400K 컨텍스트)
API 가용 시점출시일 기준 미공개 (very soon) · Codex 안에서는 즉시 호출 가능
API 단가(예정)$5 / $30 per 1M tokens · 1M 컨텍스트 · Batch·Flex 50% 할인
인프라NVIDIA 인프라 위에서 Codex 서빙
흥미로운 점은 API가 아직 안 열렸는데 Codex 안에서는 GPT-5.5가 곧장 동작한다는 것입니다. Simon Willison은 출시 당일 "Codex의 ChatGPT 로그인 인증을 통해 GPT-5.5를 호출하는 비공식 백도어"를 공개적으로 다뤘어요. 팀이 API 키 기반 시스템에 GPT-5.5를 끼워넣는 건 며칠~몇 주를 더 기다려야 합니다.

03벤치마크 — 숫자가 말하는 점프

벤치마크GPT-5.5비교군의미
Terminal-Bench 2.082.7%Opus 4.7 69.4% · Gemini 3.1 Pro 68.5%새 SOTA
GDPval (44개 직군)84.9%지식 노동 종합새 SOTA
OSWorld-Verified78.7%컴퓨터 사용에이전트 환경 SOTA
SWE-Bench Pro58.6%코딩 종합Opus 4.7 우위 유지
토큰당 latencyGPT-5.4 동일실서빙 기준속도 손해 없음
같은 작업 토큰 사용량크게 감소Codex 작업 기준비용·시간 동시 절감

가장 눈에 띄는 건 Terminal-Bench 2.0 점수입니다. 복합적인 커맨드라인 워크플로를 끝까지 끌고 가는 능력을 측정하는데, GPT-5.5의 82.7%는 Claude Opus 4.7(69.4%)·Gemini 3.1 Pro(68.5%)를 두 자릿수 차이로 따돌린 수치예요. 터미널은 곧 도구 선택·에러 핸들링·재시도 루프의 종합 시험장입니다. 여기서의 점프는 단일 응답 품질이 아니라 "에이전트가 실제로 일을 끝낸다"는 신호에 가깝습니다.

한편 SWE-Bench Pro(58.6%)는 Claude Opus 4.7이 여전히 우위입니다. OpenAI는 단일 코딩 정답 적중률이 아니라 "주변 도구를 조합해 일을 끝내는 비율"로 경쟁축을 옮기고 있어요. 팀에서 모델을 고를 때, 단발 코딩 품질을 보면 Opus 4.7, 자율 실행·복합 워크플로 완수를 보면 GPT-5.5라는 이중 트랙이 당분간 유지될 가능성이 큽니다.

82.7%
Terminal-Bench 2.0
84.9%
GDPval
78.7%
OSWorld-Verified
4M
주간 Codex 사용자

04Codex가 받은 가장 큰 업그레이드

OpenAI가 강조하는 "real work" 메시지에서 가장 직관적인 수혜자는 Codex입니다. 지난 4월 16일 Codex가 9가지 기능을 한 번에 얹은 직후 일주일 만에 그 위의 모델 자체가 GPT-5.5로 교체됐어요. Codex 측의 변화는 세 가지로 요약됩니다.

01 — 더 깊은 코드 이해

아키텍처와 실패 지점을 함께 본다

초기 테스터 보고에 따르면 GPT-5.5는 시스템 아키텍처와 실패 지점을 더 잘 짚어내, 코드베이스 어디를 고쳐야 하는지그 수정이 다운스트림에 어떤 영향을 주는지를 함께 예측합니다. 단일 함수 수정 수준이 아니라 모듈 경계를 넘는 영향 분석이 동작한다는 의미예요.

02 — 토큰 효율

같은 일을 더 적은 토큰으로

GPT-5.5는 GPT-5.4와 토큰당 latency가 같은 채로, Codex의 동일 작업을 끝낼 때 사용하는 토큰 수가 크게 감소했습니다. 이게 곧 비용 절감 + 응답 시간 단축으로 이어지므로, API 단가가 두 배가 됐다는 사실이 Codex 사용 경험에서는 어느 정도 상쇄됩니다.

03 — 컨텍스트

Codex 안에서 400K, API에서는 1M

Codex 환경의 GPT-5.5는 400K 컨텍스트 윈도우로 동작합니다. API가 열리면 표준 가격 그대로 1M 컨텍스트를 제공해, 대형 모노레포·장문 리서치 같은 시나리오에 곧장 들어갈 수 있어요.

Codex가 약 4백만 명의 주간 개발자가 쓰는 제품이라는 점을 감안하면, 모델 교체의 체감 임팩트는 단순한 벤치마크 점프보다 훨씬 큽니다. 같은 인터페이스 그대로 두뇌만 바꿨고, 그 두뇌가 "한 작업을 끝까지 끌고 가는 능력"에 특화돼 있어요.

05세 가지 변형 — Standard / Thinking / Pro

변형포지션차별 강점가용 플랜
GPT-5.5 기본 답변용 빠른 응답 + 새 베이스 지능 Plus · Pro · Business · Enterprise
GPT-5.5 Thinking 어려운 문제용 추론 스프레드시트·정돈된 프런트엔드 코드·어려운 수학·이미지 이해·도구 사용·멀티 소스 리서치 Plus · Pro · Business · Enterprise
GPT-5.5 Pro 가장 어려운 작업용 최고 사양 난이도와 결과물 품질 모두에서 한 단계 점프, latency까지 개선 Pro · Business · Enterprise

OpenAI는 GPT-5.5 Pro에 대해 "early testers는 ChatGPT가 다룰 수 있는 작업의 난이도와 품질 양쪽에서의 step up이며, latency가 개선돼 demanding한 작업에서 훨씬 실용적이라고 말한다"고 인용했습니다. Plus 등 일반 플랜에서는 Pro 변형이 잠겨 있고, Pro/Business/Enterprise만 접근 가능합니다.

06API 가격 — 두 배가 된 단가, 절반이 된 토큰

모델입력 / 출력 (per 1M tokens)컨텍스트비고
GPT-5.4 (참고)$2.50 / $15400K현재 안정 라인
GPT-5.5 (예정)$5 / $301M2× 단가 · Batch·Flex 50% 할인
Claude Opus 4.7 (참고)$15 / $751M코딩 단일 SOTA

단순 단가는 GPT-5.4 대비 두 배지만, 같은 일을 끝낼 때 토큰 사용량이 줄어드는 만큼 실질 비용 차이는 단가 차이보다 작을 가능성이 높습니다. OpenAI 본문도 "더 비싸지만 더 똑똑하고, 토큰당 효율이 훨씬 좋다"는 양면 메시지를 명시했어요. Batch·Flex 50% 할인은 다음과 같은 케이스에 명확히 유리합니다.

  • Batch — 야간 배치 임베딩·요약·라벨링처럼 즉시성이 약한 잡
  • Flex — 대량 트래픽을 시간대 분산해 처리하는 백엔드 잡

반대로 사용자 직접 응답이 필요한 경로(웹·모바일 채팅)는 표준 가격이 그대로 들어가니, "내 트래픽 중 즉시성이 필요 없는 비율"을 따로 측정해두면 GPT-5.5 전환 시 비용 시뮬레이션이 정확해집니다.

07경쟁 지도 — vs Opus 4.7 · vs Gemini 3.1 Pro · vs GLM 5.1

모델강점 영역GPT-5.5와의 관계
Claude Opus 4.7SWE-Bench Pro 단일 코딩, xhigh 추론, /ultrareview코딩 단발 정답률 우위 유지
Gemini 3.1 Pro롱컨텍스트, 멀티모달, Google 생태 통합Terminal-Bench 격차 큼
GLM 5.1오픈 웨이트, 8시간 자율 실행, 가격 1/5~1/8비용·주권 차별화 유지
Gemma 4온디바이스, 31B로 400B급, Apache 2.0엣지·로컬 영역 비경쟁
GPT-5.4-Cyber사이버 특화, KYC 게이팅베이스가 GPT-5.4 → 후속 GPT-5.5-Cyber 가능성

한 줄로 정리하면 "단발 코딩 정답은 Opus 4.7, 일을 끝까지 들고 가는 에이전트는 GPT-5.5"입니다. 실제 팀 의사결정에서는 다음 분기 정도는 두 모델을 작업 카테고리별로 라우팅하는 형태가 합리적이에요.

  • 한 함수 수정·정밀 리팩터·코드 리뷰 → Opus 4.7
  • 멀티스텝 마이그레이션·CI 디버깅·터미널 기반 자동화 → GPT-5.5 (Codex)
  • 지식 노동 산출물(문서·시트) → GPT-5.5 Thinking
  • 난이도 최상위 작업·고비용 허용 → GPT-5.5 Pro
  • 가격·주권 우선 → GLM 5.1

08한계와 주의할 점

  1. API 가용 시점 — 출시일에 API가 같이 열리지 않았습니다. OpenAI는 "안전·보안 요구가 별도라 파트너와 협의 중, 매우 곧"이라고 명시했지만, 정확한 날짜는 미공개입니다. API 키 기반 시스템 설계는 GPT-5.4를 기준선에 두고, 전환 시점은 별도 마일스톤으로 잡아두세요.
  2. 단가 두 배 — 단순 비용으로 보면 부담입니다. 토큰 효율이 보전해 줄 비율은 작업 종류에 따라 크게 다르니, 실제 워크로드의 입력/출력 비율을 먼저 측정한 뒤 비용 시뮬레이션을 돌리는 편이 안전합니다.
  3. SWE-Bench Pro 우위는 여전히 Opus 4.7 — "코딩 단일 모델 점수 기준"으로 GPT-5.5를 도입하는 건 데이터에 안 맞습니다. GPT-5.5의 가치는 도구·환경·시간을 합친 워크플로 완수율에 있어요.
  4. 완전 재학습 베이스의 회귀 위험 — 베이스를 새로 학습한 모델은 응답 톤·포맷 선호·코드 컨벤션이 미묘하게 달라질 수 있습니다. 프롬프트 템플릿을 GPT-5.4에 맞춰 튜닝해 둔 팀은, 출력 일관성 측정을 작은 표본부터 다시 돌려보세요.
  5. 플랫폼 락인 가속 — Codex의 메모리·플러그인·400K 컨텍스트가 OpenAI 계정에 묶입니다. 중립 라우팅이 필요한 조직은 동일 시나리오를 Claude Code오픈 웨이트로 재현 가능한지 교차 테스트를 권합니다.

09지금 GPT-5.5로 갈아타야 할 팀

상황권장이유
Codex로 프로덕션 코드를 굴리는 팀GPT-5.5같은 latency · 더 적은 토큰 · 더 깊은 이해
야간 자동화·복합 마이그레이션GPT-5.5Terminal-Bench 점프 + Codex 운영 기능 누적
지식 노동 산출물 자동화GPT-5.5 ThinkingGDPval 84.9 · 멀티 소스 리서치 강화
난이도 최상위 작업·고비용 허용GPT-5.5 Pro난이도·품질 동시 점프 · latency까지 개선
단발 코딩 정확도 최우선Claude Opus 4.7SWE-Bench Pro 우위 유지
API 즉시 전환이 필요GPT-5.4 유지GPT-5.5 API 미공개
가격·주권 우선GLM 5.1 / Gemma 4오픈 웨이트 + 비용 1/5~1/8

체크리스트를 단순화하면, 지금 Codex를 업무에 깊게 쓰고 있다면 전환 결정은 사실상 끝났다고 봐도 됩니다. 엔진이 자동으로 바뀌었으니까요. 그 외 팀은 (1) API 공개 시점을 모니터링하고, (2) 워크로드의 단발성 vs 멀티스텝 비율을 측정해 GPT-5.5와 Opus 4.7 사이 라우팅을 정의해두는 게 다음 분기의 가장 큰 의사결정입니다.

핵심 정리

  • 2026-04-23 공개 · GPT-5.4 출시 7주 만 · GPT-4.5 이후 첫 완전 재학습 베이스 모델
  • 벤치마크 — Terminal-Bench 2.0 82.7% · GDPval 84.9% · OSWorld-Verified 78.7% · SWE-Bench Pro 58.6%
  • Codex 기본 엔진을 GPT-5.4 → GPT-5.5로 교체 · 400K 컨텍스트 · 토큰 효율 개선 · 약 4M 주간 개발자 즉시 수혜
  • 변형: GPT-5.5 / Thinking / Pro · ChatGPT Plus·Pro·Business·Enterprise 즉시 배포 · Pro 변형은 Pro 이상
  • API: 1M 컨텍스트, $5/$30 per 1M tokens(Batch·Flex 50% 할인) · 출시일에는 미공개, "very soon"
  • 경쟁: 단발 코딩 정답률은 Opus 4.7, 멀티스텝 워크플로 완수율은 GPT-5.5로 라우팅 권장

같은 흐름에서 Codex for Almost Everything(엔진 위에 얹은 9가지 기능), Claude Opus 4.7(코딩 단일 SOTA), GPT-5.4-Cyber(사이버 특화 변형)를 함께 읽으면 2026년 2분기 "에이전틱 코딩 + 운영 엔진" 경쟁의 지도가 또렷해집니다. 모델 선택 전반은 Claude vs ChatGPT vs Gemini 실전 비교로 이어집니다.

자주 묻는 질문

GPT-5.5는 언제 공개됐고 무엇이 달라졌나요?
OpenAI가 2026년 4월 23일 공개했습니다. GPT-5.4 출시(2026-03-05)로부터 7주 만의 후속작이며, OpenAI는 GPT-4.5 이후 처음으로 "완전히 재학습된 베이스 모델"이라고 명시했습니다. 에이전틱 코딩·컴퓨터 사용·지식 노동·초기 과학 연구에서 두드러진 점프가 있었고, GPT-5.4와 같은 토큰당 latency를 유지하면서 토큰 효율은 크게 개선됐습니다.
GPT-5.5의 벤치마크 성적은 어느 정도인가요?
Terminal-Bench 2.0에서 82.7%로 Claude Opus 4.7(69.4%)·Gemini 3.1 Pro(68.5%)를 앞섰고, GDPval(44개 직군의 지식 노동 평가)에서 84.9%, OSWorld-Verified(에이전트의 실제 컴퓨터 환경 조작)에서 78.7%, SWE-Bench Pro에서 58.6%를 기록했습니다. 코딩 단일 지표인 SWE-Bench Pro에서는 Claude Opus 4.7이 여전히 우위지만, 터미널·컴퓨터 제어·복합 지식 노동 영역에서는 GPT-5.5가 새 최고를 잡았습니다.
GPT-5.5는 Codex를 어떻게 바꿨나요?
Codex의 기본 엔진이 GPT-5.4 → GPT-5.5로 교체됐습니다. 약 4백만 명의 주간 활성 개발자가 쓰는 제품이라 영향이 큽니다. 변화의 핵심은 (1) 시스템 아키텍처와 실패 지점에 대한 이해도가 올라가 코드베이스 전체에서 수정 위치와 다운스트림 영향을 더 잘 예측하고, (2) 같은 작업을 끝낼 때 사용하는 토큰이 크게 줄어 비용·시간 모두 개선되며, (3) Codex에서 400K 컨텍스트 윈도우로 동작합니다. Plus·Pro·Business·Enterprise·Edu·Go 플랜에서 즉시 사용 가능합니다.
GPT-5.5 / GPT-5.5 Thinking / GPT-5.5 Pro의 차이는 무엇인가요?
GPT-5.5는 일반 답변용 기본 모델, GPT-5.5 Thinking은 더 어려운 문제에 빠르고 간결한 추론을 더한 변형(스프레드시트·정돈된 프런트엔드 코드·어려운 수학·도구 사용·멀티 소스 리서치에서 강함), GPT-5.5 Pro는 ChatGPT 안의 가장 어려운 작업용 최고 사양입니다. ChatGPT Plus·Pro·Business·Enterprise는 GPT-5.5와 Thinking을 모두 쓰고, GPT-5.5 Pro는 Pro·Business·Enterprise 한정입니다.
API에서는 언제 쓸 수 있고 가격은 어떻게 되나요?
GPT-5.5와 GPT-5.5 Pro는 출시일 기준 API에 즉시 열리지 않았습니다. "API 배포는 별도 안전장치가 필요해 파트너·고객과 협의 중이며 매우 곧 공개한다"는 입장입니다. 공개 시 GPT-5.5는 Responses·Chat Completions API에서 1M 토큰 컨텍스트, $5 입력 / $30 출력 per 1M tokens(GPT-5.4 $2.50/$15 대비 약 두 배), Batch·Flex 모드는 절반 가격으로 제공됩니다. 그동안에는 Codex에서 ChatGPT 로그인으로 GPT-5.5를 호출할 수 있습니다.