GPT-5.5 — OpenAI가 Codex 엔진을 통째로 갈아끼운 "리얼 워크" 모델
2026-04-23 공개. Terminal-Bench 2.0 82.7%, GDPval 84.9%, OSWorld-Verified 78.7%로 에이전틱 코딩·컴퓨터 사용·지식 노동에서 점프. GPT-4.5 이후 첫 완전 재학습 베이스 모델로 약 4M 주간 개발자가 쓰는 Codex의 기본 엔진을 GPT-5.4에서 곧장 교체했습니다.
이어서 읽기 →2026-04-23 공개. Terminal-Bench 2.0 82.7%, GDPval 84.9%, OSWorld-Verified 78.7%로 에이전틱 코딩·컴퓨터 사용·지식 노동에서 점프. GPT-4.5 이후 첫 완전 재학습 베이스 모델로 약 4M 주간 개발자가 쓰는 Codex의 기본 엔진을 GPT-5.4에서 곧장 교체했습니다.
이어서 읽기 →2026-04-16 발표. macOS 백그라운드 컴퓨터 제어, Atlas 내장 브라우저, 90+ 플러그인, GitHub PR 리뷰까지 9가지를 한 번에. "코딩 CLI"에서 "운영 엔진"으로의 재포지셔닝.
읽기 →2026-04-15 공개. 바이너리 리버스 엔지니어링, KYC 기반 Trusted Access for Cyber 확장. Claude Mythos(Project Glasswing)와 개방 vs 게이팅 구도 정리.
읽기 →Google DeepMind가 2026-04-02 Apache 2.0으로 공개. E2B·E4B·26B MoE·31B 네 사이즈, 256K 컨텍스트, Arena AI 오픈 3위(Elo 1452). H100 한 장에 올라가는 프런티어.
읽기 →2026-04-17 Anthropic Labs 리서치 프리뷰. claude.ai/design에서 대화로 프로토타입·슬라이드를 만들고 Canva·Claude Code로 핸드오프. 발표 당일 Figma 주가 7% 급락까지.
읽기 →Z.ai가 2026-04-08 공개. SWE-Bench Pro 58.4로 GPT-5.4·Opus 4.6·Gemini 3.1 Pro 상회, 사람 개입 없이 8시간 동안 리눅스 데스크톱과 50+개 앱을 만든 데모.
읽기 →Anthropic이 2026-04-16 공개. CursorBench 58→70%, 멀티스텝 성공률 +14%, 새 추론 레벨 xhigh까지. 벤치마크·가격·마이그레이션 유의점 정리.
읽기 →벤치마크 숫자 말고, 실제 작업을 6가지 유형으로 나눠서 세 모델에 동일 조건으로 돌려봤습니다. 어느 작업에 어느 모델이 맞는지.
읽기 →회의록 요약부터 코드 리뷰, 이메일 초안, 데이터 정리까지. Claude를 "똑똑한 비서"가 아닌 "반복 작업을 덜어주는 도구"로 쓰는 구체적인 레시피 7개.
읽기 →역할, 맥락, 형식, 반례, 검증 — 실제 대화를 예시로 다섯 가지 원칙을 설명합니다. 초보자용이지만 중급자도 점검용으로 유용해요.
읽기 →