릴리스 노트

Claude Opus 4.7 릴리스 노트: Opus 4.6에서 달라진 것

Anthropic이 2026년 4월 16일 Claude Opus 4.7을 일반 공개했습니다. 마이너 업데이트 같은 이름이지만 엔지니어링 벤치마크, 장시간 에이전트 안정성, 비전 해상도, 그리고 새 추론 레벨까지 바뀐 포인트는 뚜렷합니다. 사용자 관점에서 달라진 것만 골라 정리했습니다.

Claude Opus 4.7은 "모델이 손 떼고 있어도 일이 끝나 있는가"를 핵심 지표로 삼은 업데이트입니다. Anthropic이 강조한 메시지는 하나예요: "이전에는 긴밀한 감시가 필요했던 어려운 코딩 작업을 Opus 4.7에 맡길 수 있다." 숫자로 보면 소폭처럼 보이지만, 에이전트 시나리오의 실질 완성률이 달라졌다는 게 이번 업데이트의 요점입니다.

01한 줄 요약 — "맡기고 자리 비워도 되는" 모델

Opus 4.7을 가장 정확하게 설명하는 건 "더 똑똑해진 모델"이 아니라 "장시간 자율 실행에서 더 덜 무너지는 모델" 입니다. Anthropic의 벤치마크 중 일반인에게 가장 체감이 큰 수치는 이겁니다.

  • 멀티스텝 워크플로우 성공률 +14% (Opus 4.6 대비)
  • 도구 호출 오류 ≈ 1/3 수준으로 감소
  • 무한 루프(loop) 저항 개선 — 같은 도구를 반복 호출하며 진전이 없는 실패 패턴이 크게 줄었다고 보고

즉 "짧은 대화에서의 똑똑함"보다는 "몇 시간짜리 코딩·리서치 잡을 넘기고 자리를 비워도 결과물이 나와 있는 확률"이 달라졌습니다. 이걸 체감하려면 1회성 질답이 아니라, Projects 기반의 반복 워크플로우에서 Opus 4.7을 돌려봐야 차이가 보입니다.

02출시 정보와 가격

항목Claude Opus 4.7
출시일2026년 4월 16일 (GA)
모델 ID (API)claude-opus-4-7
입력 가격$5 / 1M tokens
출력 가격$25 / 1M tokens
가격 변화 (vs 4.6)단가 동일 · 토큰 수 1.0~1.35×
사용 가능 경로Claude.ai · Claude Code · Anthropic API · Amazon Bedrock · Google Cloud Vertex AI · Microsoft Foundry

가격은 Opus 4.6과 동일하지만 토크나이저가 바뀌었다는 점은 반드시 체크하세요. Anthropic은 콘텐츠 유형에 따라 같은 텍스트의 토큰 수가 1.0~1.35배로 늘어날 수 있다고 공지했습니다. 단가는 그대로여도 실제 청구액은 소폭 증가할 수 있어요. 월 AI 예산을 짜는 팀이라면 기존 프롬프트 기준으로 재측정하고 반영하는 걸 권장합니다.

03벤치마크 — 숫자로 보는 차이

Anthropic이 공개한 주요 지표를 엔지니어링·에이전트 중심으로 정리했습니다. 모든 수치는 Anthropic의 공식 발표 기준이며, 벤치마크는 실제 업무 성능과 완벽히 일치하지 않는다는 점을 기억하세요.

벤치마크Opus 4.6Opus 4.7변화
CursorBench58%70%+12 pp
XBOW (시각 감지)54.5%98.5%+44 pp
OfficeQA Pro (오류율)기준−21%오류 감소
SWE-bench Verified기준"특히 어려운 과제에서 유의미 향상"+
Rakuten-SWE-Bench기준"생산 과제 3× 해결"+
CodeRabbit (회수율)기준+10%p 이상정확도 유지
멀티스텝 워크플로우기준+14%성공률
BigLaw Bench (high effort)90.9%법률

눈에 띄는 건 XBOW 시각 감지 54.5% → 98.5%처럼 비전·다이어그램 이해 쪽의 점프입니다. 이미지 최대 해상도가 2,576px(약 3.75MP)로 이전의 3배 이상 올라가면서, 화학 구조식이나 복잡한 아키텍처 다이어그램을 그대로 올리고 "설명해줘"로 해석시키는 작업의 신뢰도가 크게 달라졌습니다.

04새로 추가된 기능 4가지

01 — Effort 레벨

xhigh 추론 강도 추가

기존 low / medium / high / max 4단계 사이에 xhigh(extra high)가 새로 들어갔습니다. highmax 사이 포지션이라, "max는 너무 비싸고 느린데 high로는 품질이 부족하다" 싶은 어려운 코딩·분석 작업의 새 기본값이 될 가능성이 높습니다. 장시간 에이전트 작업 후반부 신뢰도에서 특히 효과가 크다는 설명.

02 — 비용 제어

Task Budgets (public beta)

작업 단위로 토큰 예산을 걸 수 있는 새 컨트롤입니다. 에이전트가 한 작업에 얼마까지 쓰도록 허용할지 선언하면, 모델이 그 범위 안에서 탐색의 깊이를 스스로 조절합니다. "예산 넘겨서 계속 파고들다 결국 실패" 같은 패턴을 완화하기 위한 가이드레일 성격이에요.

03 — 코드 리뷰

/ultrareview 슬래시 명령

Claude Code에 바로 쓸 수 있는 내장 명령어. 변경 사항 전체를 훑어서 버그 가능성과 설계 이슈를 한 덩어리로 지적해주는 리뷰 전용 모드입니다. 기존에 프롬프트로 시스템 메시지를 길게 박아야 했던 시니어 리뷰어 프롬프트를 대체합니다.

04 — 자율 실행

Auto Mode (Max 플랜 확대)

에이전트가 실행 권한 요청을 스스로 처리하는 모드. Max 사용자에게 확대 적용되면서 "매 단계 확인 클릭"의 피로가 크게 줄어듭니다. 권한 범위는 여전히 설정 가능하니, 파괴적 명령에는 여전히 사람이 개입하도록 두세요.

05에이전트 — 장시간 자율 실행의 변화

에이전트 시나리오에서의 개선은 단순 성능 향상이 아니라 "실패 양상의 질적 변화"로 봐야 합니다.

  • 툴 호출 정확도 +10~15% — 잘못된 인자, 존재하지 않는 함수 호출 등 에이전트 스트림을 끊는 오류가 감소
  • 무한 루프 저항 — 같은 명령을 반복하며 진전 없이 예산만 태우는 패턴 완화
  • 파일 시스템 메모리 활용 강화 — 긴 멀티세션 작업 중 중간 결과·결정 사항을 파일에 남겨놓고 세션을 이어 쓰는 패턴이 안정화
  • 자기 수정 능력 — 출력 후 스스로 검증하고 오류를 고쳐서 다시 내놓는 비율이 상승
"손 떼고 맡길 수 있다"는 말은 "실패 확률이 낮아졌다"는 뜻이 아니라, "실패해도 스스로 복구할 확률이 높아졌다"에 더 가깝습니다.

06안전성 · 정직성 업데이트

Anthropic은 Opus 4.7을 "대체로 잘 정렬되고 신뢰할 수 있지만 행동이 완전히 이상적이지는 않은" 상태로 평가합니다. 주요 변화:

  • 정직성 개선 — 기만·우쭐거림(sycophancy) 성향이 Opus 4.6과 유사한 낮은 수준을 유지하면서, 불확실할 때 "모른다"고 말하는 비율이 상승
  • 프롬프트 주입 저항 강화 — 악의적으로 삽입된 지시를 무시하는 비율 증가
  • 사이버 위험 자동 탐지 — 금지된 공격 시나리오를 모델이 스스로 감지하고 거부
  • Cyber Verification Program — 침투 테스터·보안 연구자처럼 정당한 공격적 보안 작업을 수행하는 전문가를 검증하는 신규 프로그램

다만 한 가지 주의할 점은 "통제 물질 관련 과도한 해악 감소 조언"이 약해졌다는 자체 평가입니다. 즉 "해를 끼칠 수 있는 질문에 대한 거절이 이전보다 약간 덜 보수적"으로 움직일 수 있다는 의미이며, 이 부분은 조직 내 사용 가이드라인을 다시 점검해볼 만합니다.

07Opus 4.6 → 4.7 마이그레이션 체크리스트

"모델 이름만 바꾸면 되겠지" 하고 넘어가면 탈 수 있습니다. 체감 큰 변화 3가지:

  1. 엄격해진 지시 준수 — "되도록 간단히", "가능하면 짧게" 같은 완곡한 지시가 4.7에서는 문자 그대로 지켜지면서 출력이 갑자기 짧아지거나 구조가 바뀔 수 있습니다. 기존 프로덕션 프롬프트는 소량 트래픽으로 A/B 테스트를 돌리고 이관하세요.
  2. 토크나이저 변경 — 같은 문서라도 토큰 수가 1.0~1.35배 변동 가능. 비용·context 사용량을 재측정하고, 토큰 예산에 기반한 자동 요약·청킹 로직이 있다면 경계값을 조정.
  3. 도구(tool) 스키마 검증 강화 — 모델이 이전에는 대충 넘어가던 잘못된 인자를 4.7은 거부하거나 지적하는 경우가 많음. 에이전트 러너의 에러 핸들링이 "도구 오류 = 실패"로 강하게 묶여 있다면 완화 로직이 필요할 수 있습니다.
Claude.ai의 일반 대화 사용자는 이 중 1번만 주로 체감합니다. API·Claude Code 기반으로 프로덕션 자동화를 운영 중이라면 3가지 모두 검토가 필요해요.

08언제 Opus 4.7을 써야 하나

"가장 좋은 모델 = 항상 써야 하는 모델"은 아닙니다. 작업 성격별 선택 가이드:

작업권장 모델이유
장시간 코딩 에이전트, 복잡 디버깅Opus 4.7멀티스텝·툴 오류 내성, xhigh
긴 문서 리서치·금융 분석Opus 4.7엄격한 지시 준수, 인용·구조화 우수
대시보드·슬라이드·UI 생성Opus 4.7취향 있는 디자인 출력 개선
간단한 Q&A, 초안 생성Sonnet 4.6 또는 Haiku 4.5비용·지연 시간 유리
대량 배치 처리모델별 재측정토크나이저 변화로 비용 재평가 필요

요약하면, Opus 4.7은 "감시 비용이 비싼 작업"에 가장 잘 맞습니다. 모델이 1시간 돌아가는 동안 사람이 옆에 앉아 확인할 수 없는 작업, 실패 시 되돌리기 비싼 작업일수록 Opus 4.7의 에이전트 안정성 프리미엄이 비용을 상쇄합니다.

핵심 정리

  • Opus 4.7은 "장시간 자율 실행"에 초점을 맞춘 4.6의 직계 후속
  • 가격 동일, 단 토크나이저 변경으로 실제 비용은 1.0~1.35배 변동 가능
  • 새 기능 4가지: xhigh 레벨 · Task Budgets · /ultrareview · Auto Mode 확대
  • 멀티스텝 성공률 +14%, 툴 오류 1/3로 감소, 비전 해상도 3배
  • 마이그레이션 시 엄격한 지시 준수 · 토크나이저 · 툴 스키마 3가지 필수 점검

모델 선택의 원리는 Claude vs ChatGPT vs Gemini 실전 비교에서, Opus 4.7을 실무에 녹이는 레시피는 Claude 워크플로우 7선에서 이어 읽어보세요.

자주 묻는 질문

Claude Opus 4.7은 언제 출시되었나요?
Anthropic은 2026년 4월 16일 Claude Opus 4.7을 일반 공개(GA) 했습니다. Claude.ai, Claude Code, Anthropic API(모델 ID claude-opus-4-7), Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 동시 사용 가능합니다.
Opus 4.7의 API 가격은 Opus 4.6보다 올랐나요?
가격 자체는 Opus 4.6과 동일합니다. 입력 토큰 100만 개당 $5, 출력 토큰 100만 개당 $25입니다. 다만 Opus 4.7은 토크나이저가 개선되면서 같은 텍스트에 대한 토큰 수가 1.0~1.35배로 늘어날 수 있어, 실제 비용은 콘텐츠 유형에 따라 약간 증가할 수 있습니다.
Opus 4.6에서 Opus 4.7로 마이그레이션할 때 주의할 점은 무엇인가요?
Opus 4.7은 지시를 훨씬 엄격하게 따르도록 튜닝되어 기존 프롬프트가 의도치 않은 결과를 낼 수 있습니다. "되도록", "가능하면" 같은 모호한 지시는 문자 그대로 해석될 가능성이 높으니, 프로덕션 프롬프트는 소량 트래픽으로 A/B 테스트 후 이관하세요. 또한 토크나이저 변경으로 토큰 사용량이 바뀌므로 비용 예산도 재측정이 필요합니다.
Opus 4.7의 xhigh effort 레벨은 무엇인가요?
xhigh(extra high)는 기존 highmax 사이에 추가된 새 추론 강도 레벨입니다. 장시간 에이전트 작업이나 어려운 코드 디버깅처럼 모델이 더 깊게 추론해야 하는 상황에서 품질을 한 단계 끌어올릴 수 있도록 설계됐습니다. 비용·지연은 high보다 높고 max보다는 낮은 영역에 위치합니다.
Opus 4.7은 Claude Code에서도 쓸 수 있나요?
네. Claude Code의 기본 모델로 사용 가능하며, 코딩 에이전트 시나리오를 염두에 두고 설계되었습니다. Opus 4.6 대비 SWE-bench Verified, CursorBench(58% → 70%), Rakuten-SWE-Bench 등 엔지니어링 벤치마크에서 개선이 보고되었고, 멀티스텝 워크플로우 성공률이 약 14% 향상되고 도구 호출 오류는 약 1/3로 줄었다고 Anthropic은 발표했습니다.