Claude Opus 4.7 릴리스 노트: Opus 4.6에서 달라진 것
Anthropic이 2026년 4월 16일 Claude Opus 4.7을 일반 공개했습니다. 마이너 업데이트 같은 이름이지만 엔지니어링 벤치마크, 장시간 에이전트 안정성, 비전 해상도, 그리고 새 추론 레벨까지 바뀐 포인트는 뚜렷합니다. 사용자 관점에서 달라진 것만 골라 정리했습니다.
Claude Opus 4.7은 "모델이 손 떼고 있어도 일이 끝나 있는가"를 핵심 지표로 삼은 업데이트입니다. Anthropic이 강조한 메시지는 하나예요: "이전에는 긴밀한 감시가 필요했던 어려운 코딩 작업을 Opus 4.7에 맡길 수 있다." 숫자로 보면 소폭처럼 보이지만, 에이전트 시나리오의 실질 완성률이 달라졌다는 게 이번 업데이트의 요점입니다.
01한 줄 요약 — "맡기고 자리 비워도 되는" 모델
Opus 4.7을 가장 정확하게 설명하는 건 "더 똑똑해진 모델"이 아니라 "장시간 자율 실행에서 더 덜 무너지는 모델" 입니다. Anthropic의 벤치마크 중 일반인에게 가장 체감이 큰 수치는 이겁니다.
- 멀티스텝 워크플로우 성공률 +14% (Opus 4.6 대비)
- 도구 호출 오류 ≈ 1/3 수준으로 감소
- 무한 루프(loop) 저항 개선 — 같은 도구를 반복 호출하며 진전이 없는 실패 패턴이 크게 줄었다고 보고
즉 "짧은 대화에서의 똑똑함"보다는 "몇 시간짜리 코딩·리서치 잡을 넘기고 자리를 비워도 결과물이 나와 있는 확률"이 달라졌습니다. 이걸 체감하려면 1회성 질답이 아니라, Projects 기반의 반복 워크플로우에서 Opus 4.7을 돌려봐야 차이가 보입니다.
02출시 정보와 가격
| 항목 | Claude Opus 4.7 |
|---|---|
| 출시일 | 2026년 4월 16일 (GA) |
| 모델 ID (API) | claude-opus-4-7 |
| 입력 가격 | $5 / 1M tokens |
| 출력 가격 | $25 / 1M tokens |
| 가격 변화 (vs 4.6) | 단가 동일 · 토큰 수 1.0~1.35× |
| 사용 가능 경로 | Claude.ai · Claude Code · Anthropic API · Amazon Bedrock · Google Cloud Vertex AI · Microsoft Foundry |
가격은 Opus 4.6과 동일하지만 토크나이저가 바뀌었다는 점은 반드시 체크하세요.
Anthropic은 콘텐츠 유형에 따라 같은 텍스트의 토큰 수가 1.0~1.35배로 늘어날 수 있다고 공지했습니다.
단가는 그대로여도 실제 청구액은 소폭 증가할 수 있어요. 월 AI 예산을 짜는 팀이라면 기존 프롬프트 기준으로 재측정하고 반영하는 걸 권장합니다.
03벤치마크 — 숫자로 보는 차이
Anthropic이 공개한 주요 지표를 엔지니어링·에이전트 중심으로 정리했습니다. 모든 수치는 Anthropic의 공식 발표 기준이며, 벤치마크는 실제 업무 성능과 완벽히 일치하지 않는다는 점을 기억하세요.
| 벤치마크 | Opus 4.6 | Opus 4.7 | 변화 |
|---|---|---|---|
| CursorBench | 58% | 70% | +12 pp |
| XBOW (시각 감지) | 54.5% | 98.5% | +44 pp |
| OfficeQA Pro (오류율) | 기준 | −21% | 오류 감소 |
| SWE-bench Verified | 기준 | "특히 어려운 과제에서 유의미 향상" | + |
| Rakuten-SWE-Bench | 기준 | "생산 과제 3× 해결" | + |
| CodeRabbit (회수율) | 기준 | +10%p 이상 | 정확도 유지 |
| 멀티스텝 워크플로우 | 기준 | +14% | 성공률 |
| BigLaw Bench (high effort) | – | 90.9% | 법률 |
눈에 띄는 건 XBOW 시각 감지 54.5% → 98.5%처럼 비전·다이어그램 이해 쪽의 점프입니다.
이미지 최대 해상도가 2,576px(약 3.75MP)로 이전의 3배 이상 올라가면서, 화학 구조식이나 복잡한 아키텍처 다이어그램을 그대로 올리고 "설명해줘"로 해석시키는 작업의 신뢰도가 크게 달라졌습니다.
04새로 추가된 기능 4가지
xhigh 추론 강도 추가
기존 low / medium / high / max 4단계 사이에 xhigh(extra high)가 새로 들어갔습니다.
high와 max 사이 포지션이라, "max는 너무 비싸고 느린데 high로는 품질이 부족하다" 싶은 어려운 코딩·분석 작업의 새 기본값이 될 가능성이 높습니다.
장시간 에이전트 작업 후반부 신뢰도에서 특히 효과가 크다는 설명.
Task Budgets (public beta)
작업 단위로 토큰 예산을 걸 수 있는 새 컨트롤입니다. 에이전트가 한 작업에 얼마까지 쓰도록 허용할지 선언하면, 모델이 그 범위 안에서 탐색의 깊이를 스스로 조절합니다. "예산 넘겨서 계속 파고들다 결국 실패" 같은 패턴을 완화하기 위한 가이드레일 성격이에요.
/ultrareview 슬래시 명령
Claude Code에 바로 쓸 수 있는 내장 명령어. 변경 사항 전체를 훑어서 버그 가능성과 설계 이슈를 한 덩어리로 지적해주는 리뷰 전용 모드입니다. 기존에 프롬프트로 시스템 메시지를 길게 박아야 했던 시니어 리뷰어 프롬프트를 대체합니다.
Auto Mode (Max 플랜 확대)
에이전트가 실행 권한 요청을 스스로 처리하는 모드. Max 사용자에게 확대 적용되면서 "매 단계 확인 클릭"의 피로가 크게 줄어듭니다. 권한 범위는 여전히 설정 가능하니, 파괴적 명령에는 여전히 사람이 개입하도록 두세요.
05에이전트 — 장시간 자율 실행의 변화
에이전트 시나리오에서의 개선은 단순 성능 향상이 아니라 "실패 양상의 질적 변화"로 봐야 합니다.
- 툴 호출 정확도 +10~15% — 잘못된 인자, 존재하지 않는 함수 호출 등 에이전트 스트림을 끊는 오류가 감소
- 무한 루프 저항 — 같은 명령을 반복하며 진전 없이 예산만 태우는 패턴 완화
- 파일 시스템 메모리 활용 강화 — 긴 멀티세션 작업 중 중간 결과·결정 사항을 파일에 남겨놓고 세션을 이어 쓰는 패턴이 안정화
- 자기 수정 능력 — 출력 후 스스로 검증하고 오류를 고쳐서 다시 내놓는 비율이 상승
"손 떼고 맡길 수 있다"는 말은 "실패 확률이 낮아졌다"는 뜻이 아니라, "실패해도 스스로 복구할 확률이 높아졌다"에 더 가깝습니다.
06안전성 · 정직성 업데이트
Anthropic은 Opus 4.7을 "대체로 잘 정렬되고 신뢰할 수 있지만 행동이 완전히 이상적이지는 않은" 상태로 평가합니다. 주요 변화:
- 정직성 개선 — 기만·우쭐거림(sycophancy) 성향이 Opus 4.6과 유사한 낮은 수준을 유지하면서, 불확실할 때 "모른다"고 말하는 비율이 상승
- 프롬프트 주입 저항 강화 — 악의적으로 삽입된 지시를 무시하는 비율 증가
- 사이버 위험 자동 탐지 — 금지된 공격 시나리오를 모델이 스스로 감지하고 거부
- Cyber Verification Program — 침투 테스터·보안 연구자처럼 정당한 공격적 보안 작업을 수행하는 전문가를 검증하는 신규 프로그램
다만 한 가지 주의할 점은 "통제 물질 관련 과도한 해악 감소 조언"이 약해졌다는 자체 평가입니다. 즉 "해를 끼칠 수 있는 질문에 대한 거절이 이전보다 약간 덜 보수적"으로 움직일 수 있다는 의미이며, 이 부분은 조직 내 사용 가이드라인을 다시 점검해볼 만합니다.
07Opus 4.6 → 4.7 마이그레이션 체크리스트
"모델 이름만 바꾸면 되겠지" 하고 넘어가면 탈 수 있습니다. 체감 큰 변화 3가지:
- 엄격해진 지시 준수 — "되도록 간단히", "가능하면 짧게" 같은 완곡한 지시가 4.7에서는 문자 그대로 지켜지면서 출력이 갑자기 짧아지거나 구조가 바뀔 수 있습니다. 기존 프로덕션 프롬프트는 소량 트래픽으로 A/B 테스트를 돌리고 이관하세요.
-
토크나이저 변경 — 같은 문서라도 토큰 수가
1.0~1.35배변동 가능. 비용·context 사용량을 재측정하고, 토큰 예산에 기반한 자동 요약·청킹 로직이 있다면 경계값을 조정. - 도구(tool) 스키마 검증 강화 — 모델이 이전에는 대충 넘어가던 잘못된 인자를 4.7은 거부하거나 지적하는 경우가 많음. 에이전트 러너의 에러 핸들링이 "도구 오류 = 실패"로 강하게 묶여 있다면 완화 로직이 필요할 수 있습니다.
08언제 Opus 4.7을 써야 하나
"가장 좋은 모델 = 항상 써야 하는 모델"은 아닙니다. 작업 성격별 선택 가이드:
| 작업 | 권장 모델 | 이유 |
|---|---|---|
| 장시간 코딩 에이전트, 복잡 디버깅 | Opus 4.7 | 멀티스텝·툴 오류 내성, xhigh |
| 긴 문서 리서치·금융 분석 | Opus 4.7 | 엄격한 지시 준수, 인용·구조화 우수 |
| 대시보드·슬라이드·UI 생성 | Opus 4.7 | 취향 있는 디자인 출력 개선 |
| 간단한 Q&A, 초안 생성 | Sonnet 4.6 또는 Haiku 4.5 | 비용·지연 시간 유리 |
| 대량 배치 처리 | 모델별 재측정 | 토크나이저 변화로 비용 재평가 필요 |
요약하면, Opus 4.7은 "감시 비용이 비싼 작업"에 가장 잘 맞습니다. 모델이 1시간 돌아가는 동안 사람이 옆에 앉아 확인할 수 없는 작업, 실패 시 되돌리기 비싼 작업일수록 Opus 4.7의 에이전트 안정성 프리미엄이 비용을 상쇄합니다.
핵심 정리
- Opus 4.7은 "장시간 자율 실행"에 초점을 맞춘 4.6의 직계 후속
- 가격 동일, 단 토크나이저 변경으로 실제 비용은
1.0~1.35배변동 가능 - 새 기능 4가지:
xhigh레벨 · Task Budgets ·/ultrareview· Auto Mode 확대 - 멀티스텝 성공률 +14%, 툴 오류 1/3로 감소, 비전 해상도 3배
- 마이그레이션 시 엄격한 지시 준수 · 토크나이저 · 툴 스키마 3가지 필수 점검
모델 선택의 원리는 Claude vs ChatGPT vs Gemini 실전 비교에서, Opus 4.7을 실무에 녹이는 레시피는 Claude 워크플로우 7선에서 이어 읽어보세요.
자주 묻는 질문
Claude Opus 4.7은 언제 출시되었나요?
claude-opus-4-7),
Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 동시 사용 가능합니다.
Opus 4.7의 API 가격은 Opus 4.6보다 올랐나요?
1.0~1.35배로 늘어날 수 있어, 실제 비용은 콘텐츠 유형에 따라 약간 증가할 수 있습니다.
Opus 4.6에서 Opus 4.7로 마이그레이션할 때 주의할 점은 무엇인가요?
Opus 4.7의 xhigh effort 레벨은 무엇인가요?
xhigh(extra high)는 기존 high와 max 사이에 추가된 새 추론 강도 레벨입니다.
장시간 에이전트 작업이나 어려운 코드 디버깅처럼 모델이 더 깊게 추론해야 하는 상황에서 품질을 한 단계 끌어올릴 수 있도록 설계됐습니다.
비용·지연은 high보다 높고 max보다는 낮은 영역에 위치합니다.