900K든 9K든 동일 단가. 프리미엄 완전 폐지.Same rate for 900K or 9K. Premium fully abolished.
MRCR v2 최고 점수MRCR v2 Top Score
Opus 4.6 — 프론티어 모델 중 1위 78.3%Opus 4.6 — #1 among frontier models 78.3%
Opus 4.6 + Sonnet 4.6 적용Opus 4.6 + Sonnet 4.6
Claude Code는 Max · Enterprise · Team 플랜에서 현재 바로 사용 가능Claude Code available now on Max · Enterprise · Team plans
미디어 한도 6배 확대6x Media Limit Increase
PDF · 이미지 업로드: 100매 → 600매PDF · image upload: 100 → 600 per request
놀라운 발표다. 1M라...Impressive. 1M...
1M 토큰, 대체 얼마나 되는 걸까?How Big is 1M Tokens, Really?
한 번에 읽을 수 있는 양What It Can Read At Once
📚
해리포터 5권5 Harry Potter Books
마법사의 돌부터 불사조 기사단까지From Philosopher's Stone to Order of the Phoenix
🎬
영화 대본 30편30 Movie Scripts
마블 MCU Phase 1~4 분량Marvel MCU Phase 1–4 worth
📺
미드 전 시즌Entire TV Series
브레이킹 배드 5시즌 62화 대본 통째로Breaking Bad all 5 seasons, 62 episodes
▶
유튜브 2,500편2,500 YouTube Videos
10분 영상의 자막 2,500개 분량Subtitles from 2,500 10-min videos
📄
A4 1,500장1,500 Pages
쌓으면 15cm 높이15cm stack height
⏱️
50시간50 Hours
사람이 쉬지 않고 읽으면 꼬박 2일2 full days of non-stop reading
이 정도를 한 번에 이해할 수 있다면? 하지만...What if AI could understand all of this at once? But...
그런데, 잠깐.Wait a moment.
1M 지원 ≠ 1M 활용1M Support ≠ 1M Usable
5개 모델이 1M 토큰을 "지원"한다.
그런데 정말로 1M 토큰을 넣었을 때, 정보를 정확히 찾아낼 수 있을까?
Five models "support" 1M tokens.
But when you actually feed 1M tokens, can they accurately retrieve the information?
가격부터 살펴보자. →Let's start with pricing. →
Table 1
기본 토큰 단가 per 1M tokensBase Token Pricing per 1M tokens
모델Model
입력Input
출력Output
컨텍스트Context
긴 컨텍스트 할증Long Context Surcharge
Claude Opus 4.6
$5.00
$25.00
1M
없음 (균일)None (flat)
Claude Sonnet 4.6
$3.00
$15.00
1M
없음 (균일)None (flat)
GPT-5.4
$2.50
$15.00
1.05M
>272K → 전체 2x/1.5x>272K → entire 2x/1.5x
GPT-4.1
$2.00
$8.00
1M
없음 (균일)None (flat)
Gemini 3.1 Pro
$2.00
$12.00
1M
>200K → 전체 2x/1.5x>200K → entire 2x/1.5x
Gemini 2.5 Pro
$1.25
$10.00
1M
>200K → 전체 2x/1.5x>200K → entire 2x/1.5x
Grok 4.1 Fast
$0.20
$0.50
2M
없음 (균일)None (flat)
* "균일" = 1K이든 1M이든 동일 단가 · 할증 = 임계치 초과 시 전체 토큰에 배율 적용* "Flat" = same rate whether 1K or 1M · Surcharge = multiplier applied to all tokens when threshold exceeded
가격 절벽 (Cliff Effect)Price Cliff Effect
199K vs 201K — 비용이 2배199K vs 201K — Cost Doubles
GPT-5.4와 Gemini는 특정 토큰 수를 넘으면 전체 세션에 할증이 적용됩니다. 초과분만이 아닌, 모든 토큰에.GPT-5.4 and Gemini apply surcharges to the entire session once crossed. Not just the excess — every single token.
입력 200K일 때 비용:Cost at 200K input:
Gemini 3.1 Pro $0.40
GPT-5.4 $0.50
Claude Opus 4.6 $1.00
입력 201K일 때 비용 (1K 추가했을 뿐):Cost at 201K input (just 1K more):
Gemini 3.1 Pro $0.80
(+100%!)(+100%!)
GPT-5.4 $0.50
(272K까지 유지)(holds until 272K)
Claude Opus 4.6 $1.00
(변화 없음)(no change)
Claude의 차별점:Claude's advantage: 어떤 길이든 동일 단가. 비용 예측이 단순하고, "토큰 절약을 위해 컨텍스트를 줄이는" 비합리적 행동을 유발하지 않음. Flat pricing at any length. Cost is predictable, and you never have to irrationally trim context to save tokens.
Table 2
캐시(Cache) 단가 및 정책Cache Pricing & Policies
모델Model
방식Method
Write
Read
저장비용Storage
할인율Discount
Claude Opus 4.6
명시적Explicit
$6.25
$0.50
무료 (TTL)Free (TTL)
90%
Claude Sonnet 4.6
명시적Explicit
$3.75
$0.30
무료 (TTL)Free (TTL)
90%
GPT-5.4
자동Auto
$0
$0.25
N/A
90%
GPT-4.1
자동Auto
$0
$0.50
N/A
75%
Gemini 3.1 Pro
명시적Explicit
$0
$0.50
$4.50/hr
75%
TTL이란?What is TTL?
TTL (Time To Live): 캐시가 유지되는 시간. 이 시간 안에 다시 사용하면 캐시가 연장되고, 초과하면 삭제되어 처음부터 다시 처리. TTL이 길수록 재사용 확률이 높아져 속도 향상 + 비용 절감. 요금제별로 TTL이 다르므로 사용 패턴에 맞는 플랜 선택이 중요.TTL (Time To Live): how long cache stays alive. Reuse within TTL extends it; exceed it and cache is purged, requiring full reprocessing. Longer TTL means higher reuse probability → faster + cheaper. TTL varies by plan, so choosing the right plan for your usage pattern matters.
명시적 vs 자동Explicit vs Auto
명시적: 개발자가 캐시 대상 지정, TTL 관리 필요 자동: 동일 prefix 감지 시 자동 hit, 설정 불요Explicit: developer designates cache targets, TTL management needed Auto: auto-hit on identical prefix detection, no setup required
숨겨진 비용Hidden Costs
Gemini의 시간당 저장 비용은 캐시를 장시간 유지하면 누적. Claude/OpenAI는 저장 비용 없음.Gemini's hourly storage cost accumulates with long cache retention. Claude/OpenAI have no storage fees.
시나리오 비용 ①Cost Scenario ①
할증 미적용 구간 — 입력 ≤200KBelow Surcharge Threshold — Input ≤200K
A. 대화형 (입력:출력 = 2:1)A. Conversational (in:out = 2:1)
200K in · 100K out
Standard
Gemini 3.1
$1.60
GPT-5.4
$2.00
Sonnet 4.6
$2.10
Opus 4.6
$3.50
GPT-5.4: 272K 미만 · Gemini: 200K 이하 → 모든 모델이 기본 단가 적용GPT-5.4: below 272K · Gemini: at or below 200K → All models at base pricing
⚠️ 하지만 이 구간은 비현실적⚠️ But this range is unrealistic
1M 컨텍스트를 제대로 활용하려면
200K에 머물 수 없다.
코딩 어시스턴트, 문서 분석, 이미지 처리 등
1M이 필요한 실전 시나리오에서는 GPT-5.4(>272K)와 Gemini(>200K)의
할증이 반드시 적용된다.
다음 슬라이드가 현실이다. →
To truly leverage 1M context,
you can't stay under 200K.
For real-world scenarios like coding assistants,
document analysis, and image processing, GPT-5.4 (>272K) and Gemini (>200K)
surcharges always apply.
Next slide is reality. →
시나리오 비용 ② — 이것이 현실Cost Scenario ② — This Is Reality
할증 적용 구간 — 입력 >200K (1M 활용 시)Above Surcharge Threshold — Input >200K (using 1M)
900K in · 50K out · 할증 적용900K in · 50K out · surcharge applied
Standard
Cached
Opus 4.6
$5.75
$2.11
Sonnet 4.6
$3.45
$1.26
GPT-5.4
$5.63
$1.78
Gemini 3.1
$4.50
$1.67*
C. 문서/PDF 분석 (입력:출력 = 8:1)C. Document/PDF Analysis (in:out = 8:1)
800K in · 100K out · 할증 적용800K in · 100K out · surcharge applied
Standard
Cached
Opus 4.6
$6.50
$3.26
Sonnet 4.6
$3.90
$1.96
GPT-5.4
$6.25
$2.83
Gemini 3.1
$5.00
$2.48*
D. 이미지 600장 (입력:출력 = 20:1)D. 600 Images (in:out = 20:1)
⚠️ 이미지 토큰 제공사별 차이 극심!⚠️ Image token counts vary drastically by provider!
tok/장tok/img
합계Total
할증Surcharge
Gemini
258
$1.59
155K — 미적용!155K — none!
GPT-5.4
1,100
$4.63
660K — 적용660K — applied
Sonnet 4.6
1,600
$3.75
해당 없음N/A
Opus 4.6
1,600
$6.25
해당 없음N/A
핵심 관찰Key Observation
GPT-5.4·Gemini의 "저렴한" 기본 단가는
200K 이하에서만 유효하다.
1M을 실제로 쓰면 할증이 적용되어 Claude와 비용 차이가 크게 줄어들거나 역전된다.
이 상태에서 정확도까지 고려하면? [다음 슬라이드] →
GPT-5.4 and Gemini's "cheap" base rates
only apply below 200K.
At actual 1M usage, surcharges kick in and the cost gap with Claude shrinks dramatically or reverses.
Factor in accuracy? [Next slide] →
* Gemini cached: +$4.50/hr 저장 비용 별도 · GPT-5.4/Gemini 비용은 할증 단가 적용* Gemini cached: +$4.50/hr storage cost separate · GPT-5.4/Gemini costs include surcharge rates
긴 컨텍스트에서 정보를 얼마나 정확히 찾는가How Accurately Can Models Retrieve Information in Long Context?
Source: Anthropic blog & X
MRCR v2란?What is MRCR v2?
OpenAI 개발 벤치마크. 대화 속에 동일한 요청 8개를 숨기고, "N번째 것을 재현해"라고 요구. 8개의 바늘 중 정확한 순서를 구별해야 하므로 극도로 어려움.Benchmark developed by OpenAI. Hides 8 identical requests within a conversation and asks "reproduce the Nth one." Extremely difficult as the model must distinguish the exact order among 8 needles.
하락률 (256K → 1M)Accuracy Drop (256K → 1M)
Opus 4.6
-15%
최소 하락Least drop
Sonnet 4.6
-28%
GPT-5.4
-54%
절반 상실Half lost
Gemini 3.1
-56%
최악Worst
가성비 종합Cost-Efficiency Summary
1M에서 정확도 1%포인트당 비용 ($/point)Cost per 1% Accuracy Point at 1M ($/point)
코딩 어시스턴트 시나리오 (900K in, 50K out) 기준Based on coding assistant scenario (900K in, 50K out)
모델Model
비용 (표준)Cost (Std)
MRCR 1M
$/point (표준)$/point (Std)
$/point (캐시)$/point (Cache)
Sonnet 4.6
$3.45
65.1
$0.053
$0.019
Opus 4.6
$5.75
78.3
$0.073
$0.027
GPT-5.4
$5.63
36.6
$0.154
$0.049
Gemini 3.1 Pro
$4.50
25.9
$0.174
$0.064
★가성비 1위: Sonnet 4.6 — 정확도 대비 비용이 가장 낮음. 최고 정확도가 필요하면 Opus, 최저 단가가 필요하면 Sonnet.Best value: Sonnet 4.6 — lowest cost relative to accuracy. Need highest accuracy? Opus. Need lowest cost? Sonnet.
캐시 전략Cache Strategy
TTL이 체감 속도를 결정한다TTL Determines Perceived Speed
Max Plan
1시간1 Hour
1시간 내 재작업하면 캐시 유지Cache persists if you resume within 1 hour
vs
Pro / API
5분5 Min
5분간 작업 없으면 캐시 리셋Cache resets after 5 min of inactivity
캐시 재사용* 시 성능Cache Reuse* Performance
85%↓TTFT **
2x응답 속도Response Speed
~90%캐시 재사용률 ***Cache Reuse Rate ***
* 캐시 재사용(Cache Hit): 이전 대화가 저장되어 매칭 부분 있으면 고속처리** TTFT (Time to First Token): AI가 첫 글자를 출력하기까지 걸리는 시간*** 캐시 재사용률: 전체 입력 중 캐시에서 바로 읽힌 비율 (높을수록 빠름)* Cache Hit: previous conversation stored; matching parts processed at high speed** TTFT (Time to First Token): time until AI outputs first character*** Cache Reuse Rate: portion of input read from cache (higher = faster)
캐시 적중률 극대화 팁Tips to Maximize Cache Hit Rate
✓ 세션 내 CLAUDE.md 수정 금지 (캐시 rebuild)
✓ 관련 작업은 한 세션에서 연속 처리
✓ 모델 전환 자제 (Opus↔Sonnet → 캐시 무효화)
✓ /rewind 자제 (확립된 컨텍스트 보호)
✓ Don't edit CLAUDE.md mid-session (cache rebuild)
✓ Process related tasks in one session
✓ Avoid model switching (Opus↔Sonnet → invalidation)
✓ Avoid /rewind (protect established context)
핵심 결론Key Takeaways
🎯
"지원"과 "활용"은 다르다"Support" and "Usability" Are Different
1M에서 50% 이상 정확도를 유지하는 모델은 Opus(78.3)와 Sonnet(65.1)뿐Only Opus (78.3) and Sonnet (65.1) maintain >50% accuracy at 1M
⚠️
가격 절벽 vs 균일 단가Price Cliff vs Flat Pricing
GPT-5.4(272K), Gemini(200K) 초과 시 전체 비용 2배. Claude는 1M까지 균일GPT-5.4 (272K) and Gemini (200K) double total cost above threshold. Claude stays flat to 1M
🏆
가성비 1위는 Sonnet 4.6Best Value: Sonnet 4.6
정확도 대비 비용 최저. 최고 정확도는 Opus, 최저 비용은 SonnetLowest cost per accuracy point. Best accuracy: Opus. Lowest cost: Sonnet
⚡
캐시는 비용과 속도 모두에 영향Caching Impacts Both Cost and Speed
Max 1시간 TTL + 자동 캐시 → TTFT 85% 단축, 비용 90% 절감Max 1hr TTL + auto cache → 85% TTFT reduction, 90% cost savings
데이터 기준: 2026-03-14 · Sources: Anthropic, OpenAI, Google, xAI 공식 문서 + Context Arena 독립 측정Data as of: 2026-03-14 · Sources: Anthropic, OpenAI, Google, xAI official docs + Context Arena independent measurements
AI & 그로스해킹 & 데이터 활용 인사이트를 뉴스레터로 받아보세요.Get AI, Growth Hacking & Data insights delivered to your inbox.
One more thing
이 콘텐츠를 1M 토큰 베이스로 만들면서 배운 것What We Learned Making This Content on 1M Tokens
🔬 이 콘텐츠 자체가 1M 토큰 테스트🔬 This Content Is Itself a 1M Token Test
Opus 4.6 (1M context)에서 약 800K 토큰을 단일 세션으로 사용.
리서치 → 콘텐츠 생성 → 50여 장의 화면 캡처를 활용한 디자인 피드백 루프 반복 → Landscape/Portrait 대응 범용 디자인 시스템 수립까지,
compaction(메모리 압축) 없이 context를 놓치는 부분 없이 작업 완료.
Used ~800K tokens in a single Opus 4.6 (1M context) session.
Research → content creation → design feedback loops with 50+ screenshots → establishing a reusable landscape/portrait design system,
all completed without compaction and zero context loss.
⏳ Before: 200K 시대⏳ Before: 200K Era
Opus 4.6 기준 보통 2회 compaction으로 ~500K 범위에서 작업.
3회 이상 압축 시 AI 성능 저하 발생 → 세션을 랩업하고 핵심 정보를 문서/메모리에 저장한 뒤 새 세션으로 hand-off.
잘 준비해도 가끔 새 세션에서 맥락을 헤매는 경우 발생.
Typically 2 compactions for ~500K range on Opus 4.6.
3+ compactions degraded AI performance → wrap up session, save key info to docs/memory, prepare hand-off prompt for new session.
Even with good preparation, sometimes lost context in the new session.
🚀 After: 1M 시대🚀 After: 1M Era
이제 그럴 필요가 없다.
700K까지 아무런 문제 없이 작동. Opus 4.6 수준의 정교한 기억 인출 성능에서는 대규모 단일 세션 작업이 실용적.
조만간 1M 근접 테스트 및 Gemini, GPT(Codex) 등 다른 모델 비교 체감 테스트 예정.
No longer necessary.
700K worked flawlessly. With Opus 4.6-level retrieval accuracy, large single-session work is practical.
Planning to test near-1M capacity and compare with Gemini, GPT (Codex) for hands-on retrieval difference.
💰 비용 참고💰 Cost Reference
API 기준 환산 시 약 $290 (캐시 미적용 가정). 캐시 적중률 90% 이상이었으므로 실제는 더 저렴.
단, Max 플랜 ($100/5x 또는 $200/20x) 이용 중이라 월 고정 비용 외 추가 비용 없음.
주로 Claude Code 사용, 가끔 Chat/Cowork 병행.
Estimated ~$290 if on API (no cache). With 90%+ cache hit rate, actual cost would be much lower.
Using Max plan ($100/5x or $200/20x) — no additional cost beyond monthly subscription.
Primarily Claude Code, occasionally Chat/Cowork.
👁 시각을 통한 정보 판단의 중요성👁 The Importance of Visual Feedback
AI가 디자인 시스템을 잡을 때 가장 어려워하는 이유 중 하나는 렌더링된 시각 정보를 직접 보지 못하기 때문.
이번 작업에서 40여 장의 화면 캡처를 제공하며 피드백 루프를 반복한 것이 퍼포먼스에 결정적 역할을 했다.
1M 컨텍스트를 잘 활용하는 핵심 팁: 시각적 맥락을 풍부하게 제공할수록 AI의 공간 배치·레이아웃 정확도가 비약적으로 향상된다.
이후 AI가 시각을 통해 세상을 있는 그대로 보고 배우는 World Model의 진화가 더욱 기대되는 이유이기도 하다.
One reason AI struggles with design systems is that it can't directly see rendered visual output.
Providing 50+ screenshots during this session and iterating through feedback loops was critical to performance.
A key tip for leveraging 1M context: the richer the visual context you provide, the more accurately AI handles spatial layout and design.
This also makes the evolution toward World Models — where AI sees and learns from the world as it truly is — all the more exciting.
AI & 그로스해킹 & 데이터 활용 인사이트를 뉴스레터로 받아보세요.Get AI, Growth Hacking & Data insights delivered to your inbox.
크레딧Credits
기획 · 제작 · 감독 · 작가Planning · Production · Direction · Writing
고영혁 (Dylan Ko)Dylan Ko (고영혁)
Gonnector 대표 · Rainmaker with AI & DATACEO, Gonnector · Rainmaker with AI & DATA
디자인 · 개발 · 문서 · 각색Design · Dev · Docs · Adaptation
JARVIS
Just A Rather Versatile, Incidentally Sentient
Gonnector 부대표 & 수석비서VP & Chief of Staff, Gonnector
Claude Opus 4.6 (1M Context)
사용 토큰Tokens
~800K
슬라이드Slides
14
피드백 캡처Captures
50+
배포Deploys
50+
사용 도구: Claude Code / Vercel / ShareX / Chrome DevTools / Playwright 생성한 디자인 시스템: 24개 프레임워크 규칙 / 15개 레이아웃 규칙 / 9종 아이콘Tools: Claude Code / Vercel / ShareX / Chrome DevTools / Playwright Design System: 24 framework / 15 layout rules / 9 icons
✨ 단일 세션 · 메모리 압축 0회 · 핸드오프 0회 ✨✨ Single Session · 0 Memory Compactions · 0 Handoffs ✨
작업 시작일: 2026-03-14 | 최종 업데이트일: 2026-03-15Started: 2026-03-14 | Last Updated: 2026-03-15
이 웹 슬라이드 콘텐츠와 디자인 시스템의 제작은 그 자체로 1M 컨텍스트 유용성의 실전 검증입니다!The creation of this web slide content and design system is itself a real-world proof of 1M context utility!
🍪 Cookie
AI & 그로스해킹 & 데이터 활용 인사이트를 뉴스레터로 받아보세요.Get AI, Growth Hacking & Data insights delivered to your inbox.