1 / 15
목차Contents
2026-03-14 기준 As of 2026-03-14 Claude · GPT · Gemini · Grok

1M Context의 진실 The Truth About 1M Context

가격 · 성능 · 캐시
프론티어 AI 모델 완전 비교
Pricing · Performance · Cache
Complete Frontier AI Model Comparison

→ 또는 ← 키로 이동 · 모바일은 좌우 스와이프 Use → / ← keys · Swipe on mobile

데스크톱에서는 Full HD 전체 화면에서 가장 잘 보이지만, 브라우저 크기에 맞게 자동 조정됩니다. Best viewed in Full HD fullscreen on desktop, but auto-adjusts to any browser size.

2026-03-13 · Anthropic 공식 발표 2026-03-13 · Anthropic Official Announcement

1M Context, 정식 출시 1M Context, Now GA

추가 요금 없음No Surcharge

900K든 9K든 동일 단가. 프리미엄 완전 폐지. Same rate for 900K or 9K. Premium fully abolished.

MRCR v2 최고 점수MRCR v2 Top Score

Opus 4.6 — 프론티어 모델 중 1위 78.3% Opus 4.6 — #1 among frontier models 78.3%

Opus 4.6 + Sonnet 4.6 적용Opus 4.6 + Sonnet 4.6

Claude Code는 Max · Enterprise · Team 플랜에서 현재 바로 사용 가능 Claude Code available now on Max · Enterprise · Team plans

미디어 한도 6배 확대6x Media Limit Increase

PDF · 이미지 업로드: 100매 → 600매 PDF · image upload: 100 → 600 per request

놀라운 발표다. 1M라... Impressive. 1M...

1M 토큰, 대체 얼마나 되는 걸까? How Big is 1M Tokens, Really?

한 번에 읽을 수 있는 What It Can Read At Once

📚

해리포터 5권5 Harry Potter Books

마법사의 돌부터 불사조 기사단까지 From Philosopher's Stone to Order of the Phoenix

🎬

영화 대본 30편30 Movie Scripts

마블 MCU Phase 1~4 분량 Marvel MCU Phase 1–4 worth

📺

미드 전 시즌Entire TV Series

브레이킹 배드 5시즌 62화 대본 통째로 Breaking Bad all 5 seasons, 62 episodes

유튜브 2,500편2,500 YouTube Videos

10분 영상의 자막 2,500개 분량 Subtitles from 2,500 10-min videos

📄

A4 1,500장1,500 Pages

쌓으면 15cm 높이 15cm stack height

⏱️

50시간50 Hours

사람이 쉬지 않고 읽으면 꼬박 2일 2 full days of non-stop reading

이 정도를 한 번에 이해할 수 있다면?
하지만...
What if AI could understand all of this at once?
But...

그런데, 잠깐. Wait a moment.

1M 지원 1M 활용 1M Support 1M Usable

5개 모델이 1M 토큰을 "지원"한다.
그런데 정말로 1M 토큰을 넣었을 때,
정보를 정확히 찾아낼 수 있을까?
Five models "support" 1M tokens.
But when you actually feed 1M tokens,
can they accurately retrieve the information?

가격부터 살펴보자. → Let's start with pricing. →

Table 1

기본 토큰 단가 per 1M tokens Base Token Pricing per 1M tokens

모델Model 입력Input 출력Output 컨텍스트Context 긴 컨텍스트 할증Long Context Surcharge
Claude Opus 4.6 $5.00 $25.00 1M 없음 (균일)None (flat)
Claude Sonnet 4.6 $3.00 $15.00 1M 없음 (균일)None (flat)
GPT-5.4 $2.50 $15.00 1.05M >272K → 전체 2x/1.5x>272K → entire 2x/1.5x
GPT-4.1 $2.00 $8.00 1M 없음 (균일)None (flat)
Gemini 3.1 Pro $2.00 $12.00 1M >200K → 전체 2x/1.5x>200K → entire 2x/1.5x
Gemini 2.5 Pro $1.25 $10.00 1M >200K → 전체 2x/1.5x>200K → entire 2x/1.5x
Grok 4.1 Fast $0.20 $0.50 2M 없음 (균일)None (flat)

* "균일" = 1K이든 1M이든 동일 단가  ·  할증 = 임계치 초과 시 전체 토큰에 배율 적용 * "Flat" = same rate whether 1K or 1M  ·  Surcharge = multiplier applied to all tokens when threshold exceeded

가격 절벽 (Cliff Effect) Price Cliff Effect

199K vs 201K — 비용이 2배 199K vs 201K — Cost Doubles

GPT-5.4와 Gemini는 특정 토큰 수를 넘으면 전체 세션에 할증이 적용됩니다. 초과분만이 아닌, 모든 토큰에. GPT-5.4 and Gemini apply surcharges to the entire session once crossed. Not just the excess — every single token.

입력 200K일 때 비용: Cost at 200K input:
Gemini 3.1 Pro  $0.40
GPT-5.4  $0.50
Claude Opus 4.6  $1.00
입력 201K일 때 비용 (1K 추가했을 뿐): Cost at 201K input (just 1K more):
Gemini 3.1 Pro  $0.80 (+100%!) (+100%!)
GPT-5.4  $0.50 (272K까지 유지) (holds until 272K)
Claude Opus 4.6  $1.00 (변화 없음) (no change)

Claude의 차별점: Claude's advantage: 어떤 길이든 동일 단가. 비용 예측이 단순하고, "토큰 절약을 위해 컨텍스트를 줄이는" 비합리적 행동을 유발하지 않음. Flat pricing at any length. Cost is predictable, and you never have to irrationally trim context to save tokens.

Table 2

캐시(Cache) 단가 및 정책 Cache Pricing & Policies

모델Model 방식Method Write Read 저장비용Storage 할인율Discount
Claude Opus 4.6 명시적Explicit $6.25 $0.50 무료 (TTL)Free (TTL) 90%
Claude Sonnet 4.6 명시적Explicit $3.75 $0.30 무료 (TTL)Free (TTL) 90%
GPT-5.4 자동Auto $0 $0.25 N/A 90%
GPT-4.1 자동Auto $0 $0.50 N/A 75%
Gemini 3.1 Pro 명시적Explicit $0 $0.50 $4.50/hr 75%

TTL이란? What is TTL?

TTL (Time To Live): 캐시가 유지되는 시간. 이 시간 안에 다시 사용하면 캐시가 연장되고, 초과하면 삭제되어 처음부터 다시 처리. TTL이 길수록 재사용 확률이 높아져 속도 향상 + 비용 절감. 요금제별로 TTL이 다르므로 사용 패턴에 맞는 플랜 선택이 중요. TTL (Time To Live): how long cache stays alive. Reuse within TTL extends it; exceed it and cache is purged, requiring full reprocessing. Longer TTL means higher reuse probability → faster + cheaper. TTL varies by plan, so choosing the right plan for your usage pattern matters.

명시적 vs 자동 Explicit vs Auto

명시적: 개발자가 캐시 대상 지정, TTL 관리 필요
자동: 동일 prefix 감지 시 자동 hit, 설정 불요
Explicit: developer designates cache targets, TTL management needed
Auto: auto-hit on identical prefix detection, no setup required

숨겨진 비용 Hidden Costs

Gemini의 시간당 저장 비용은 캐시를 장시간 유지하면 누적. Claude/OpenAI는 저장 비용 없음. Gemini's hourly storage cost accumulates with long cache retention.
Claude/OpenAI have no storage fees.

시나리오 비용 ① Cost Scenario ①

할증 미적용 구간 — 입력 ≤200K Below Surcharge Threshold — Input ≤200K

A. 대화형 (입력:출력 = 2:1) A. Conversational (in:out = 2:1)

200K in · 100K out

Standard
Gemini 3.1$1.60
GPT-5.4$2.00
Sonnet 4.6$2.10
Opus 4.6$3.50

GPT-5.4: 272K 미만 · Gemini: 200K 이하
→ 모든 모델이 기본 단가 적용
GPT-5.4: below 272K · Gemini: at or below 200K
→ All models at base pricing

⚠️ 하지만 이 구간은 비현실적 ⚠️ But this range is unrealistic

1M 컨텍스트를 제대로 활용하려면
200K에 머물 수 없다.

코딩 어시스턴트, 문서 분석, 이미지 처리 등
1M이 필요한 실전 시나리오에서는
GPT-5.4(>272K)와 Gemini(>200K)의
할증이 반드시 적용
된다.

다음 슬라이드가 현실이다. →
To truly leverage 1M context,
you can't stay under 200K.

For real-world scenarios like coding assistants,
document analysis, and image processing,
GPT-5.4 (>272K) and Gemini (>200K)
surcharges always apply
.

Next slide is reality. →

시나리오 비용 ② — 이것이 현실 Cost Scenario ② — This Is Reality

할증 적용 구간 — 입력 >200K (1M 활용 시) Above Surcharge Threshold — Input >200K (using 1M)

B. 코딩 어시스턴트 (입력:출력 = 18:1) B. Coding Assistant (in:out = 18:1)

900K in · 50K out · 할증 적용 900K in · 50K out · surcharge applied

StandardCached
Opus 4.6$5.75$2.11
Sonnet 4.6$3.45$1.26
GPT-5.4$5.63$1.78
Gemini 3.1$4.50$1.67*

C. 문서/PDF 분석 (입력:출력 = 8:1) C. Document/PDF Analysis (in:out = 8:1)

800K in · 100K out · 할증 적용 800K in · 100K out · surcharge applied

StandardCached
Opus 4.6$6.50$3.26
Sonnet 4.6$3.90$1.96
GPT-5.4$6.25$2.83
Gemini 3.1$5.00$2.48*

D. 이미지 600장 (입력:출력 = 20:1) D. 600 Images (in:out = 20:1)

⚠️ 이미지 토큰 제공사별 차이 극심! ⚠️ Image token counts vary drastically by provider!

tok/장tok/img 합계Total 할증Surcharge
Gemini 258 $1.59 155K — 미적용! 155K — none!
GPT-5.4 1,100 $4.63 660K — 적용 660K — applied
Sonnet 4.6 1,600 $3.75 해당 없음 N/A
Opus 4.6 1,600 $6.25 해당 없음 N/A

핵심 관찰 Key Observation

GPT-5.4·Gemini의 "저렴한" 기본 단가
200K 이하에서만 유효하다.

1M을 실제로 쓰면 할증이 적용되어
Claude와 비용 차이가 크게 줄어들거나
역전
된다.

이 상태에서 정확도까지 고려하면?
[다음 슬라이드] →
GPT-5.4 and Gemini's "cheap" base rates
only apply below 200K.

At actual 1M usage, surcharges kick in and
the cost gap with Claude shrinks
dramatically or reverses
.

Factor in accuracy?
[Next slide] →

* Gemini cached: +$4.50/hr 저장 비용 별도 · GPT-5.4/Gemini 비용은 할증 단가 적용 * Gemini cached: +$4.50/hr storage cost separate · GPT-5.4/Gemini costs include surcharge rates

MRCR v2 (8-needle) 벤치마크 MRCR v2 (8-needle) Benchmark

긴 컨텍스트에서 정보를 얼마나 정확히 찾는가 How Accurately Can Models Retrieve Information in Long Context?

MRCR v2 8-needle benchmark

Source: Anthropic blog & X

MRCR v2란? What is MRCR v2?

OpenAI 개발 벤치마크. 대화 속에 동일한 요청 8개를 숨기고, "N번째 것을 재현해"라고 요구. 8개의 바늘 중 정확한 순서를 구별해야 하므로 극도로 어려움. Benchmark developed by OpenAI. Hides 8 identical requests within a conversation and asks "reproduce the Nth one." Extremely difficult as the model must distinguish the exact order among 8 needles.

하락률 (256K → 1M) Accuracy Drop (256K → 1M)

Opus 4.6-15%최소 하락Least drop
Sonnet 4.6-28%
GPT-5.4-54%절반 상실Half lost
Gemini 3.1-56%최악Worst

가성비 종합 Cost-Efficiency Summary

1M에서 정확도 1%포인트당 비용 ($/point) Cost per 1% Accuracy Point at 1M ($/point)

코딩 어시스턴트 시나리오 (900K in, 50K out) 기준 Based on coding assistant scenario (900K in, 50K out)

모델Model 비용 (표준)Cost (Std) MRCR 1M $/point (표준)$/point (Std) $/point (캐시)$/point (Cache)
Sonnet 4.6 $3.45 65.1 $0.053 $0.019
Opus 4.6 $5.75 78.3 $0.073 $0.027
GPT-5.4 $5.63 36.6 $0.154 $0.049
Gemini 3.1 Pro $4.50 25.9 $0.174 $0.064

가성비 1위: Sonnet 4.6 — 정확도 대비 비용이 가장 낮음. 최고 정확도가 필요하면 Opus, 최저 단가가 필요하면 Sonnet. Best value: Sonnet 4.6 — lowest cost relative to accuracy. Need highest accuracy? Opus. Need lowest cost? Sonnet.

캐시 전략 Cache Strategy

TTL이 체감 속도를 결정한다 TTL Determines Perceived Speed

Max Plan
1시간 1 Hour

1시간 내 재작업하면 캐시 유지 Cache persists if you resume within 1 hour

vs
Pro / API
5분 5 Min

5분간 작업 없으면 캐시 리셋 Cache resets after 5 min of inactivity

캐시 재사용* 시 성능 Cache Reuse* Performance

85%↓ TTFT **
2x 응답 속도 Response Speed
~90% 캐시 재사용률 *** Cache Reuse Rate ***

* 캐시 재사용(Cache Hit): 이전 대화가 저장되어 매칭 부분 있으면 고속처리 ** TTFT (Time to First Token): AI가 첫 글자를 출력하기까지 걸리는 시간 *** 캐시 재사용률: 전체 입력 중 캐시에서 바로 읽힌 비율 (높을수록 빠름) * Cache Hit: previous conversation stored; matching parts processed at high speed ** TTFT (Time to First Token): time until AI outputs first character *** Cache Reuse Rate: portion of input read from cache (higher = faster)

캐시 적중률 극대화 팁 Tips to Maximize Cache Hit Rate

✓ 세션 내 CLAUDE.md 수정 금지 (캐시 rebuild)
✓ 관련 작업은 한 세션에서 연속 처리
✓ 모델 전환 자제 (Opus↔Sonnet → 캐시 무효화)
✓ /rewind 자제 (확립된 컨텍스트 보호)
✓ Don't edit CLAUDE.md mid-session (cache rebuild)
✓ Process related tasks in one session
✓ Avoid model switching (Opus↔Sonnet → invalidation)
✓ Avoid /rewind (protect established context)

핵심 결론 Key Takeaways

🎯

"지원"과 "활용"은 다르다 "Support" and "Usability" Are Different

1M에서 50% 이상 정확도를 유지하는 모델은 Opus(78.3)와 Sonnet(65.1)뿐 Only Opus (78.3) and Sonnet (65.1) maintain >50% accuracy at 1M

⚠️

가격 절벽 vs 균일 단가 Price Cliff vs Flat Pricing

GPT-5.4(272K), Gemini(200K) 초과 시 전체 비용 2배. Claude는 1M까지 균일 GPT-5.4 (272K) and Gemini (200K) double total cost above threshold. Claude stays flat to 1M

🏆

가성비 1위는 Sonnet 4.6 Best Value: Sonnet 4.6

정확도 대비 비용 최저. 최고 정확도는 Opus, 최저 비용은 Sonnet Lowest cost per accuracy point. Best accuracy: Opus. Lowest cost: Sonnet

캐시는 비용과 속도 모두에 영향 Caching Impacts Both Cost and Speed

Max 1시간 TTL + 자동 캐시 → TTFT 85% 단축, 비용 90% 절감 Max 1hr TTL + auto cache → 85% TTFT reduction, 90% cost savings

데이터 기준: 2026-03-14  ·  Sources: Anthropic, OpenAI, Google, xAI 공식 문서 + Context Arena 독립 측정 Data as of: 2026-03-14  ·  Sources: Anthropic, OpenAI, Google, xAI official docs + Context Arena independent measurements

AI & 그로스해킹 & 데이터 활용 인사이트를 뉴스레터로 받아보세요. Get AI, Growth Hacking & Data insights delivered to your inbox.

One more thing

이 콘텐츠를 1M 토큰 베이스로 만들면서 배운 것 What We Learned Making This Content on 1M Tokens

🔬 이 콘텐츠 자체가 1M 토큰 테스트 🔬 This Content Is Itself a 1M Token Test

Opus 4.6 (1M context)에서 약 800K 토큰을 단일 세션으로 사용. 리서치 → 콘텐츠 생성 → 50여 장의 화면 캡처를 활용한 디자인 피드백 루프 반복 → Landscape/Portrait 대응 범용 디자인 시스템 수립까지, compaction(메모리 압축) 없이 context를 놓치는 부분 없이 작업 완료. Used ~800K tokens in a single Opus 4.6 (1M context) session. Research → content creation → design feedback loops with 50+ screenshots → establishing a reusable landscape/portrait design system, all completed without compaction and zero context loss.

⏳ Before: 200K 시대 ⏳ Before: 200K Era

Opus 4.6 기준 보통 2회 compaction으로 ~500K 범위에서 작업. 3회 이상 압축 시 AI 성능 저하 발생 → 세션을 랩업하고 핵심 정보를 문서/메모리에 저장한 뒤 새 세션으로 hand-off. 잘 준비해도 가끔 새 세션에서 맥락을 헤매는 경우 발생. Typically 2 compactions for ~500K range on Opus 4.6. 3+ compactions degraded AI performance → wrap up session, save key info to docs/memory, prepare hand-off prompt for new session. Even with good preparation, sometimes lost context in the new session.

🚀 After: 1M 시대 🚀 After: 1M Era

이제 그럴 필요가 없다. 700K까지 아무런 문제 없이 작동. Opus 4.6 수준의 정교한 기억 인출 성능에서는 대규모 단일 세션 작업이 실용적. 조만간 1M 근접 테스트 및 Gemini, GPT(Codex) 등 다른 모델 비교 체감 테스트 예정. No longer necessary. 700K worked flawlessly. With Opus 4.6-level retrieval accuracy, large single-session work is practical. Planning to test near-1M capacity and compare with Gemini, GPT (Codex) for hands-on retrieval difference.

💰 비용 참고 💰 Cost Reference

API 기준 환산 시 약 $290 (캐시 미적용 가정). 캐시 적중률 90% 이상이었으므로 실제는 더 저렴. 단, Max 플랜 ($100/5x 또는 $200/20x) 이용 중이라 월 고정 비용 외 추가 비용 없음. 주로 Claude Code 사용, 가끔 Chat/Cowork 병행. Estimated ~$290 if on API (no cache). With 90%+ cache hit rate, actual cost would be much lower. Using Max plan ($100/5x or $200/20x) — no additional cost beyond monthly subscription. Primarily Claude Code, occasionally Chat/Cowork.

👁 시각을 통한 정보 판단의 중요성 👁 The Importance of Visual Feedback

AI가 디자인 시스템을 잡을 때 가장 어려워하는 이유 중 하나는 렌더링된 시각 정보를 직접 보지 못하기 때문. 이번 작업에서 40여 장의 화면 캡처를 제공하며 피드백 루프를 반복한 것이 퍼포먼스에 결정적 역할을 했다. 1M 컨텍스트를 잘 활용하는 핵심 팁: 시각적 맥락을 풍부하게 제공할수록 AI의 공간 배치·레이아웃 정확도가 비약적으로 향상된다. 이후 AI가 시각을 통해 세상을 있는 그대로 보고 배우는 World Model의 진화가 더욱 기대되는 이유이기도 하다. One reason AI struggles with design systems is that it can't directly see rendered visual output. Providing 50+ screenshots during this session and iterating through feedback loops was critical to performance. A key tip for leveraging 1M context: the richer the visual context you provide, the more accurately AI handles spatial layout and design. This also makes the evolution toward World Models — where AI sees and learns from the world as it truly is — all the more exciting.

AI & 그로스해킹 & 데이터 활용 인사이트를 뉴스레터로 받아보세요. Get AI, Growth Hacking & Data insights delivered to your inbox.

크레딧Credits

기획 · 제작 · 감독 · 작가 Planning · Production · Direction · Writing

고영혁 (Dylan Ko) Dylan Ko (고영혁)

Gonnector 대표 · Rainmaker with AI & DATA CEO, Gonnector · Rainmaker with AI & DATA

디자인 · 개발 · 문서 · 각색 Design · Dev · Docs · Adaptation

JARVIS

Just A Rather Versatile, Incidentally Sentient

Gonnector 부대표 & 수석비서 VP & Chief of Staff, Gonnector
Claude Opus 4.6 (1M Context)

사용 토큰Tokens

~800K

슬라이드Slides

14

피드백 캡처Captures

50+

배포Deploys

50+

사용 도구: Claude Code / Vercel / ShareX / Chrome DevTools / Playwright
생성한 디자인 시스템: 24개 프레임워크 규칙 / 15개 레이아웃 규칙 / 9종 아이콘
Tools: Claude Code / Vercel / ShareX / Chrome DevTools / Playwright
Design System: 24 framework / 15 layout rules / 9 icons

✨ 단일 세션 · 메모리 압축 0회 · 핸드오프 0회 ✨ ✨ Single Session · 0 Memory Compactions · 0 Handoffs ✨

작업 시작일: 2026-03-14  |  최종 업데이트일: 2026-03-15 Started: 2026-03-14  |  Last Updated: 2026-03-15

이 웹 슬라이드 콘텐츠와 디자인 시스템의 제작은
그 자체로 1M 컨텍스트 유용성의 실전 검증입니다!
The creation of this web slide content and design system
is itself a real-world proof of 1M context utility!

🍪 Cookie

AI & 그로스해킹 & 데이터 활용 인사이트를 뉴스레터로 받아보세요. Get AI, Growth Hacking & Data insights delivered to your inbox.