🗺️ 06. Ландшафт LLM-моделей
📌 1. Tier List по Intelligence (Artificial Analysis, июль 2025)
Определение
Tier list — сравнительный рейтинг моделей по intelligence, coding, agent capabilities и размеру контекста. Данные Artificial Analysis, июль 2025.
| Tier | Model | Intelligence | Coding | Agent | Context |
|---|---|---|---|---|---|
| S+ | Claude Opus 4.8 | 55.7 | 74.3 | 47.2 | 200K |
| S | GPT-5 | ~55 | ~73 | ~46 | 400K |
| S | GLM-5.2 | 51.1 | 68.8 | 43.1 | 1M |
| A+ | Claude Sonnet 4 | 50.3 | 67.1 | 41.5 | 200K |
| A+ | DeepSeek V4 Pro | 44.3 | 59.4 | 36.4 | 128K |
| A | Gemini 2.5 Pro | 49.8 | 63.2 | 39.8 | 2M |
| A | Llama-3.3 70B | 41.2 | 52.0 | 32.1 | 128K |
| B+ | GLM-4.7 | 38.5 | 48.2 | 28.7 | 128K |
| B | Mistral Large 3 | 37.1 | 45.3 | 27.0 | 128K |
| B | Qwen-3 72B | 36.8 | 44.1 | 26.5 | 128K |
📌 2. Цены (за 1M токенов, $)
| Model | Input | Output | Context | Proprietary? |
|---|---|---|---|---|
| Claude Opus 4.8 | $15.00 | $75.00 | 200K | ✅ |
| GPT-5 | $10.00 | $40.00 | 400K | ✅ |
| Claude Sonnet 4 | $3.00 | $15.00 | 200K | ✅ |
| GLM-5.2 | $0.93 | $3.00 | 1M | ✅ (Zhipu) |
| DeepSeek V4 Pro | $0.27 | $1.10 | 128K | Open weights |
| Gemini 2.5 Pro | $1.25 | $5.00 | 2M | ✅ |
| Llama-3.3 70B | $0.59 | $0.79 | 128K | Open weights |
| GLM-4.7 | $0.20 | $0.60 | 128K | Open weights |
📌 3. Кто есть кто
🔹 Anthropic — Claude
- Opus 4.8 — флагман, топ по качеству, очень дорогой
- Sonnet 4 — баланс качества и цены, стандарт для production agents
- Haiku — быстрый, дешёвый, для простых задач
- Особенности: extended thinking, MCP creator, Constitutional AI
🔹 OpenAI — GPT
- GPT-5 — флагман, multimodal native
- GPT-4o — предыдущее поколение, ещё широко используется
- o3 — reasoning model, chain-of-thought перед ответом
- Особенности: function calling pioneer, Assistants API
🔹 Zhipu AI — GLM (модель Hermes сейчас)
- GLM-5.2 — флагман, 1M контекст, 128K output
- GLM-5.1 — предыдущее поколение
- GLM-5-Turbo — быстрее, дешевле
- GLM-4.7 / 4.7-Flash — средний сегмент
- Особенности: лучший price/quality, длинный контекст, open-source варианты
- Доступ через: Zhipu API, z.ai (ресейлер), OpenRouter
🔹 DeepSeek
- V4 Pro — MoE, 671B параметров, 37B активных
- R1 — reasoning model (как o1, но open-source)
- V3 — base model, всё ещё актуальна
- Особенности: open weights, невероятно дешёвый, MoE architecture
🔹 Meta — Llama
- Llama-3.3 70B — лучший open-source в своём размере
- Llama-3.1 405B — огромный, сопоставим с GPT-4
- Особенности: полностью open weights, комьюнити fine-tunes
🔹 Google — Gemini
- 2.5 Pro — 2M контекст, multimodal native
- Особенности: длинный контекст, интеграция с Google ecosystem
🔹 Mistral
- Large 3 — европейская альтернатива
- Mixtral 8x22B — MoE, open weights
🔹 Qwen (Alibaba)
- Qwen-3 72B — топ open-source для китайского/мультиязычного
- Сильный в коде, математике
📌 4. Как выбирать модель (decision tree)
На собеседовании
Знайте trade-off: GLM-5.2 — лучший price/quality + 1M контекст; DeepSeek V4 Pro — дешевле всего с open weights; Claude Opus 4.8 — топ качество, но дорого.
Бюджет не ограничен, нужно лучшее качество?
→ Claude Opus 4.8 или GPT-5
Нужен длинный контекст (>200K)?
→ GLM-5.2 (1M) или Gemini 2.5 Pro (2M)
Self-hosted, есть GPU?
→ Llama-3.3 70B (FP16, 2×A100) или DeepSeek V4 Pro (MoE)
Дешёвый API с хорошим качеством?
→ GLM-5.2 ($0.93/$3) или DeepSeek V4 Pro ($0.27/$1.10)
Reasoning задачи (математика, логика)?
→ DeepSeek R1, o3, или GLM-5.2 с thinking mode
Multimodal (vision)?
→ GPT-5, Gemini 2.5 Pro, Claude Sonnet 4
Agentic workflows?
→ Claude Sonnet 4, GLM-5.2, GPT-5 (лучший tool use)
Русский язык?
→ GLM, GPT-5, DeepSeek (все хорошо работают)
flowchart TD Start["Выбор модели"] --> Budget{"Бюджет не ограничен?"} Budget -->|Да| Top["Claude Opus 4.8 / GPT-5"] Budget -->|Нет| Context{"Контекст >200K?"} Context -->|Да| Long["GLM-5.2 / Gemini 2.5 Pro"] Context -->|Нет| SelfHost{"Self-hosted?"} SelfHost -->|Да| Local["Llama-3.3 70B / DeepSeek V4"] SelfHost -->|Нет| Cheap["GLM-5.2 / DeepSeek V4 Pro"]
📌 5. Специфические бенчмарки
🔹 Coding (код)
| Benchmark | Что проверяет |
|---|---|
| HumanEval | Генерация Python функций |
| MBPP | Mostly Basic Python Problems |
| SWE-bench | Реальные GitHub issues (end-to-end) |
| LiveCodeBench | Соревновательные задачи LeetCode |
| Aider | Редактирование кода в реальном проекте |
🔹 Reasoning (рассуждение)
| Benchmark | Что проверяет |
|---|---|
| MMLU | 57 предметов (academic knowledge) |
| GPQA | Graduate-level science questions |
| MATH | Математические задачи |
| ARC | Научное рассуждение |
🔹 Agents (агенты)
| Benchmark | Что проверяет |
|---|---|
| τ-bench | Tool use в диалоге |
| AgentBench | Многошаговые agent задачи |
| WebArena | Веб-навигация |
| SWE-bench | Реальные software engineering задачи |
Важно
SWE-bench — самый реалистичный coding benchmark (реальные GitHub issues end-to-end). HumanEval/MBPP проверяют только генерацию изолированных функций.