🗺️ 06. Ландшафт LLM-моделей

📌 1. Tier List по Intelligence (Artificial Analysis, июль 2025)

Определение

Tier list — сравнительный рейтинг моделей по intelligence, coding, agent capabilities и размеру контекста. Данные Artificial Analysis, июль 2025.

TierModelIntelligenceCodingAgentContext
S+Claude Opus 4.855.774.347.2200K
SGPT-5~55~73~46400K
SGLM-5.251.168.843.11M
A+Claude Sonnet 450.367.141.5200K
A+DeepSeek V4 Pro44.359.436.4128K
AGemini 2.5 Pro49.863.239.82M
ALlama-3.3 70B41.252.032.1128K
B+GLM-4.738.548.228.7128K
BMistral Large 337.145.327.0128K
BQwen-3 72B36.844.126.5128K

📌 2. Цены (за 1M токенов, $)

ModelInputOutputContextProprietary?
Claude Opus 4.8$15.00$75.00200K
GPT-5$10.00$40.00400K
Claude Sonnet 4$3.00$15.00200K
GLM-5.2$0.93$3.001M✅ (Zhipu)
DeepSeek V4 Pro$0.27$1.10128KOpen weights
Gemini 2.5 Pro$1.25$5.002M
Llama-3.3 70B$0.59$0.79128KOpen weights
GLM-4.7$0.20$0.60128KOpen weights

📌 3. Кто есть кто

🔹 Anthropic — Claude

  • Opus 4.8 — флагман, топ по качеству, очень дорогой
  • Sonnet 4 — баланс качества и цены, стандарт для production agents
  • Haiku — быстрый, дешёвый, для простых задач
  • Особенности: extended thinking, MCP creator, Constitutional AI

🔹 OpenAI — GPT

  • GPT-5 — флагман, multimodal native
  • GPT-4o — предыдущее поколение, ещё широко используется
  • o3 — reasoning model, chain-of-thought перед ответом
  • Особенности: function calling pioneer, Assistants API

🔹 Zhipu AI — GLM (модель Hermes сейчас)

  • GLM-5.2 — флагман, 1M контекст, 128K output
  • GLM-5.1 — предыдущее поколение
  • GLM-5-Turbo — быстрее, дешевле
  • GLM-4.7 / 4.7-Flash — средний сегмент
  • Особенности: лучший price/quality, длинный контекст, open-source варианты
  • Доступ через: Zhipu API, z.ai (ресейлер), OpenRouter

🔹 DeepSeek

  • V4 Pro — MoE, 671B параметров, 37B активных
  • R1 — reasoning model (как o1, но open-source)
  • V3 — base model, всё ещё актуальна
  • Особенности: open weights, невероятно дешёвый, MoE architecture

🔹 Meta — Llama

  • Llama-3.3 70B — лучший open-source в своём размере
  • Llama-3.1 405B — огромный, сопоставим с GPT-4
  • Особенности: полностью open weights, комьюнити fine-tunes

🔹 Google — Gemini

  • 2.5 Pro — 2M контекст, multimodal native
  • Особенности: длинный контекст, интеграция с Google ecosystem

🔹 Mistral

  • Large 3 — европейская альтернатива
  • Mixtral 8x22B — MoE, open weights

🔹 Qwen (Alibaba)

  • Qwen-3 72B — топ open-source для китайского/мультиязычного
  • Сильный в коде, математике

📌 4. Как выбирать модель (decision tree)

На собеседовании

Знайте trade-off: GLM-5.2 — лучший price/quality + 1M контекст; DeepSeek V4 Pro — дешевле всего с open weights; Claude Opus 4.8 — топ качество, но дорого.

Бюджет не ограничен, нужно лучшее качество?
  → Claude Opus 4.8 или GPT-5

Нужен длинный контекст (>200K)?
  → GLM-5.2 (1M) или Gemini 2.5 Pro (2M)

Self-hosted, есть GPU?
  → Llama-3.3 70B (FP16, 2×A100) или DeepSeek V4 Pro (MoE)

Дешёвый API с хорошим качеством?
  → GLM-5.2 ($0.93/$3) или DeepSeek V4 Pro ($0.27/$1.10)

Reasoning задачи (математика, логика)?
  → DeepSeek R1, o3, или GLM-5.2 с thinking mode

Multimodal (vision)?
  → GPT-5, Gemini 2.5 Pro, Claude Sonnet 4

Agentic workflows?
  → Claude Sonnet 4, GLM-5.2, GPT-5 (лучший tool use)

Русский язык?
  → GLM, GPT-5, DeepSeek (все хорошо работают)
flowchart TD
    Start["Выбор модели"] --> Budget{"Бюджет не ограничен?"}
    Budget -->|Да| Top["Claude Opus 4.8 / GPT-5"]
    Budget -->|Нет| Context{"Контекст >200K?"}
    Context -->|Да| Long["GLM-5.2 / Gemini 2.5 Pro"]
    Context -->|Нет| SelfHost{"Self-hosted?"}
    SelfHost -->|Да| Local["Llama-3.3 70B / DeepSeek V4"]
    SelfHost -->|Нет| Cheap["GLM-5.2 / DeepSeek V4 Pro"]

📌 5. Специфические бенчмарки

🔹 Coding (код)

BenchmarkЧто проверяет
HumanEvalГенерация Python функций
MBPPMostly Basic Python Problems
SWE-benchРеальные GitHub issues (end-to-end)
LiveCodeBenchСоревновательные задачи LeetCode
AiderРедактирование кода в реальном проекте

🔹 Reasoning (рассуждение)

BenchmarkЧто проверяет
MMLU57 предметов (academic knowledge)
GPQAGraduate-level science questions
MATHМатематические задачи
ARCНаучное рассуждение

🔹 Agents (агенты)

BenchmarkЧто проверяет
τ-benchTool use в диалоге
AgentBenchМногошаговые agent задачи
WebArenaВеб-навигация
SWE-benchРеальные software engineering задачи

Важно

SWE-bench — самый реалистичный coding benchmark (реальные GitHub issues end-to-end). HumanEval/MBPP проверяют только генерацию изолированных функций.