🗺️ 06. Ландшафт LLM-моделей

📌 1. Tier List по Intelligence (Artificial Analysis, июль 2025)

Определение

Tier list — сравнительный рейтинг моделей по intelligence, coding, agent capabilities и размеру контекста. Данные Artificial Analysis, июль 2025.

Tier	Model	Intelligence	Coding	Agent	Context
S+	Claude Opus 4.8	55.7	74.3	47.2	200K
S	GPT-5	~55	~73	~46	400K
S	GLM-5.2	51.1	68.8	43.1	1M
A+	Claude Sonnet 4	50.3	67.1	41.5	200K
A+	DeepSeek V4 Pro	44.3	59.4	36.4	128K
A	Gemini 2.5 Pro	49.8	63.2	39.8	2M
A	Llama-3.3 70B	41.2	52.0	32.1	128K
B+	GLM-4.7	38.5	48.2	28.7	128K
B	Mistral Large 3	37.1	45.3	27.0	128K
B	Qwen-3 72B	36.8	44.1	26.5	128K

📌 2. Цены (за 1M токенов, $)

Model	Input	Output	Context	Proprietary?
Claude Opus 4.8	$15.00	$75.00	200K	✅
GPT-5	$10.00	$40.00	400K	✅
Claude Sonnet 4	$3.00	$15.00	200K	✅
GLM-5.2	$0.93	$3.00	1M	✅ (Zhipu)
DeepSeek V4 Pro	$0.27	$1.10	128K	Open weights
Gemini 2.5 Pro	$1.25	$5.00	2M	✅
Llama-3.3 70B	$0.59	$0.79	128K	Open weights
GLM-4.7	$0.20	$0.60	128K	Open weights

📌 3. Кто есть кто

🔹 Anthropic — Claude

Opus 4.8 — флагман, топ по качеству, очень дорогой
Sonnet 4 — баланс качества и цены, стандарт для production agents
Haiku — быстрый, дешёвый, для простых задач
Особенности: extended thinking, MCP creator, Constitutional AI

🔹 OpenAI — GPT

GPT-5 — флагман, multimodal native
GPT-4o — предыдущее поколение, ещё широко используется
o3 — reasoning model, chain-of-thought перед ответом
Особенности: function calling pioneer, Assistants API

🔹 Zhipu AI — GLM (модель Hermes сейчас)

GLM-5.2 — флагман, 1M контекст, 128K output
GLM-5.1 — предыдущее поколение
GLM-5-Turbo — быстрее, дешевле
GLM-4.7 / 4.7-Flash — средний сегмент
Особенности: лучший price/quality, длинный контекст, open-source варианты
Доступ через: Zhipu API, z.ai (ресейлер), OpenRouter

🔹 DeepSeek

V4 Pro — MoE, 671B параметров, 37B активных
R1 — reasoning model (как o1, но open-source)
V3 — base model, всё ещё актуальна
Особенности: open weights, невероятно дешёвый, MoE architecture

🔹 Meta — Llama

Llama-3.3 70B — лучший open-source в своём размере
Llama-3.1 405B — огромный, сопоставим с GPT-4
Особенности: полностью open weights, комьюнити fine-tunes

🔹 Google — Gemini

2.5 Pro — 2M контекст, multimodal native
Особенности: длинный контекст, интеграция с Google ecosystem

🔹 Mistral

Large 3 — европейская альтернатива
Mixtral 8x22B — MoE, open weights

🔹 Qwen (Alibaba)

Qwen-3 72B — топ open-source для китайского/мультиязычного
Сильный в коде, математике

📌 4. Как выбирать модель (decision tree)

На собеседовании

Знайте trade-off: GLM-5.2 — лучший price/quality + 1M контекст; DeepSeek V4 Pro — дешевле всего с open weights; Claude Opus 4.8 — топ качество, но дорого.

Бюджет не ограничен, нужно лучшее качество?
  → Claude Opus 4.8 или GPT-5

Нужен длинный контекст (>200K)?
  → GLM-5.2 (1M) или Gemini 2.5 Pro (2M)

Self-hosted, есть GPU?
  → Llama-3.3 70B (FP16, 2×A100) или DeepSeek V4 Pro (MoE)

Дешёвый API с хорошим качеством?
  → GLM-5.2 ($0.93/$3) или DeepSeek V4 Pro ($0.27/$1.10)

Reasoning задачи (математика, логика)?
  → DeepSeek R1, o3, или GLM-5.2 с thinking mode

Multimodal (vision)?
  → GPT-5, Gemini 2.5 Pro, Claude Sonnet 4

Agentic workflows?
  → Claude Sonnet 4, GLM-5.2, GPT-5 (лучший tool use)

Русский язык?
  → GLM, GPT-5, DeepSeek (все хорошо работают)

flowchart TD
    Start["Выбор модели"] --> Budget{"Бюджет не ограничен?"}
    Budget -->|Да| Top["Claude Opus 4.8 / GPT-5"]
    Budget -->|Нет| Context{"Контекст >200K?"}
    Context -->|Да| Long["GLM-5.2 / Gemini 2.5 Pro"]
    Context -->|Нет| SelfHost{"Self-hosted?"}
    SelfHost -->|Да| Local["Llama-3.3 70B / DeepSeek V4"]
    SelfHost -->|Нет| Cheap["GLM-5.2 / DeepSeek V4 Pro"]

📌 5. Специфические бенчмарки

🔹 Coding (код)

Benchmark	Что проверяет
HumanEval	Генерация Python функций
MBPP	Mostly Basic Python Problems
SWE-bench	Реальные GitHub issues (end-to-end)
LiveCodeBench	Соревновательные задачи LeetCode
Aider	Редактирование кода в реальном проекте

🔹 Reasoning (рассуждение)

Benchmark	Что проверяет
MMLU	57 предметов (academic knowledge)
GPQA	Graduate-level science questions
MATH	Математические задачи
ARC	Научное рассуждение

🔹 Agents (агенты)

Benchmark	Что проверяет
τ-bench	Tool use в диалоге
AgentBench	Многошаговые agent задачи
WebArena	Веб-навигация
SWE-bench	Реальные software engineering задачи

Важно

SWE-bench — самый реалистичный coding benchmark (реальные GitHub issues end-to-end). HumanEval/MBPP проверяют только генерацию изолированных функций.

description	Tier list моделей, цены, провайдеры, decision tree выбора и бенчмарки (июль 2025)
tags	фундамент, llm, модели
aliases	06-llm-landscape

LLM Engineering

Проводник

🗺️ 06. Ландшафт LLM-моделей

🗺️ 06. Ландшафт LLM-моделей

📌 1. Tier List по Intelligence (Artificial Analysis, июль 2025)

📌 2. Цены (за 1M токенов, $)

📌 3. Кто есть кто

🔹 Anthropic — Claude

🔹 OpenAI — GPT

🔹 Zhipu AI — GLM (модель Hermes сейчас)

🔹 DeepSeek

🔹 Meta — Llama

🔹 Google — Gemini

🔹 Mistral

🔹 Qwen (Alibaba)

📌 4. Как выбирать модель (decision tree)

📌 5. Специфические бенчмарки

🔹 Coding (код)

🔹 Reasoning (рассуждение)

🔹 Agents (агенты)

Вид графа

Оглавление

Недавние заметки

📚 Оглавление — LLM Engineering

📖 LLM Engineering

📚 LLM Engineering — База знаний

🧱 01. Архитектура Transformer

🛠️ Фреймворки и инструменты

🔤 Токенизаторы и эмбеддинги

🏭 Продакшн-инжиниринг

🗺️ 06. Ландшафт LLM-моделей

🧠 05. Память и RAG

📊 Метрики и оценка LLM