🔤 Токенизаторы и эмбеддинги

Фундамент текста для LLM

Токенизация определяет стоимость, скорость и качество на неанглийских языках — русский текст в GPT-4 стоит в 2-3× дороже английского при том же смысле.

💡 1. Токенизация — почему это важно

LLM не работает с текстом напрямую. Текст → токены → целые числа → embeddings.

От качества токенизации зависит:

Скорость генерации (меньше токенов = быстрее)
Стоимость (оплата за токены, не за символы)
Качество на разных языках (плохая токенизация = плохо на не-английском)

🔤 2. BPE (Byte Pair Encoding) — стандарт

Алгоритм

1. Начинаем с букв (или байтов) как начальных токенов
2. Находим самую частую пару соседних токенов
3. Объединяем в новый токен
4. Повторяем V раз (V = размер словаря)

Пример

Корпус: "low low low low lower lower newest newest newest newest"
Шаг 1: l, o, w, e, r, n, s, t (буквы)
Шаг 2: lo (частая пара)
Шаг 3: low (частая пара lo+w)
...
Финал: "low" = 1 токен, "er" = 1 токен, "newest" = 1 токен

Byte-level BPE (GPT-2/3/4, Llama)

Работает на уровне байтов, не символов
Любой текст (любой язык, эмодзи) может быть токенизирован
Не бывает “unknown tokens”

🧩 3. Современные токенизаторы

Мультиязычность

Для русского текста смотрите символов на токен — чем меньше, тем дороже inference при том же объёме смысла.

Tiktoken (OpenAI: GPT-4, GPT-5)

Byte-level BPE
~100K словарь
Английский: ~4 символа = 1 токен
Русский: ~1.5-2 символа = 1 токен (хуже!)
cl100k_base (GPT-4), o200k_base (GPT-5)

SentencePiece (Google: Llama, T5, GLM)

BPE или Unigram
~32K-128K словарь
Не требует пробелов между словами
Языко-независимый

Эффективность токенизатора

Язык	Символов на токен (GPT-4)
English	4.0
French	3.8
Russian	1.7
Chinese	0.6
Japanese	0.5
Korean	0.7

Проблема: русский/китайский/японский в 2-8× дороже за тот же текст.

Многоязычные токенизаторы

GPT-5 o200k: улучшен для не-английских языков
Qwen tokenizer: оптимизирован под китайский
GLM tokenizer: оптимизирован под китайский + английский
DeepSeek: оптимизирован под китайский

🏷️ 4. Специальные токены

Каждый токенизатор имеет специальные токены:

<BOS>    — Beginning of Sequence (начало)
<EOS>    — End of Sequence (конец генерации)
<PAD>    — Padding (заполнение для batching)
<UNK>    — Unknown (неизвестный токен — редко в byte-level)
<system> — Role marker (system role в чате)
<user>   — Role marker (user role)
<assistant> — Role marker (assistant role)
<tool>   — Tool call marker

📐 5. Embeddings — векторные представления

Token Embeddings

token_id → Embedding Matrix [vocab_size × d_model] → d_model вектор

Обучаемая матрица (как lookup table)
Каждый токен имеет свой вектор
Размер: vocab_size × d_model × bytes (fp16)
Llama-70B: 32000 × 8192 × 2 = ~524 MB

Positional Embeddings

Добавляются к token embeddings
См. 01-transformer: RoPE, ALiBi, learned

Итоговый Embedding

final = token_embedding + positional_embedding

Или для RoPE: rotary применяется к Q, K, не к embedding.

🔍 6. Embedding-модели (для RAG)

Архитектура

Text → Tokenize → BERT-like encoder → Pooling → Dense projection → Embedding vector

Стратегии Pooling

CLS: взять вектор [CLS] токена (начала)
Mean: среднее всех токенов
Last hidden: последний слой

Типы

Symmetric: query и doc одинаково (similarity = cosine)
Asymmetric: query и doc по-разному (bi-encoder, cross-encoder)

Asymmetric (Dual Encoder)

Query encoder:  query → q_vec
Doc encoder:    doc → d_vec
Score: q_vec · d_vec (dot product)

Быстрый поиск: pre-compute doc embeddings
Минус: query и doc в разных пространствах

Cross-Encoder (Re-ranker)

[CLS] query [SEP] doc [SEP] → BERT → score

Точно (видит query и doc вместе)
Медленно (N forward passes для N документов)
Используется для re-ranking top-K после dense retrieval

🧠 7. Контекстуальные embeddings

Word2Vec / GloVe: статические (одно слово = один вектор всегда) BERT / GPT: контекстуальные (одно слово = разные вектора в контексте)

"bank" в "river bank" → вектор A
"bank" в "bank account" → вектор B (≠ A)

Для RAG используют контекстуальные embeddings (BGE, E5, OpenAI).

✅ 8. Практика: выбор embedding-модели

Размерность vs скорость

Больше размерность embedding — точнее поиск, но дороже хранение и медленнее retrieval. Для большинства RAG достаточно 1024-1536.

Чеклист

Язык: поддерживает русский/нужные языки?
Размерность: 384-3072 (больше = точнее, но медленнее и дороже storage)
Max sequence: 512-8192 tokens
MTEB score: проверь рейтинг
Hosting: API, self-hosted, local?
Скорость: latency per embedding

Топовые варианты (2025)

Use case	Model
Best quality, API	OpenAI text-embedding-3-large
Best quality, open	BGE-large-en-v1.5 / multilingual-e5-large
Fast, cheap	OpenAI text-embedding-3-small
Multilingual	multilingual-e5-large, Cohere embed-v3
Self-hosted, efficient	BGE-small, all-MiniLM-L6-v2

description	BPE, SentencePiece, embedding-модели, выбор токенизатора и практические рекомендации
tags	llm, tokenizers, embeddings, bpe, rag
aliases	tokenizers, embeddings, токенизаторы

Проводник

🔤 Токенизаторы и эмбеддинги

🔤 Токенизаторы и эмбеддинги

💡 1. Токенизация — почему это важно

🔤 2. BPE (Byte Pair Encoding) — стандарт

Алгоритм

Пример

Byte-level BPE (GPT-2/3/4, Llama)

🧩 3. Современные токенизаторы

Tiktoken (OpenAI: GPT-4, GPT-5)

SentencePiece (Google: Llama, T5, GLM)

Эффективность токенизатора

Многоязычные токенизаторы

🏷️ 4. Специальные токены

📐 5. Embeddings — векторные представления

Token Embeddings

Positional Embeddings

Итоговый Embedding

🔍 6. Embedding-модели (для RAG)

Архитектура

Стратегии Pooling

Типы

Asymmetric (Dual Encoder)

Cross-Encoder (Re-ranker)

🧠 7. Контекстуальные embeddings

✅ 8. Практика: выбор embedding-модели

Чеклист

Топовые варианты (2025)

Вид графа

Оглавление

Обратные ссылки

Недавние заметки