🛠️ Фреймворки и инструменты

Экосистема LLM

Выбор фреймворка зависит от задачи: быстрый прототип, production RAG, code agent или self-hosted inference — у каждого сценария свой стек.

🎼 1. Фреймворки оркестрации

LangChain

Что: самый популярный фреймворк для LLM apps
Сильные стороны: огромная экосистема, интеграции со всем
Слабые стороны: over-abstraction, медленный, сложный
Когда использовать: быстрый прототип, много интеграций
Модули: LangChain (core), LangGraph (agents), LangSmith (observability)

LlamaIndex

Что: фреймворк для RAG и data-augmented LLM apps
Сильные стороны: лучший для RAG, data connectors
Когда использовать: RAG-приложения, document QA

Haystack (deepset)

Что: production-focused NLP/LLM framework
Сильные стороны: pipelines, clean architecture, RAG
Когда использовать: production RAG, search

🤖 2. Фреймворки агентов

Hermes vs IDE-агенты

Hermes — model-agnostic, MCP-native; Cursor/Claude Code — заточены под coding в IDE. Выбор зависит от задачи: универсальный агент vs pair programming.

Hermes Agent (этот продукт)

Architecture: model-agnostic, tool-first, MCP-native
Memory: MEMORY.md + USER.md + skills/
Tools: terminal, browser, file, MCP servers
Multi-agent: delegate_task для subagents
Context: compressor с protect_last_n

Claude Code

Architecture: CLI agent для coding
Model: Claude (Sonnet/Opus)
Tools: bash, file ops, git, search
Extended thinking: reasoning перед action

OpenAI Codex

Architecture: CLI agent, sandboxed execution
Model: GPT-5 / o3
Tools: terminal, file ops

Cursor / Windsurf / Continue

Что: IDE-integrated AI coding assistants
Architecture: inline completion + chat + agent mode
Model: любой (Claude, GPT, local)

Aider

Что: CLI pair programmer
Особенность: git-integrated, каждый change = commit
Tree editing: редактирует несколько файлов одновременно

⚡ 3. Inference-движки

Engine	Type	Best for
vLLM	Self-hosted server	Production, throughput
TGI	Self-hosted server	HuggingFace ecosystem
TensorRT-LLM	NVIDIA optimised	Max performance on H100
SGLang	Self-hosted server	Structured generation
llama.cpp	CPU/edge	Local, Mac, Raspberry Pi
Ollama	Desktop app	Easy local LLM
LM Studio	Desktop GUI	Non-technical users

🎯 4. Инструменты Fine-Tuning

LoRA / QLoRA (PEFT)

LoRA: обучаем только low-rank адаптеры (0.1-1% параметров)
QLoRA: LoRA + 4-bit quantization базовой модели
Обучение 70B на одной A100 (QLoRA)
Инструменты: peft, axolotl, unsloth

Full Fine-Tuning

Обучаем все параметры
Нужен кластер GPU
Инструменты: transformers, DeepSpeed, Megatron-LM

DPO / RLHF Training

TRL (Transformers RL): HuggingFace library для preference optimization
Unsloth: оптимизированный fine-tuning (2-5× быстрее)
Axolotl: config-driven fine-tuning

🗄️ 5. Инструменты данных

Векторные хранилища — подробнее

Qdrant:

from qdrant_client import QdrantClient
 
client = QdrantClient(host="localhost", port=6333)
client.create_collection(
    "documents",
    vectors_config={"size": 1536, "distance": "Cosine"}
)
client.upsert("documents", points=[
    {"id": 1, "vector": [0.1, ...], "payload": {"text": "..."}}
])
results = client.search("documents", query_vector=[0.1, ...], limit=5)

pgvector (PostgreSQL):

CREATE EXTENSION vector;
CREATE TABLE docs (id SERIAL, content TEXT, embedding VECTOR(1536));
CREATE INDEX ON docs USING ivfflat (embedding vector_cosine_ops);
SELECT * FROM docs ORDER BY embedding <=> '[0.1,...]' LIMIT 5;

Разметка / аннотация данных

Label Studio: open-source, универсальный
Argilla: specialized для LLM fine-tuning data
Prodigy: paid, efficient

👁️ 6. Платформы observability

LangSmith (LangChain)

import os
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = "ls__..."
# Все LLM calls автоматически трейсятся

Langfuse (open-source)

Self-hosted или cloud
Tracing для любого фреймворка (не только LangChain)
Prompt management, A/B testing, eval

Phoenix (Arize)

Open-source LLM observability
Tracing + evaluation
Integration с OpenTelemetry

📦 7. Model Hubs

Hub	Что	Особенность
HuggingFace Hub	1M+ models, datasets	Стандарт для open-source
Ollama Hub	Pre-quantized models	Для локального запуска
ModelScope	Alibaba	Китайские модели
OpenRouter	API aggregator	200+ моделей через один API

🔧 8. Dev Tools

Управление промптами

PromptLayer: versioning, A/B testing prompts
Langfuse: prompt management + observability
Humanloop: collaborative prompt engineering

Тестирование

Promptfoo: CLI для testing prompts
DeepEval: pytest для LLM outputs
RAGAS: RAG evaluation framework

Sandboxing

E2B: cloud sandboxes для code execution
Daytona: open-source sandbox
Docker: standard containerization

🔄 9. Workflow разработки (лучшие практики)

Локальная разработка

1. Ollama или LM Studio — локальная модель для iteration
2. Promptfoo — тестирование промптов
3. Langfuse — локальный tracing
4. Qdrant (Docker) — локальный vector store

Staging

1. vLLM on GPU instance — production-like model serving
2. Golden dataset eval — regression testing
3. A/B testing framework
4. LangSmith / Langfuse cloud — observability

Production

1. Kubernetes — orchestration
2. vLLM cluster — serving
3. Redis — caching
4. Qdrant — vector store
5. PostgreSQL — metadata
6. Prometheus + Grafana — metrics
7. Langfuse — LLM-specific tracing

📋 10. Шпаргалка: что выбрать

Не переусложняйте стек

Начните с минимального набора — LangChain + OpenAI API для прототипа, добавляйте Qdrant, vLLM и observability по мере роста нагрузки.

Прототип LLM app быстро → LangChain + OpenAI API
RAG приложение → LlamaIndex + Qdrant + BGE embeddings
Production agent → Hermes / LangGraph + custom tools
Self-hosted model → vLLM on GPU
Fine-tune open model → Unsloth + QLoRA
Local development → Ollama + Promptfoo
Code agent → Claude Code / Aider / OpenCode
Eval pipeline → RAGAS + Langfuse
Monitoring → LangSmith (cloud) / Langfuse (self-hosted)

description	LangChain, LlamaIndex, fine-tuning tools, observability — практический обзор экосистемы
tags	llm, frameworks, tooling, langchain, llamaindex
aliases	frameworks, tooling, фреймворки

Проводник

🛠️ Фреймворки и инструменты

🛠️ Фреймворки и инструменты

🎼 1. Фреймворки оркестрации

LangChain

LlamaIndex

Haystack (deepset)

🤖 2. Фреймворки агентов

Hermes Agent (этот продукт)

Claude Code

OpenAI Codex

Cursor / Windsurf / Continue

Aider

⚡ 3. Inference-движки

🎯 4. Инструменты Fine-Tuning

LoRA / QLoRA (PEFT)

Full Fine-Tuning

DPO / RLHF Training

🗄️ 5. Инструменты данных

Векторные хранилища — подробнее

Разметка / аннотация данных

👁️ 6. Платформы observability

LangSmith (LangChain)

Langfuse (open-source)

Phoenix (Arize)

📦 7. Model Hubs

🔧 8. Dev Tools

Управление промптами

Тестирование

Sandboxing

🔄 9. Workflow разработки (лучшие практики)

Локальная разработка

Staging

Production

📋 10. Шпаргалка: что выбрать

Вид графа

Оглавление

Обратные ссылки

Недавние заметки