RAG для AI-агента: как научить бота работать с вашими данными

Обновлено 23 мар. 2026

RAG (Retrieval-Augmented Generation) — это технология, которая позволяет AI-агенту искать ответы в ваших документах, а не выдумывать их. Вместо того чтобы полагаться только на «память» языковой модели, агент с RAG сначала находит релевантные фрагменты из базы знаний, а затем формирует точный ответ на их основе.

Если вы когда-нибудь спрашивали ChatGPT о внутренних процессах вашей компании и получали уверенную чушь — вы понимаете, зачем нужен RAG. В 2026 году это стандарт для любого бизнеса, который хочет использовать AI не как игрушку, а как рабочий инструмент. 🔍

🧠 Как работает RAG и почему это не просто «загрузить файлы в чат»?

RAG работает в два этапа: индексация (подготовка базы) и запрос (поиск + генерация). Это не магия — это конвейер с конкретными шагами:

📄 Загрузка документов — PDF, DOCX, TXT, HTML, даже таблицы Excel
✂️ Разбивка на чанки — фрагменты по 200–500 слов (не по символам, а по смыслу)
🔢 Генерация эмбеддингов — каждый чанк превращается в числовой вектор через модель (например, text-embedding-3-large)
💾 Сохранение в векторной БД — ChromaDB, pgvector, Pinecone или Qdrant
🔍 Поиск по запросу — запрос пользователя тоже превращается в вектор, система находит 5–10 самых похожих чанков
✍️ Генерация ответа — LLM получает найденные фрагменты как контекст и формирует ответ с ссылками на источники

Результат: агент отвечает точно, ссылается на конкретные документы и не галлюцинирует. Время ответа — 1–3 секунды для простого RAG.

⚙️ Какие инструменты нужны для настройки RAG?

Выбор стека зависит от масштаба. Вот что используют в 2026 году:

Компонент	Инструмент	Стоимость	Когда использовать
🔗 Оркестрация	LangChain / LlamaIndex	Бесплатно (open-source)	Любой проект с RAG
💾 Векторная БД (локально)	ChromaDB / pgvector	Бесплатно	До 10 000 документов
☁️ Векторная БД (облако)	Pinecone / Qdrant Cloud	от $50/мес	50 000+ документов
🧠 Эмбеддинги	OpenAI / nomic-embed-text	$0.02–0.13 / 1M токенов	nomic — бесплатно через Ollama
🤖 LLM	Claude / GPT-4 / Qwen	от $0 (локальные) до $15/1M	Зависит от точности и бюджета
🔧 No-code	Open WebUI / n8n / Dify	Бесплатно (self-hosted)	Быстрый прототип без кода

📋 Пошаговая настройка RAG: от нуля до рабочего агента

Вот конкретный план, который работает для бизнеса любого масштаба:

Шаг 1. Определите задачу и соберите данные

Не пытайтесь загрузить «все документы компании». Начните с одного сценария:

📞 Поддержка клиентов — FAQ, инструкции, база знаний
📑 Внутренние политики — HR-документы, регламенты, процедуры
⚖️ Юридические документы — контракты, compliance-проверки
📊 Аналитика — отчёты, KPI, исследования

Правило: 50–100 качественных документов дадут лучший результат, чем 10 000 непочищенных файлов.

Шаг 2. Установите стек

Для прототипа хватит одного сервера и 10 минут:

# Установка через pip
pip install langchain chromadb openai

# Или с pgvector (если уже есть PostgreSQL)
pip install langchain pgvector psycopg2-binary

Шаг 3. Загрузите и проиндексируйте документы

from langchain.document_loaders import DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# Загрузка документов
loader = DirectoryLoader("./docs/", glob="**/*.txt")
documents = loader.load()

# Разбивка на чанки (300 слов, перекрытие 50)
splitter = RecursiveCharacterTextSplitter(
    chunk_size=1200,
    chunk_overlap=200
)
chunks = splitter.split_documents(documents)

# Индексация в ChromaDB
embeddings = OpenAIEmbeddings()
vectorstore = Chroma.from_documents(
    chunks, embeddings,
    persist_directory="./chroma_db"
)

Шаг 4. Подключите LLM и протестируйте

from langchain.chains import RetrievalQA
from langchain.llms import OpenAI

qa = RetrievalQA.from_chain_type(
    llm=OpenAI(model="gpt-4"),
    retriever=vectorstore.as_retriever(
        search_kwargs={"k": 5}
    )
)

answer = qa.run("Как оформить отпуск по семейным обстоятельствам?")
print(answer)

Для 100 документов индексация займёт 1–2 минуты. Для 10 000 — около часа.

🔄 Простой RAG vs Agentic RAG vs Graph RAG — что выбрать?

Не все RAG одинаковы. Вот три подхода и когда какой использовать:

Подход	Скорость	Сложность	Когда подходит
🟢 Простой RAG	1–2 сек	Низкая	FAQ, поддержка, Q&A по документам
🟡 Agentic RAG	5–10 сек	Средняя	Сложные запросы, мульти-шаговый анализ
🔴 Graph RAG	3–8 сек	Высокая	Юридические документы, связи между сущностями

Простой RAG — отправная точка для 90% проектов. Работает «из коробки» с LangChain + ChromaDB. Ищет похожие чанки и передаёт их в LLM.

Agentic RAG — агент сам решает, как искать. Разбивает сложный вопрос на подзадачи, ищет в разных источниках, перепроверяет результат. Идеально для аналитики и исследований.

Graph RAG — строит граф знаний из документов: сущности (люди, компании, даты) и связи между ними. Лучше всего работает с юридическими и регуляторными документами, где важны иерархии и зависимости.

🚫 5 ошибок, которые убивают RAG-проекты

❌ «Загрузим всё сразу» — мусор на входе = мусор на выходе. Начните с 50–100 чистых документов, расширяйте постепенно
❌ Неправильный размер чанков — слишком большие (3000+ слов) теряют точность, слишком маленькие (50 слов) теряют контекст. Оптимум: 200–500 слов с перекрытием 10–15%
❌ Забыли обновлять базу — без инкрементального индекса данные устаревают за неделю. Настройте cron-задачу для автообновления
❌ Нет контроля доступа — если у всех одинаковые права, стажёр увидит зарплатные документы CEO. Настраивайте роли с первого дня
❌ RAG для креатива — RAG хорош для фактов и ответов по документам. Для генерации маркетинговых текстов или креативных идей он не нужен — обычный промпт сработает лучше

💰 Сколько стоит запуск RAG в 2026 году?

Масштаб	Документов	Стоимость	Время на запуск
🟢 Прототип	50–100	$0 (ChromaDB + Ollama)	1–2 дня
🟡 Средний бизнес	1 000–10 000	$30–100/мес	1 неделя
🔴 Enterprise	50 000+	$200–500/мес	2–4 недели

Для прототипа можно обойтись вообще бесплатно: ChromaDB как векторная база + Ollama с моделью nomic-embed-text для эмбеддингов + Qwen или Llama для генерации. Всё работает локально на одном сервере.

✅ Мини-чеклист: готов ли ваш бизнес к RAG?

☑️ Есть хотя бы 50 документов в электронном виде (PDF, DOCX, TXT)
☑️ Сотрудники тратят 30+ минут в день на поиск информации
☑️ Есть типовые вопросы, которые задают снова и снова
☑️ Есть разработчик (или готовность использовать no-code: n8n, Open WebUI, Dify)
☑️ Понимаете, что RAG — не замена экспертизе, а ускоритель доступа к ней

Если набрали 3+ пункта — самое время начать. Прототип за 2 дня покажет, стоит ли масштабировать.

Частые вопросы

Что такое RAG простыми словами?

RAG — это способ научить AI-агента отвечать на вопросы по вашим документам. Агент сначала ищет нужные фрагменты в базе знаний, а потом формирует ответ на их основе. Это как дать ChatGPT доступ к вашей папке с файлами — только умнее.

Можно ли настроить RAG без программирования?

Да. Инструменты вроде Open WebUI, n8n и Dify позволяют загрузить документы и создать RAG-агента через визуальный интерфейс. Для простого прототипа код не нужен вообще.

Сколько стоит RAG для малого бизнеса?

Прототип — бесплатно (ChromaDB + Ollama на локальном сервере). Рабочее решение для 1 000–10 000 документов — $30–100 в месяц на облачные эмбеддинги и хостинг.

RAG или файн-тюнинг — что лучше?

RAG — для работы с фактами и документами, которые часто обновляются. Файн-тюнинг — для изменения стиля или поведения модели. В 90% бизнес-задач RAG — правильный выбор, потому что данные можно обновлять без переобучения модели.

Какую векторную базу данных выбрать?

Для старта — ChromaDB (бесплатно, работает локально). Если у вас уже есть PostgreSQL — pgvector (расширение, не нужен отдельный сервис). Для 50 000+ документов — Pinecone или Qdrant Cloud.

Как часто нужно обновлять базу знаний RAG?

Зависит от того, как часто меняются документы. Для FAQ и инструкций — раз в неделю. Для динамичных данных (цены, наличие товаров) — ежедневно или в реальном времени через вебхуки.

RAG галлюцинирует? Можно ли доверять ответам?

RAG значительно снижает галлюцинации по сравнению с обычным LLM — модель опирается на реальные документы. Но 100% гарантии нет. Используйте реранкинг, проверяйте топ-K чанков, и всегда показывайте источники пользователю.

👉 Хотите разобраться в AI-агентах глубже? Подписывайтесь на Telegram-канал — разбираем практические кейсы, инструменты и пошаговые инструкции каждую неделю.