Ключевым элементом является RAG + agent/tool-use layer. Схема работы упрощенно показана ниже:
flowchart LRUserChat[Чат/Интерфейс пользователя] --> RAG[LLM + RAG Engine]RAG -->|Поиск семантический| VectorDB[Векторная БД знаний]VectorDB -->|Кандидаты| Reranker[Reranker]Reranker -->|Ранжированные фрагменты| RAGRAG --> DataSources[CRM/ERP, База знаний, Каталог]RAG --> Tools[Инструменты/API (заказы, отчеты, документы)]Tools --> DataSourcesDataSources --> ToolsRAG --> UserChatUserChat --> Auth[Проверка ролей/доступ]RAG --> Log[Логирование/Аналитика]Упрощенная архитектура RAG + agent/tool-use layer : чат-бот взаимодействует с ядром LLM+RAG, осуществляя векторный поиск по корпоративным данным и выполняя сервисные API-вызовы. Система учитывает роли пользователей и логирует все взаимодействия.Пояснение: Пользователь задает вопрос в чате (UI). Система RAG сначала преобразует запрос в вектор и ищет релевантные документы в векторной базе данных (VectorDB) — это хранилище векторных эмбеддингов всех корпоративных текстов. Затем отбираются N наиболее близких по смыслу фрагментов (семантический поиск). Модуль проверки доступа отсеивает те, к которым пользователь не имеет прав. Допустимые фрагменты передаются вместе с запросом в LLM, который генерирует ответ.
При необходимости ассистент использует инструменты/API для выполнения действий: запрашивает у CRM-транзакцию, создает задачу в системе, формирует PDF-счет. Все обращения и ответы логируются (для аудита и контроля качества).
Основные компоненты:
- Чат-движок (UI). Единый интерфейс в сайте, ЛКК, ЛКМ. Может быть как всплывающее окно, так и отдельная страница.
- LLM + RAG. Ядро, совмещающее модель LLM (например, OpenAI GPT или локальные аналоги) с модулем поиска. Модель не дообучается на данных компании, а получает контекст запросом. Это обеспечивает актуальность ответов.
- Векторная БД (например, Qdrant). Хранит эмбеддинги текстов (каталоги, документация, база знаний, CRM-поля). Поддерживает масштабируемый семантический поиск. Qdrant, например, умеет хранить миллиарды векторов и сам текст для демонстрации результата.
- Источники данных (DataSources). ERP/CRM, товарный каталог, договоры, акты, Confluence/Jira и др. С помощью ETL/ процессы новые документы разбиваются на фрагменты и индексируются в векторную БД.
- Инструменты/API (Tools). Микросервисы для выполнения бизнес-задач (создание заказа, счет-фактуры, отчета, списка задач). Агент ИИ через них исполняет команды пользователя.
- Управление доступом (RBAC). Ролевая модель гарантирует, что пользователь видит только свои данные. Как показано в практике Runity, бот работает от имени пользователя, проверяя доступ через API.
- Логирование и мониторинг. Запись истории диалогов и действий, сбор метрик точности ответов и загрузки системы.
В этой архитектуре роль RAG — предоставить модели актуальный контекст. При вводе запроса система заранее готовит входные данные: выполняет семантический поиск по векторной базе, извлекает содержимое релевантных документов и передаёт только эти фрагменты в LLM вместе с запросом. Это позволяет обойти ограничение контекстного окна — вместо загрузки всей базы мы подставляем только релевантные куски. RAG не заменяет параметрическую память модели (знания, сохранённые в весах при обучении) — он дополняет её, подавая внешнюю информацию в момент запроса, а не встраивая её в веса модели.