Резюме
Внедрение корпоративной RAG-системы для региональной страховой компании. Интеллектуальный поиск по внутренним регламентам и базе знаний без передачи данных во внешние облака.
Ключевые бизнес-результаты:
- Приватность: данные обрабатываются внутри контура заказчика — соответствие требованиям регулятора
- Точность: 87% фактологичности (RAGAS) — минимизация галлюцинаций
- Производительность: время генерации ответа < 3 сек на собственном сервере
- Безопасность: интеграция с Active Directory — сотрудник видит только документы своего отдела
Контекст: Для организаций в регулируемых отраслях локально развёрнутые LLM-решения обеспечивают соответствие требованиям к защите данных и контроль над инфраструктурой.
1. Проблематика: Почему не ChatGPT
1.1 Исходное состояние
Страховая компания использовала полнотекстовый поиск по корпоративной wiki (Confluence). При запросе "Какой порядок урегулирования убытков по КАСКО при ДТП с участием третьих лиц?" система возвращала десятки ссылок — сотрудники тратили до 20 минут на поиск нужного регламента.
1.2 Почему нельзя использовать облачные LLM
Таблица 1. Регуляторные ограничения
| Требование | OpenAI API | Локальная LLM |
|---|---|---|
| 152-ФЗ (Персональные данные) | Данные уходят за рубеж | Внутри периметра |
| Коммерческая тайна | Риск утечки тарифов | Изолированный контур |
| Аудит и трассировка | Ограниченный контроль | Полное логирование |
| Доступность | Зависит от вендора | Собственная инфраструктура |
1.3 Проблемы чистого векторного поиска
Таблица 2. Ограничения векторного поиска
| Сценарий | Векторный поиск | Проблема |
|---|---|---|
| "Полис №СТР-2024-001234" | Низкая полнота | Номера полисов не имеют семантики |
| "Приложение 3 к Регламенту №15" | Пропускает | Точные ссылки требуют точного совпадения |
| "Франшиза по ОСАГО" | Неточный | Аббревиатуры плохо векторизуются |
Вывод: Для корпоративных документов необходим гибридный поиск (BM25 + векторы).
2. Архитектурные решения
2.1 Локальный стек
Рис. 1. Архитектура RAG-системы. Все компоненты развёрнуты на собственном сервере заказчика.
2.2 Обоснование технологического стека
2.2.1 Выбор LLM: Mistral 7B
Таблица 3. Сравнение локально развёртываемых LLM
| Модель | Параметры | Лицензия | Русский язык | Видеопамять |
|---|---|---|---|---|
| Mistral 7B | 7B | Apache 2.0 | Хороший | 14 GB |
| Llama 2 7B | 7B | Meta | Средний | 14 GB |
| Qwen 7B | 7B | Qwen | Отличный | 14 GB |
Выбор LLM
Mistral 7B Instruct
Оптимальный баланс качества и требований к GPU. Помещается на одну видеокарту RTX 4090 или A10.
Llama 2 70B
Требует 4 GPU — избыточно для задачи и бюджета.
2.2.2 Выбор векторной БД: Qdrant
Таблица 4. Сравнение векторных баз данных
| Критерий | Pinecone | Weaviate | Qdrant |
|---|---|---|---|
| Локальное развёртывание | Только SaaS | Да | Да |
| Предфильтрация (ACL) | Ограничено | Да | Встроенная |
| Гибридный поиск | Нет | Да | BM25 + векторы |
| Лицензия | Проприетарная | BSD-3 | Apache 2.0 |
Выбор векторной БД
Qdrant
Встроенная поддержка предфильтрации по метаданным — критично для разграничения доступа между отделами.
Pinecone
Только SaaS — данные покидают периметр.
2.2.3 Движок вывода: vLLM
Таблица 5. Сравнение серверов вывода
| Движок | Пропускная способность | Paged Attention | Простота |
|---|---|---|---|
| HuggingFace TGI | Средняя | Да | Высокая |
| vLLM | Высокая | PagedAttention | Средняя |
| Ollama | Низкая | Нет | Высокая |
Выбор движка вывода
vLLM
PagedAttention для эффективной работы с памятью. API, совместимый с OpenAI, упрощает интеграцию.
Ollama
Не оптимизирован для многопользовательского режима.
3. Механики надёжности и точности
3.1 Конвейер гибридного поиска
Рис. 2. Конвейер гибридного поиска. ACL-фильтр применяется на этапе поиска — сотрудник физически не может получить документы чужого отдела.
Ключевая механика: ACL-фильтр применяется на уровне индекса (предфильтрация), а не после получения результатов. Это гарантирует, что пользователь физически не может получить документы без соответствующего доступа.
3.2 Переранжирование для повышения точности
Проблема двухбашенных моделей: Модели эмбеддингов быстрые, но менее точные — запрос и документ векторизуются независимо.
Решение — перекрёстный кодировщик: BGE-Reranker обрабатывает пару (запрос, документ) совместно.
Таблица 6. Влияние переранжирования на метрики
| Метрика | Без переранжирования | С BGE-Reranker | Улучшение |
|---|---|---|---|
| MRR@10 | 0.58 | 0.82 | +41% |
| Recall@3 | 0.65 | 0.89 | +37% |
Результаты на тестовой выборке из 200 запросов.
3.3 Структурированные ссылки на источники
Для минимизации галлюцинаций используется строгая системная инструкция:
- Ответы только на основе предоставленного контекста
- Обязательное указание источника:
[Документ: название, раздел] - Запрет на додумывание информации
4. Результаты и метрики
4.1 Сравнительный анализ
Таблица 7. Ключевые метрики
| Метрика | Confluence Search | RAG-система |
|---|---|---|
| Конфиденциальность | Нет LLM | 100% внутри периметра |
| Время поиска | 15-20 мин (ручной) | < 30 сек |
| Фактологичность (RAGAS) | N/A | 87% |
| Соблюдение прав доступа | На уровне Confluence | Встроенное в поиск |
4.2 Инфраструктура
Таблица 8. Спецификация сервера
| Компонент | Конфигурация | Назначение |
|---|---|---|
| GPU | 1x NVIDIA RTX 4090 24GB | Вывод Mistral 7B |
| RAM | 64 GB | Qdrant + обработка |
| Storage | 1 TB NVMe SSD | Векторное хранилище |
4.3 Бизнес-результаты
- Время поиска: с 15-20 минут до 30 секунд
- Удовлетворённость: положительная оценка от пользователей (внутренний опрос)
- Внедрение: более 100 активных пользователей за 2 месяца
- Соответствие требованиям: успешно пройдена внутренняя проверка ИБ
5. Заключение и рекомендации
Локально развёрнутая RAG-система на базе Mistral 7B, Qdrant и vLLM — рабочий подход к корпоративному ИИ-поиску для организаций с требованиями к защите данных.
Ключевые выводы:
- Локально развёрнутая LLM обеспечивает соответствие требованиям к защите данных
- Гибридный поиск (BM25 + векторы) необходим для работы со структурированными документами
- Переранжирование повышает точность на 35-40% — рекомендуемый компонент
- Предварительная фильтрация по правам доступа должна быть на уровне поиска
- Mistral 7B достаточен для большинства задач корпоративного поиска
Рекомендация: Данная архитектура применима к организациям среднего размера с требованиями локализации данных: страхование, лизинг, медицина, юридические услуги.