Корпоративный ИИ-поиск: RAG-система для страховой компании

Резюме

Внедрение корпоративной RAG-системы для региональной страховой компании. Интеллектуальный поиск по внутренним регламентам и базе знаний без передачи данных во внешние облака.

Ключевые бизнес-результаты:

Приватность: данные обрабатываются внутри контура заказчика — соответствие требованиям регулятора
Точность: 87% фактологичности (RAGAS) — минимизация галлюцинаций
Производительность: время генерации ответа < 3 сек на собственном сервере
Безопасность: интеграция с Active Directory — сотрудник видит только документы своего отдела

Контекст: Для организаций в регулируемых отраслях локально развёрнутые LLM-решения обеспечивают соответствие требованиям к защите данных и контроль над инфраструктурой.

1. Проблематика: Почему не ChatGPT

1.1 Исходное состояние

Страховая компания использовала полнотекстовый поиск по корпоративной wiki (Confluence). При запросе "Какой порядок урегулирования убытков по КАСКО при ДТП с участием третьих лиц?" система возвращала десятки ссылок — сотрудники тратили до 20 минут на поиск нужного регламента.

1.2 Почему нельзя использовать облачные LLM

Таблица 1. Регуляторные ограничения

Требование	OpenAI API	Локальная LLM
152-ФЗ (Персональные данные)	Данные уходят за рубеж	Внутри периметра
Коммерческая тайна	Риск утечки тарифов	Изолированный контур
Аудит и трассировка	Ограниченный контроль	Полное логирование
Доступность	Зависит от вендора	Собственная инфраструктура

1.3 Проблемы чистого векторного поиска

Таблица 2. Ограничения векторного поиска

Сценарий	Векторный поиск	Проблема
"Полис №СТР-2024-001234"	Низкая полнота	Номера полисов не имеют семантики
"Приложение 3 к Регламенту №15"	Пропускает	Точные ссылки требуют точного совпадения
"Франшиза по ОСАГО"	Неточный	Аббревиатуры плохо векторизуются

Вывод: Для корпоративных документов необходим гибридный поиск (BM25 + векторы).

2. Архитектурные решения

2.1 Локальный стек

100%

Ctrl+Колесо или перетаскивание

Рис. 1. Архитектура RAG-системы. Все компоненты развёрнуты на собственном сервере заказчика.

2.2 Обоснование технологического стека

2.2.1 Выбор LLM: Mistral 7B

Таблица 3. Сравнение локально развёртываемых LLM

Модель	Параметры	Лицензия	Русский язык	Видеопамять
Mistral 7B	7B	Apache 2.0	Хороший	14 GB
Llama 2 7B	7B	Meta	Средний	14 GB
Qwen 7B	7B	Qwen	Отличный	14 GB

Выбор LLM

Архитектурное решение

Mistral 7B Instruct

Оптимальный баланс качества и требований к GPU. Помещается на одну видеокарту RTX 4090 или A10.

Apache 2.0 лицензия

Хорошее качество на русском языке

14 GB видеопамяти — одна карта

Отклонённый вариант

Llama 2 70B

Требует 4 GPU — избыточно для задачи и бюджета.

140 GB видеопамяти

Сложная инфраструктура

Избыточно для ~15k документов

2.2.2 Выбор векторной БД: Qdrant

Таблица 4. Сравнение векторных баз данных

Критерий	Pinecone	Weaviate	Qdrant
Локальное развёртывание	Только SaaS	Да	Да
Предфильтрация (ACL)	Ограничено	Да	Встроенная
Гибридный поиск	Нет	Да	BM25 + векторы
Лицензия	Проприетарная	BSD-3	Apache 2.0

Выбор векторной БД

Архитектурное решение

Qdrant

Встроенная поддержка предфильтрации по метаданным — критично для разграничения доступа между отделами.

Локальное развёртывание

Встроенная предфильтрация прав доступа

Гибридный поиск (BM25 + векторы)

Отклонённый вариант

Pinecone

Только SaaS — данные покидают периметр.

Нет локального развёртывания

Ограниченная предфильтрация

2.2.3 Движок вывода: vLLM

Таблица 5. Сравнение серверов вывода

Движок	Пропускная способность	Paged Attention	Простота
HuggingFace TGI	Средняя	Да	Высокая
vLLM	Высокая	PagedAttention	Средняя
Ollama	Низкая	Нет	Высокая

Выбор движка вывода

Архитектурное решение

vLLM

PagedAttention для эффективной работы с памятью. API, совместимый с OpenAI, упрощает интеграцию.

Эффективное использование видеопамяти

API, совместимый с OpenAI

Поддержка нескольких пользователей

Отклонённый вариант

Ollama

Не оптимизирован для многопользовательского режима.

Нет continuous batching

Ниже пропускная способность

3. Механики надёжности и точности

3.1 Конвейер гибридного поиска

100%

Ctrl+Колесо или перетаскивание

Рис. 2. Конвейер гибридного поиска. ACL-фильтр применяется на этапе поиска — сотрудник физически не может получить документы чужого отдела.

Ключевая механика: ACL-фильтр применяется на уровне индекса (предфильтрация), а не после получения результатов. Это гарантирует, что пользователь физически не может получить документы без соответствующего доступа.

3.2 Переранжирование для повышения точности

Проблема двухбашенных моделей: Модели эмбеддингов быстрые, но менее точные — запрос и документ векторизуются независимо.

Решение — перекрёстный кодировщик: BGE-Reranker обрабатывает пару (запрос, документ) совместно.

Таблица 6. Влияние переранжирования на метрики

Метрика	Без переранжирования	С BGE-Reranker	Улучшение
MRR@10	0.58	0.82	+41%
Recall@3	0.65	0.89	+37%

Результаты на тестовой выборке из 200 запросов.

3.3 Структурированные ссылки на источники

Для минимизации галлюцинаций используется строгая системная инструкция:

Ответы только на основе предоставленного контекста
Обязательное указание источника: [Документ: название, раздел]
Запрет на додумывание информации

4. Результаты и метрики

4.1 Сравнительный анализ

Таблица 7. Ключевые метрики

Метрика	Confluence Search	RAG-система
Конфиденциальность	Нет LLM	100% внутри периметра
Время поиска	15-20 мин (ручной)	< 30 сек
Фактологичность (RAGAS)	N/A	87%
Соблюдение прав доступа	На уровне Confluence	Встроенное в поиск

4.2 Инфраструктура

Таблица 8. Спецификация сервера

Компонент	Конфигурация	Назначение
GPU	1x NVIDIA RTX 4090 24GB	Вывод Mistral 7B
RAM	64 GB	Qdrant + обработка
Storage	1 TB NVMe SSD	Векторное хранилище

4.3 Бизнес-результаты

Время поиска: с 15-20 минут до 30 секунд
Удовлетворённость: положительная оценка от пользователей (внутренний опрос)
Внедрение: более 100 активных пользователей за 2 месяца
Соответствие требованиям: успешно пройдена внутренняя проверка ИБ

5. Заключение и рекомендации

Локально развёрнутая RAG-система на базе Mistral 7B, Qdrant и vLLM — рабочий подход к корпоративному ИИ-поиску для организаций с требованиями к защите данных.

Ключевые выводы:

Локально развёрнутая LLM обеспечивает соответствие требованиям к защите данных
Гибридный поиск (BM25 + векторы) необходим для работы со структурированными документами
Переранжирование повышает точность на 35-40% — рекомендуемый компонент
Предварительная фильтрация по правам доступа должна быть на уровне поиска
Mistral 7B достаточен для большинства задач корпоративного поиска

Рекомендация: Данная архитектура применима к организациям среднего размера с требованиями локализации данных: страхование, лизинг, медицина, юридические услуги.