Перейти к контенту

Корпоративный ИИ-поиск: RAG-система для страховой компании

Внедрение RAG-системы в закрытом контуре страховой компании. Локально развёрнутая LLM, гибридный поиск и фильтрация по правам доступа. Сокращение времени поиска регламентов с 20 минут до 30 секунд.

On-Premise
Данные внутри контура
87%
Точность ответов (RAGAS)
RBAC
Фильтрация по правам доступа
< 3 сек
Время генерации ответа

Резюме

Внедрение корпоративной RAG-системы для региональной страховой компании. Интеллектуальный поиск по внутренним регламентам и базе знаний без передачи данных во внешние облака.

Ключевые бизнес-результаты:

  • Приватность: данные обрабатываются внутри контура заказчика — соответствие требованиям регулятора
  • Точность: 87% фактологичности (RAGAS) — минимизация галлюцинаций
  • Производительность: время генерации ответа < 3 сек на собственном сервере
  • Безопасность: интеграция с Active Directory — сотрудник видит только документы своего отдела

Контекст: Для организаций в регулируемых отраслях локально развёрнутые LLM-решения обеспечивают соответствие требованиям к защите данных и контроль над инфраструктурой.


1. Проблематика: Почему не ChatGPT

1.1 Исходное состояние

Страховая компания использовала полнотекстовый поиск по корпоративной wiki (Confluence). При запросе "Какой порядок урегулирования убытков по КАСКО при ДТП с участием третьих лиц?" система возвращала десятки ссылок — сотрудники тратили до 20 минут на поиск нужного регламента.

1.2 Почему нельзя использовать облачные LLM

Таблица 1. Регуляторные ограничения

ТребованиеOpenAI APIЛокальная LLM
152-ФЗ (Персональные данные)Данные уходят за рубежВнутри периметра
Коммерческая тайнаРиск утечки тарифовИзолированный контур
Аудит и трассировкаОграниченный контрольПолное логирование
ДоступностьЗависит от вендораСобственная инфраструктура

1.3 Проблемы чистого векторного поиска

Таблица 2. Ограничения векторного поиска

СценарийВекторный поискПроблема
"Полис №СТР-2024-001234"Низкая полнотаНомера полисов не имеют семантики
"Приложение 3 к Регламенту №15"ПропускаетТочные ссылки требуют точного совпадения
"Франшиза по ОСАГО"НеточныйАббревиатуры плохо векторизуются

Вывод: Для корпоративных документов необходим гибридный поиск (BM25 + векторы).


2. Архитектурные решения

2.1 Локальный стек

UserAPIRAGSearchML
100%
Ctrl+Колесо или перетаскивание

Рис. 1. Архитектура RAG-системы. Все компоненты развёрнуты на собственном сервере заказчика.

2.2 Обоснование технологического стека

2.2.1 Выбор LLM: Mistral 7B

Таблица 3. Сравнение локально развёртываемых LLM

МодельПараметрыЛицензияРусский языкВидеопамять
Mistral 7B7BApache 2.0Хороший14 GB
Llama 2 7B7BMetaСредний14 GB
Qwen 7B7BQwenОтличный14 GB

Выбор LLM

Архитектурное решение
Mistral 7B Instruct

Оптимальный баланс качества и требований к GPU. Помещается на одну видеокарту RTX 4090 или A10.

Apache 2.0 лицензия
Хорошее качество на русском языке
14 GB видеопамяти — одна карта
Отклонённый вариант
Llama 2 70B

Требует 4 GPU — избыточно для задачи и бюджета.

140 GB видеопамяти
Сложная инфраструктура
Избыточно для ~15k документов

2.2.2 Выбор векторной БД: Qdrant

Таблица 4. Сравнение векторных баз данных

КритерийPineconeWeaviateQdrant
Локальное развёртываниеТолько SaaSДаДа
Предфильтрация (ACL)ОграниченоДаВстроенная
Гибридный поискНетДаBM25 + векторы
ЛицензияПроприетарнаяBSD-3Apache 2.0

Выбор векторной БД

Архитектурное решение
Qdrant

Встроенная поддержка предфильтрации по метаданным — критично для разграничения доступа между отделами.

Локальное развёртывание
Встроенная предфильтрация прав доступа
Гибридный поиск (BM25 + векторы)
Отклонённый вариант
Pinecone

Только SaaS — данные покидают периметр.

Нет локального развёртывания
Ограниченная предфильтрация

2.2.3 Движок вывода: vLLM

Таблица 5. Сравнение серверов вывода

ДвижокПропускная способностьPaged AttentionПростота
HuggingFace TGIСредняяДаВысокая
vLLMВысокаяPagedAttentionСредняя
OllamaНизкаяНетВысокая

Выбор движка вывода

Архитектурное решение
vLLM

PagedAttention для эффективной работы с памятью. API, совместимый с OpenAI, упрощает интеграцию.

Эффективное использование видеопамяти
API, совместимый с OpenAI
Поддержка нескольких пользователей
Отклонённый вариант
Ollama

Не оптимизирован для многопользовательского режима.

Нет continuous batching
Ниже пропускная способность

3. Механики надёжности и точности

3.1 Конвейер гибридного поиска

QACLSearchRRFTop
100%
Ctrl+Колесо или перетаскивание

Рис. 2. Конвейер гибридного поиска. ACL-фильтр применяется на этапе поиска — сотрудник физически не может получить документы чужого отдела.

Ключевая механика: ACL-фильтр применяется на уровне индекса (предфильтрация), а не после получения результатов. Это гарантирует, что пользователь физически не может получить документы без соответствующего доступа.

3.2 Переранжирование для повышения точности

Проблема двухбашенных моделей: Модели эмбеддингов быстрые, но менее точные — запрос и документ векторизуются независимо.

Решение — перекрёстный кодировщик: BGE-Reranker обрабатывает пару (запрос, документ) совместно.

Таблица 6. Влияние переранжирования на метрики

МетрикаБез переранжированияС BGE-RerankerУлучшение
MRR@100.580.82+41%
Recall@30.650.89+37%

Результаты на тестовой выборке из 200 запросов.

3.3 Структурированные ссылки на источники

Для минимизации галлюцинаций используется строгая системная инструкция:

  • Ответы только на основе предоставленного контекста
  • Обязательное указание источника: [Документ: название, раздел]
  • Запрет на додумывание информации

4. Результаты и метрики

4.1 Сравнительный анализ

Таблица 7. Ключевые метрики

МетрикаConfluence SearchRAG-система
КонфиденциальностьНет LLM100% внутри периметра
Время поиска15-20 мин (ручной)< 30 сек
Фактологичность (RAGAS)N/A87%
Соблюдение прав доступаНа уровне ConfluenceВстроенное в поиск

4.2 Инфраструктура

Таблица 8. Спецификация сервера

КомпонентКонфигурацияНазначение
GPU1x NVIDIA RTX 4090 24GBВывод Mistral 7B
RAM64 GBQdrant + обработка
Storage1 TB NVMe SSDВекторное хранилище

4.3 Бизнес-результаты

  • Время поиска: с 15-20 минут до 30 секунд
  • Удовлетворённость: положительная оценка от пользователей (внутренний опрос)
  • Внедрение: более 100 активных пользователей за 2 месяца
  • Соответствие требованиям: успешно пройдена внутренняя проверка ИБ

5. Заключение и рекомендации

Локально развёрнутая RAG-система на базе Mistral 7B, Qdrant и vLLM — рабочий подход к корпоративному ИИ-поиску для организаций с требованиями к защите данных.

Ключевые выводы:

  1. Локально развёрнутая LLM обеспечивает соответствие требованиям к защите данных
  2. Гибридный поиск (BM25 + векторы) необходим для работы со структурированными документами
  3. Переранжирование повышает точность на 35-40% — рекомендуемый компонент
  4. Предварительная фильтрация по правам доступа должна быть на уровне поиска
  5. Mistral 7B достаточен для большинства задач корпоративного поиска

Рекомендация: Данная архитектура применима к организациям среднего размера с требованиями локализации данных: страхование, лизинг, медицина, юридические услуги.

Корпоративный ИИ-поиск: RAG-система для страховой компании | Софтэнк