Reference AI Architecture

Корпоративная AI-платформа

Обобщенная схема закрытого AI-контура: пользовательский вход, frontend, LLM Firewall, AI Gateway, LLM backend, RAG, управляемые MCP/tools и защищенный выход в интернет.

Frontend Web UI / API
Guardrails LLM Firewall
Runtime Gateway / LLM / RAG / Tools / Egress

Схема корпоративной AI-платформы

Кейс показывает полный путь запроса и контрольные точки: access/frontend, LLM Firewall, AI Gateway, LLM backends, RAG, MCP/OpenAPI/HTTP tools, Secure Egress и audit/observability. Каждый блок кликабелен и раскрыт ниже.


Из чего собирается платформа

Схема намеренно остается обобщенной: компоненты можно менять под контур, но границы между интерфейсом, безопасностью, inference backend и corporate context должны быть понятны.

01
Zone 01 / Users & Access

Users, access and entry channels

Эта зона фиксирует, кто входит в платформу и через какие каналы: сотрудники, администраторы, сервисные клиенты, внутренние порталы, VPN/SSO/API-доступ.

Пример реализации

Корпоративный SSO/LDAP/AD, OpenVPN или другой VPN-контур, сервисные API-токены, роли и группы в IAM.

Зачем

Без явной access-зоны AI-платформа превращается в общий чат без владельцев, ролей и понятной границы входа.

Как работает

Доступ отделен от frontend, чтобы менять SSO, VPN, API-токены и группы без перепроектирования пользовательского интерфейса.

Что решает

Контроль пользователей, разделение ролей, подключение корпоративных каналов и возможность закрыть платформу внутри нужного контура.

Контроль качества

Единый вход, least privilege, audit и разделение admin/user-сценариев удерживают доступ управляемым даже при нескольких каналах входа.

02
Zone 02 / Frontend

Frontend layer and user workspace

Frontend — это слой пользовательского опыта: рабочее место для чатов, файлов, сессий, сценариев и запуска задач без прямого доступа к моделям.

Пример реализации

Open WebUI или H2O/h2oGPT как web workspace, корпоративный портал, desktop-клиент или API-клиент для внутренних сервисов.

Зачем

Пользователю нужен единый рабочий стол для чатов, файлов, истории, выбора сценария и запуска рабочих процессов.

Как работает

Frontend не должен напрямую знать, какая модель или tool реально выполнит запрос; он передает задачу в policy/gateway-слои.

Что решает

Снижает хаос из разных чатов и клиентов, дает единый UX и позволяет подключать разные backend-сценарии без переобучения пользователей.

Контроль качества

Frontend остается легким рабочим местом: без секретов и прямых model endpoints, с передачей запросов в gateway и role-based доступом.

03
Zone 03 / LLM Firewall

LLM Firewall and policy enforcement

LLM Firewall — это отдельный контрольный слой для prompt injection, jailbreak, DLP/PII, output-safety, RBAC и аудитных решений до и после обращения к модели.

Пример реализации

Prompt sanitizer на входе, LlamaGuard/PromptGuard для классификации, output filter, PII/DLP masking и allow/deny policy для tools.

Зачем

Модель нельзя считать доверенной границей: вход может быть вредоносным, а выход может нарушить политику или раскрыть данные.

Как работает

Firewall вынесен отдельно, чтобы политики безопасности жили независимо от frontend, RAG, tools и конкретного LLM backend.

Что решает

Блокирует опасные инструкции, ограничивает tool-вызовы, проверяет ответы, маскирует чувствительные данные и оставляет трассу решения.

Контроль качества

Политики применяются по этапам: вход, контекст, tool-output и ответ модели проходят классификацию, audit и управляемый ручной override.

04
Zone 04 / AI Gateway

AI Gateway, routing and orchestration

Gateway принимает очищенный запрос, выбирает маршрут, добавляет разрешенный контекст, вызывает LLM backend, RAG и tools, управляет fallback, лимитами, стоимостью и latency.

Пример реализации

LiteLLM или собственный OpenAI-compatible gateway: маршруты по tenant, data class, latency, cost; fallback на OpenRouter только для разрешенных open-задач.

Зачем

Без gateway вся логика выбора модели, контекста, инструментов и fallback расползется по frontend и backend-сервисам.

Как работает

Отдельный gateway позволяет централизованно управлять маршрутизацией: локальная модель, серверный runtime, OpenRouter или другой внешний API.

Что решает

Мультимодельность, tenant-политики, fallback, rate limits, управление контекстом и предсказуемое подключение новых провайдеров.

Контроль качества

Маршруты закрепляются через data classification, provider allowlist, quotas и logs, чтобы выбор backend был предсказуемым и проверяемым.

05
Zone 05 / LLM Backends

Private and external LLM backends

Backend-зона содержит реальные runtime-поставщики: локальные desktop/server inference для закрытых данных и внешние OpenAI-compatible провайдеры, включая OpenRouter, для открытых или менее чувствительных задач.

Пример реализации

Desktop: LM Studio/Ollama. Server: llama.cpp или vLLM на CPU/GPU. External: OpenRouter или другой OpenAI-compatible API для open workloads.

Зачем

Разные задачи требуют разных моделей: где-то важна приватность, где-то скорость, стоимость, качество reasoning или доступ к hosted/open models.

Как работает

LLM backend отделен от gateway, чтобы можно было менять runtime, GPU-пул или внешнего провайдера без переписывания интерфейса.

Что решает

Закрывает локальные и облачные сценарии, разделяет sensitive/open workloads и дает путь к OpenRouter для открытых моделей.

Контроль качества

Runtime-профили, health checks, fallback и мониторинг latency/GPU/RAM помогают разделять sensitive/open workloads и держать SLA.

06
Zone 06 / RAG & Knowledge

Knowledge layer and retrieval pipeline

RAG-зона отвечает за корпоративные знания: ingestion документов, парсинг, чанкинг, embeddings, vector search, rerank, цитирование источников и контроль качества контекста.

Пример реализации

Parser + chunker для PDF/wiki/СЭД, embeddings, pgvector/Qdrant, reranker, ACL-aware retrieval, source citations и cache.

Зачем

LLM сама по себе не знает актуальные корпоративные документы, регламенты, проекты и внутренние решения.

Как работает

RAG вынесен отдельной зоной, чтобы knowledge pipeline масштабировался и проверялся независимо от frontend и model runtime.

Что решает

Дает ответы по актуальным источникам, снижает hallucination, позволяет ссылаться на документы и обновлять знания без fine-tuning.

Контроль качества

Reindex, source scoring, document-level ACL и проверка качества retrieval поддерживают актуальность контекста и корректные ссылки на источники.

07
Zone 07 / MCP, Tools & Integrations

Tools, actions and enterprise integrations

Tools-зона подключает действия: модель не “ходит куда хочет”, а просит gateway вызвать разрешенный tool через MCP, OpenAPI/REST или HTTP streaming канал.

Пример реализации

MCP server для Redmine/Git/файлов, OpenAPI tools для CRM/ERP/Service Desk, HTTP streamed tools для длинных задач, n8n/Flowise workflow и progress events.

Зачем

Без tools AI только отвечает текстом. С tools он может найти issue в Redmine, открыть PR, проверить статус, создать заявку или запустить workflow.

Как работает

Gateway строит tool call, проверяет права, вызывает MCP/OpenAPI/HTTP tool, получает результат или stream событий и возвращает его в LLM как контролируемый контекст.

Что решает

Связывает LLM с реальными процессами, сохраняет контроль над side effects и дает трассируемую автоматизацию вместо ручного копирования между системами.

Контроль качества

Scopes, read/write separation, approval, dry-run, rollback и audit trail делают tool-вызовы управляемыми и понятными для владельцев процессов.

08
Zone 08 / Secure Internet Egress

Защищенный выход в интернет

Secure Egress — это отдельный outbound-слой для внешних LLM/API, OpenRouter, webhooks, поиска и provider-интеграций. Frontend, tools и model runtime не должны ходить в интернет напрямую.

Пример реализации

Вариант 1: корпоративный SWG/SASE/VPN/provider proxy. Вариант 2: self-hosted Docker egress gateway на базе Squid/Envoy/Tinyproxy с ACL/allowlist, DNS policy и логированием.

Зачем

Внешние модели, OpenRouter, внешние API, webhooks и web-поиск требуют контролируемого outbound-доступа, иначе каждый сервис начинает выходить наружу по-своему.

Как работает

AI Gateway или tools отправляют внешний запрос через egress policy. Дальше secure gateway выбирает разрешенный маршрут: корпоративный provider/SWG/SASE/VPN или Docker proxy.

Что решает

Единая точка outbound-контроля, allowlist внешних endpoints, разделение sensitive/open workloads, аудит внешних вызовов и предсказуемое подключение провайдеров.

Контроль качества

Domain allowlist, DNS policy, rate limits, egress logs, secret isolation и network policy показывают, куда реально уходит трафик и кто инициировал вызов.

OPS
Cross-cutting / Observability

Audit, observability and governance

Наблюдаемость не отдельная кнопка в конце, а поперечный слой: трассы запросов, оценка качества, cost/latency, incident review, аудит решений и доказуемость работы платформы.

Пример реализации

Request traces, prompt/response audit, policy decisions, tool-call logs, cost/latency dashboards, eval datasets и incident review.

Зачем

Без логов, метрик и evaluation невозможно понять, почему платформа дала такой ответ или почему выбран такой backend.

Как работает

Observability проходит через все зоны: access, frontend, firewall, gateway, RAG, tools и backend должны оставлять связанный trace.

Что решает

Диагностика, контроль качества, расследование инцидентов, управление бюджетом и постепенное улучшение политик.

Контроль качества

Redaction, retention policy, role-based access и отдельный audit trail позволяют хранить эксплуатационные данные аккуратно и проверяемо.


Нужна такая архитектура в закрытом контуре?

Можно собрать реализацию вокруг выбранного frontend, LLM Firewall, AI Gateway, локальных и внешних LLM backend, RAG, MCP/tools и защищенного egress под конкретный корпоративный ландшафт.

Разобрать ваш AI-контур

Можно начать с короткой архитектурной сессии: выбрать первый сценарий, определить данные, модельный маршрут, требования к железу, риски и пилотные метрики.

Выбрать сценарий Форма откроет подготовленное письмо, чтобы не отправлять данные через сторонний сервис.