taskmind.ru | AI Systems Architecture

01

Zone 01 / Users & Access

Users, access and entry channels

Эта зона фиксирует, кто входит в платформу и через какие каналы: сотрудники, администраторы, сервисные клиенты, внутренние порталы, VPN/SSO/API-доступ.

Пример реализации

Корпоративный SSO/LDAP/AD, OpenVPN или другой VPN-контур, сервисные API-токены, роли и группы в IAM.

Зачем

Без явной access-зоны AI-платформа превращается в общий чат без владельцев, ролей и понятной границы входа.

Как работает

Доступ отделен от frontend, чтобы менять SSO, VPN, API-токены и группы без перепроектирования пользовательского интерфейса.

Что решает

Контроль пользователей, разделение ролей, подключение корпоративных каналов и возможность закрыть платформу внутри нужного контура.

Контроль качества

Единый вход, least privilege, audit и разделение admin/user-сценариев удерживают доступ управляемым даже при нескольких каналах входа.

02

Zone 02 / Frontend

Frontend layer and user workspace

Frontend — это слой пользовательского опыта: рабочее место для чатов, файлов, сессий, сценариев и запуска задач без прямого доступа к моделям.

Пример реализации

Open WebUI или H2O/h2oGPT как web workspace, корпоративный портал, desktop-клиент или API-клиент для внутренних сервисов.

Зачем

Пользователю нужен единый рабочий стол для чатов, файлов, истории, выбора сценария и запуска рабочих процессов.

Как работает

Frontend не должен напрямую знать, какая модель или tool реально выполнит запрос; он передает задачу в policy/gateway-слои.

Что решает

Снижает хаос из разных чатов и клиентов, дает единый UX и позволяет подключать разные backend-сценарии без переобучения пользователей.

Контроль качества

Frontend остается легким рабочим местом: без секретов и прямых model endpoints, с передачей запросов в gateway и role-based доступом.

03

Zone 03 / LLM Firewall

LLM Firewall and policy enforcement

LLM Firewall — это отдельный контрольный слой для prompt injection, jailbreak, DLP/PII, output-safety, RBAC и аудитных решений до и после обращения к модели.

Пример реализации

Prompt sanitizer на входе, LlamaGuard/PromptGuard для классификации, output filter, PII/DLP masking и allow/deny policy для tools.

Зачем

Модель нельзя считать доверенной границей: вход может быть вредоносным, а выход может нарушить политику или раскрыть данные.

Как работает

Firewall вынесен отдельно, чтобы политики безопасности жили независимо от frontend, RAG, tools и конкретного LLM backend.

Что решает

Блокирует опасные инструкции, ограничивает tool-вызовы, проверяет ответы, маскирует чувствительные данные и оставляет трассу решения.

Контроль качества

Политики применяются по этапам: вход, контекст, tool-output и ответ модели проходят классификацию, audit и управляемый ручной override.

04

Zone 04 / AI Gateway

AI Gateway, routing and orchestration

Gateway принимает очищенный запрос, выбирает маршрут, добавляет разрешенный контекст, вызывает LLM backend, RAG и tools, управляет fallback, лимитами, стоимостью и latency.

Пример реализации

LiteLLM или собственный OpenAI-compatible gateway: маршруты по tenant, data class, latency, cost; fallback на OpenRouter только для разрешенных open-задач.

Зачем

Без gateway вся логика выбора модели, контекста, инструментов и fallback расползется по frontend и backend-сервисам.

Как работает

Отдельный gateway позволяет централизованно управлять маршрутизацией: локальная модель, серверный runtime, OpenRouter или другой внешний API.

Что решает

Мультимодельность, tenant-политики, fallback, rate limits, управление контекстом и предсказуемое подключение новых провайдеров.

Контроль качества

Маршруты закрепляются через data classification, provider allowlist, quotas и logs, чтобы выбор backend был предсказуемым и проверяемым.

05

Zone 05 / LLM Backends

Private and external LLM backends

Backend-зона содержит реальные runtime-поставщики: локальные desktop/server inference для закрытых данных и внешние OpenAI-compatible провайдеры, включая OpenRouter, для открытых или менее чувствительных задач.

Пример реализации

Desktop: LM Studio/Ollama. Server: llama.cpp или vLLM на CPU/GPU. External: OpenRouter или другой OpenAI-compatible API для open workloads.

Зачем

Разные задачи требуют разных моделей: где-то важна приватность, где-то скорость, стоимость, качество reasoning или доступ к hosted/open models.

Как работает

LLM backend отделен от gateway, чтобы можно было менять runtime, GPU-пул или внешнего провайдера без переписывания интерфейса.

Что решает

Закрывает локальные и облачные сценарии, разделяет sensitive/open workloads и дает путь к OpenRouter для открытых моделей.

Контроль качества

Runtime-профили, health checks, fallback и мониторинг latency/GPU/RAM помогают разделять sensitive/open workloads и держать SLA.

06

Zone 06 / RAG & Knowledge

Knowledge layer and retrieval pipeline

RAG-зона отвечает за корпоративные знания: ingestion документов, парсинг, чанкинг, embeddings, vector search, rerank, цитирование источников и контроль качества контекста.

Пример реализации

Parser + chunker для PDF/wiki/СЭД, embeddings, pgvector/Qdrant, reranker, ACL-aware retrieval, source citations и cache.

Зачем

LLM сама по себе не знает актуальные корпоративные документы, регламенты, проекты и внутренние решения.

Как работает

RAG вынесен отдельной зоной, чтобы knowledge pipeline масштабировался и проверялся независимо от frontend и model runtime.

Что решает

Дает ответы по актуальным источникам, снижает hallucination, позволяет ссылаться на документы и обновлять знания без fine-tuning.

Контроль качества

Reindex, source scoring, document-level ACL и проверка качества retrieval поддерживают актуальность контекста и корректные ссылки на источники.

07

Zone 07 / MCP, Tools & Integrations

Tools, actions and enterprise integrations

Tools-зона подключает действия: модель не “ходит куда хочет”, а просит gateway вызвать разрешенный tool через MCP, OpenAPI/REST или HTTP streaming канал.

Пример реализации

MCP server для Redmine/Git/файлов, OpenAPI tools для CRM/ERP/Service Desk, HTTP streamed tools для длинных задач, n8n/Flowise workflow и progress events.

Зачем

Без tools AI только отвечает текстом. С tools он может найти issue в Redmine, открыть PR, проверить статус, создать заявку или запустить workflow.

Как работает

Gateway строит tool call, проверяет права, вызывает MCP/OpenAPI/HTTP tool, получает результат или stream событий и возвращает его в LLM как контролируемый контекст.

Что решает

Связывает LLM с реальными процессами, сохраняет контроль над side effects и дает трассируемую автоматизацию вместо ручного копирования между системами.

Контроль качества

Scopes, read/write separation, approval, dry-run, rollback и audit trail делают tool-вызовы управляемыми и понятными для владельцев процессов.

08

Zone 08 / Secure Internet Egress

Защищенный выход в интернет

Secure Egress — это отдельный outbound-слой для внешних LLM/API, OpenRouter, webhooks, поиска и provider-интеграций. Frontend, tools и model runtime не должны ходить в интернет напрямую.

Пример реализации

Вариант 1: корпоративный SWG/SASE/VPN/provider proxy. Вариант 2: self-hosted Docker egress gateway на базе Squid/Envoy/Tinyproxy с ACL/allowlist, DNS policy и логированием.

Зачем

Внешние модели, OpenRouter, внешние API, webhooks и web-поиск требуют контролируемого outbound-доступа, иначе каждый сервис начинает выходить наружу по-своему.

Как работает

AI Gateway или tools отправляют внешний запрос через egress policy. Дальше secure gateway выбирает разрешенный маршрут: корпоративный provider/SWG/SASE/VPN или Docker proxy.

Что решает

Единая точка outbound-контроля, allowlist внешних endpoints, разделение sensitive/open workloads, аудит внешних вызовов и предсказуемое подключение провайдеров.

Контроль качества

Domain allowlist, DNS policy, rate limits, egress logs, secret isolation и network policy показывают, куда реально уходит трафик и кто инициировал вызов.

OPS

Cross-cutting / Observability

Audit, observability and governance

Наблюдаемость не отдельная кнопка в конце, а поперечный слой: трассы запросов, оценка качества, cost/latency, incident review, аудит решений и доказуемость работы платформы.

Пример реализации

Request traces, prompt/response audit, policy decisions, tool-call logs, cost/latency dashboards, eval datasets и incident review.

Зачем

Без логов, метрик и evaluation невозможно понять, почему платформа дала такой ответ или почему выбран такой backend.

Как работает

Observability проходит через все зоны: access, frontend, firewall, gateway, RAG, tools и backend должны оставлять связанный trace.

Что решает

Диагностика, контроль качества, расследование инцидентов, управление бюджетом и постепенное улучшение политик.

Контроль качества

Redaction, retention policy, role-based access и отдельный audit trail позволяют хранить эксплуатационные данные аккуратно и проверяемо.

Корпоративная AI-платформа

Схема корпоративной AI-платформы

Из чего собирается платформа

Users, access and entry channels

Frontend layer and user workspace

LLM Firewall and policy enforcement

AI Gateway, routing and orchestration

Private and external LLM backends

Knowledge layer and retrieval pipeline

Tools, actions and enterprise integrations

Защищенный выход в интернет

Audit, observability and governance

Нужна такая архитектура в закрытом контуре?

Разобрать ваш AI-контур