Инфраструктура

Типовые конфигурации AI-контура

Ориентиры по железу, памяти, диску и сети для разных масштабов: от быстрого пилота до enterprise-контура с gateway, RAG, tools и observability.

Старт без GPUCloud API + RAG для проверки сценария
Командный контурДо 100 пользователей, роли и интеграции
Локальный runtimeGPU, приватные модели и закрытый egress

Требования к оборудованию и сети

Нагрузка зависит от сценария: можно начать с облачных моделей и RAG, а локальные LLM добавлять только там, где важны приватность, latency или автономность.

Сценарий Пользователи Тип контура CPU / GPU RAM / диск Сеть
Быстрый пилот до 10 Cloud API + RAG 4-8 vCPU, GPU не требуется 16-32 GB RAM, 100-250 GB SSD/NVMe 50-100 Mbps internet, стабильный доступ к LLM/API provider
Командный контур до 100 Cloud/local mix 8-16 vCPU или GPU 12-24 GB VRAM для локальной 7B-14B модели 32-64 GB RAM, 250-500 GB NVMe 1 Gbps LAN желательно, internet 100 Mbps для обновлений и внешних API
Закрытый локальный runtime 100+ Local GPU / 30B-70B 16-32 vCPU, GPU 48-80 GB VRAM или несколько 24 GB GPU 128 GB+ RAM, 1 TB+ NVMe и отдельный backup/storage слой 1-10 Gbps LAN, контролируемый egress для внешних провайдеров
Enterprise-платформа до 1000 Gateway + RAG + tools + observability 8+ vCPU для gateway/tools/parser плюс отдельный model runtime 32 GB+ RAM без model runtime, 500 GB+ для логов, очередей, индекса и артефактов Низкая latency до AD/SSO, БД, CRM/ERP, service desk и файловых хранилищ

Финальный sizing делается после оценки объема документов, числа пользователей, требований к приватности, SLA и выбранных моделей. Для пилота обычно важнее корректная архитектура и метрики, чем максимальное железо с первого дня.


Это ориентиры, а не жесткий BOM

Точные требования зависят от моделей, размера базы знаний, требований к приватности, числа одновременных пользователей и глубины интеграций.

CPU

CPU и фоновые сервисы

Gateway, firewall, parsers, embeddings pipeline, workflow tools и observability требуют отдельного ресурса даже при внешних LLM.

GPU

GPU нужен не всегда

Для быстрого пилота можно идти через cloud API. GPU появляется там, где нужны локальные модели, приватность, latency или автономность.

RAM

Память и индекс

RAM нужна не только модели: документы, очереди, reranking, vector store, cache и параллельные задачи быстро поднимают baseline.

NET

Сеть и egress

Для enterprise важны latency до SSO, БД, service desk и файловых хранилищ, а также контролируемый выход к внешним AI/API-провайдерам.


Разобрать ваш AI-контур

Можно начать с короткой архитектурной сессии: выбрать первый сценарий, определить данные, модельный маршрут, требования к железу, риски и пилотные метрики.

Выбрать сценарий Форма откроет подготовленное письмо, чтобы не отправлять данные через сторонний сервис.