Инфраструктура

Типовые конфигурации AI-контура

Ориентиры по железу, памяти, диску и сети для разных масштабов: от быстрого пилота до enterprise-контура с gateway, RAG, tools и observability.

Старт без GPUCloud API + RAG для проверки сценария

Командный контурДо 100 пользователей, роли и интеграции

Локальный runtimeGPU, приватные модели и закрытый egress

Инфраструктура

Требования к оборудованию и сети

Нагрузка зависит от сценария: можно начать с облачных моделей и RAG, а локальные LLM добавлять только там, где важны приватность, latency или автономность.

Сценарий	Пользователи	Тип контура	CPU / GPU	RAM / диск	Сеть
Быстрый пилот	до 10	Cloud API + RAG	4-8 vCPU, GPU не требуется	16-32 GB RAM, 100-250 GB SSD/NVMe	50-100 Mbps internet, стабильный доступ к LLM/API provider
Командный контур	до 100	Cloud/local mix	8-16 vCPU или GPU 12-24 GB VRAM для локальной 7B-14B модели	32-64 GB RAM, 250-500 GB NVMe	1 Gbps LAN желательно, internet 100 Mbps для обновлений и внешних API
Закрытый локальный runtime	100+	Local GPU / 30B-70B	16-32 vCPU, GPU 48-80 GB VRAM или несколько 24 GB GPU	128 GB+ RAM, 1 TB+ NVMe и отдельный backup/storage слой	1-10 Gbps LAN, контролируемый egress для внешних провайдеров
Enterprise-платформа	до 1000	Gateway + RAG + tools + observability	8+ vCPU для gateway/tools/parser плюс отдельный model runtime	32 GB+ RAM без model runtime, 500 GB+ для логов, очередей, индекса и артефактов	Низкая latency до AD/SSO, БД, CRM/ERP, service desk и файловых хранилищ

Финальный sizing делается после оценки объема документов, числа пользователей, требований к приватности, SLA и выбранных моделей. Для пилота обычно важнее корректная архитектура и метрики, чем максимальное железо с первого дня.

Как читать таблицу

Это ориентиры, а не жесткий BOM

Точные требования зависят от моделей, размера базы знаний, требований к приватности, числа одновременных пользователей и глубины интеграций.

CPU

CPU и фоновые сервисы

Gateway, firewall, parsers, embeddings pipeline, workflow tools и observability требуют отдельного ресурса даже при внешних LLM.

GPU

GPU нужен не всегда

Для быстрого пилота можно идти через cloud API. GPU появляется там, где нужны локальные модели, приватность, latency или автономность.

RAM

Память и индекс

RAM нужна не только модели: документы, очереди, reranking, vector store, cache и параллельные задачи быстро поднимают baseline.

NET

Сеть и egress

Для enterprise важны latency до SSO, БД, service desk и файловых хранилищ, а также контролируемый выход к внешним AI/API-провайдерам.

Разобрать ваш AI-контур

Можно начать с короткой архитектурной сессии: выбрать первый сценарий, определить данные, модельный маршрут, требования к железу, риски и пилотные метрики.

Имя Компания Контакт Масштаб Сценарий Удобное время

Выбрать сценарий Форма откроет подготовленное письмо, чтобы не отправлять данные через сторонний сервис.