CPU и фоновые сервисы
Gateway, firewall, parsers, embeddings pipeline, workflow tools и observability требуют отдельного ресурса даже при внешних LLM.
Ориентиры по железу, памяти, диску и сети для разных масштабов: от быстрого пилота до enterprise-контура с gateway, RAG, tools и observability.
Нагрузка зависит от сценария: можно начать с облачных моделей и RAG, а локальные LLM добавлять только там, где важны приватность, latency или автономность.
| Сценарий | Пользователи | Тип контура | CPU / GPU | RAM / диск | Сеть |
|---|---|---|---|---|---|
| Быстрый пилот | до 10 | Cloud API + RAG | 4-8 vCPU, GPU не требуется | 16-32 GB RAM, 100-250 GB SSD/NVMe | 50-100 Mbps internet, стабильный доступ к LLM/API provider |
| Командный контур | до 100 | Cloud/local mix | 8-16 vCPU или GPU 12-24 GB VRAM для локальной 7B-14B модели | 32-64 GB RAM, 250-500 GB NVMe | 1 Gbps LAN желательно, internet 100 Mbps для обновлений и внешних API |
| Закрытый локальный runtime | 100+ | Local GPU / 30B-70B | 16-32 vCPU, GPU 48-80 GB VRAM или несколько 24 GB GPU | 128 GB+ RAM, 1 TB+ NVMe и отдельный backup/storage слой | 1-10 Gbps LAN, контролируемый egress для внешних провайдеров |
| Enterprise-платформа | до 1000 | Gateway + RAG + tools + observability | 8+ vCPU для gateway/tools/parser плюс отдельный model runtime | 32 GB+ RAM без model runtime, 500 GB+ для логов, очередей, индекса и артефактов | Низкая latency до AD/SSO, БД, CRM/ERP, service desk и файловых хранилищ |
Финальный sizing делается после оценки объема документов, числа пользователей, требований к приватности, SLA и выбранных моделей. Для пилота обычно важнее корректная архитектура и метрики, чем максимальное железо с первого дня.
Точные требования зависят от моделей, размера базы знаний, требований к приватности, числа одновременных пользователей и глубины интеграций.
Gateway, firewall, parsers, embeddings pipeline, workflow tools и observability требуют отдельного ресурса даже при внешних LLM.
Для быстрого пилота можно идти через cloud API. GPU появляется там, где нужны локальные модели, приватность, latency или автономность.
RAM нужна не только модели: документы, очереди, reranking, vector store, cache и параллельные задачи быстро поднимают baseline.
Для enterprise важны latency до SSO, БД, service desk и файловых хранилищ, а также контролируемый выход к внешним AI/API-провайдерам.
Можно начать с короткой архитектурной сессии: выбрать первый сценарий, определить данные, модельный маршрут, требования к железу, риски и пилотные метрики.