北京荣科互联科技有限公司全域智能体平台

仪表板

实时监控平台运行状态和关键指标

在线节点

24

+2 较昨日

GPU使用率

78%

+5% 较上小时

运行任务

156

+12 较上小时

系统负载

2.4

-0.2 较上小时

资源使用趋势

任务执行状态

员工知识库问答

节点: GPU-01

运行中

合同条款分析

节点: GPU-03

队列中

公文模板生成

节点: GPU-05

已完成

算力服务规格

CPU配置

2×Intel8480+ 56核

内存容量

2048GB DDR4

GPU配置

8×NVIDIA GPU 96G

服务期限

12个月独占

AI模型运行状态

实时监控

大语言模型

运行中

GPU占用 85%

推理速度 1.2k tokens/s

计算机视觉

训练中

训练进度 67%

剩余时间 2h 15m

语音识别

待机

准确率 96.8%

响应时间 120ms

智能推荐

优化GPU资源分配

建议将GPU-03的负载转移至GPU-07，可提升15%效率

预计节省成本: ¥2,340/天

模型训练时间优化

当前时段训练成本较高，建议调整至凌晨2-6点

预计节省时间: 30%

硬件升级建议

检测到内存使用率持续超过90%，建议增加内存

紧急程度: 中等

预测分析

未来24小时负载预测 ↗ 上升趋势

78%

峰值预计在14:00-16:00，建议提前调配资源

本月成本预测 ¥45,680

65%

较上月预计节省12%，优化效果显著

设备健康度预测良好

92%

GPU-05温度偏高，建议关注散热情况

实时AI任务流程

5个任务进行中

数据输入 1.2GB/s

预处理处理中

AI推理 GPU-03

结果输出实时

队列任务 12

平均等待时间: 3.5分钟

执行中 5

平均执行时间: 8.2分钟

已完成 1,247

今日成功率: 98.7%

智能告警

2个警告

GPU温度异常高优先级

GPU-05温度达到82°C，超过安全阈值

2分钟前

内存使用率过高中优先级

节点GPU-03内存使用率达到94%

5分钟前

系统运行正常信息

所有关键服务运行稳定

刚刚

性能优化建议

1

启用动态负载均衡

可提升整体性能15-20%

预计收益: +15%

2

优化模型缓存策略

减少模型加载时间60%

预计收益: +60%

3

调整批处理大小

优化吞吐量和延迟平衡

预计收益: +25%

AI算力智能分配

自动调度

GPU-01 运行中

利用率 85%

任务大语言模型

GPU-02 训练中

利用率 92%

任务计算机视觉

GPU-03 待机

利用率 15%

任务空闲

GPU-04 推理中

利用率 78%

任务语音识别

负载均衡

自动分配任务到最优GPU节点

效率提升 +23%

优先级调度

根据任务优先级智能排队

响应时间 -35%

预测调度

基于历史数据预测资源需求

准确率 94.2%

快速操作

节点管理

管理和监控集群中的所有计算节点

GPU-Node-01

IP地址: 192.168.1.101

CPU: 2×Intel8480+ 56核

内存: 2048GB DDR4

GPU: 8×NVIDIA GPU 96GB

存储: 2×960GB + 4×3.84TB SSD

网络: 4×400G HCA + 2×25Gb

CPU使用率 45%

GPU使用率 78%

内存使用率 62%

GPU-Node-02

IP地址: 192.168.1.102

GPU型号: RTX 4090

内存: 64GB

CPU使用率 32%

GPU使用率 91%

内存使用率 58%

GPU-Node-03

IP地址: 192.168.1.103

GPU型号: RTX 4090

内存: 64GB

节点离线

最后在线: 2小时前

硬件监控

实时监控集群硬件资源使用情况

集群CPU使用率

65%

平均负载: 2.4

集群GPU使用率

82%

显存使用: 78%

GPU型号: NVIDIA GPU

显存容量: ≥96GB HBM2E/HBM3

CUDA核心: ≥4096个

单精度算力: ≥44 TeraFLOPS

功率: ≤700W

集群内存使用率

58%

总内存: 1.5TB

实时性能监控

网络流量监控

入站

出站

HDR 400G 使用率

65%

25Gb 光纤延迟

0.3ms

丢包率

0.01%

连接数

1,247

存储性能监控

SSD

NVMe

总IOPS

1.2M

读取吞吐量

3.8GB/s

写入吞吐量

2.5GB/s

平均延迟

0.08ms

日志系统

查看和管理系统运行日志

日志级别

时间范围

服务模块

操作

系统日志

自动刷新

ERROR

节点连接失败

2025-08-15 14:32:15

无法连接到节点 GPU-Node-03 (192.168.1.103)，连接超时

模块: 节点管理 | 线程: worker-01

WARN

GPU内存使用率过高

2025-07-22 14:30:42

节点 GPU-Node-02 的GPU内存使用率达到 91%，建议优化任务分配

模块: 硬件监控 | 线程: monitor-02

INFO

任务执行完成

2025-06-10 14:28:33

员工知识库问答任务 (ID: task-20250610-001) 在节点 GPU-Node-01 上执行完成

模块: 任务调度 | 线程: scheduler-01

INFO

用户登录

2025-05-18 14:25:18

用户 admin 从 IP 192.168.1.100 成功登录系统

模块: 用户认证 | 线程: auth-01

DEBUG

模型加载完成

2025-04-03 14:20:05

全域大模型调度平台 v2.1 在节点 GPU-Node-01 上加载完成，耗时 45.2秒

模块: 模型管理 | 线程: model-loader-01

员工智能助手

为企业员工提供智能化办公支持服务

智能问答

企业知识库智能问答

政策咨询

规章制度查询

业务指导

工作辅助

日常办公智能辅助

日程管理

任务提醒

数据汇总

本月统计

2,458

问答次数

96.2%

满意度

1.2s

平均响应

文案与公文助手

智能化公文写作和文案生成服务

公文写作

标准公文智能生成

文案创作

营销文案智能生成

文档优化

文档校对与润色

使用统计

1,892

本月生成

94.5%

采纳率

3.2s

生成速度

156

模板数量

运维与设备知识助手

设备运维知识库和故障诊断智能服务

故障诊断

智能故障分析与解决

故障排查

历史案例

解决方案

知识库

设备文档与操作手册

设备手册

维护规程

操作视频

运维统计

89

本月故障

95.6%

解决率

2.1h

平均修复

1,256

知识条目

合同审查智能体

智能化合同审查与风险识别服务

合同审查

智能条款分析

风险识别

潜在风险预警

合规检查

法规合规审核

审查统计

456

本月审查

23

高风险合同

98.2%

准确率

5min

平均耗时

智能问数智能体

自然语言数据查询与分析服务

数据查询

自然语言转SQL

输入您的问题

数据分析

智能数据洞察

趋势分析

占比分析

关联分析

查询统计

3,567

本月查询

97.8%

转换成功率

1.5s

平均响应

28

数据源

全域大模型调度平台

统一管理和调度多种大语言模型服务

模型管理

12个

已接入大模型

调用次数

1.2M

本月API调用

平均延迟

0.8s

响应时间

已接入模型

GPT-4

在线

Claude-3

在线

文心一言

在线

通义千问

在线

讯飞星火

在线

智谱GLM

维护中

调度策略

负载均衡

根据模型负载自动分配请求

智能路由

根据任务类型选择最优模型

故障转移

自动切换备用模型保障服务

算力服务

高性能计算资源服务，提供12个月独占使用权限

服务套数

4套

配套计算服务能力

服务期限

12个月

独占使用权限

服务保障

99.9%

可用性保证

CPU配置

处理器型号: Intel 8480+

处理器数量: 2颗

核心数: 56核

基础频率: 2.0GHz

内存配置

内存容量: 2048GB

内存类型: DDR4

ECC支持: 是

带宽: 高速

存储配置

系统盘: 2×960GB SSD

数据盘: 4×3.84TB SSD

总容量: 17.28TB

接口类型: NVMe

GPU配置

GPU数量: 8×NVIDIA GPU

显存容量: ≥96GB HBM2E/HBM3

CUDA核心: ≥4096个

单精度算力: ≥44 TeraFLOPS

功率: ≤700W

互联技术: NVLINK

网络配置

高速网络卡

HDR网卡: 4×1端口 400G HCA

总带宽: 1.6Tbps

管理网络

光纤网卡: 1×2端口 25Gb

包含模块: 是

服务条款

服务保障

• 12个月独占使用权限
• 99.9%可用性保证
• 24/7技术支持
• 硬件故障快速替换

性能指标

• 满足或超过配置要求
• 同等算力性能保证
• 运行环境完全兼容
• 专业运维管理

系统配置

管理平台系统参数和运行配置

基础配置

平台名称

系统版本

API端点

最大并发任务

性能配置

CPU使用率阈值

85%

内存使用率阈值

80%

GPU使用率阈值

90%

自动扩容

启用自动扩容

安全配置

API密钥轮换周期

访问日志保留

双因子认证

启用2FA认证

IP白名单

监控配置

数据采集间隔

告警通知

邮件通知

短信通知

钉钉通知

数据保留期

任务调度管理

智能任务调度与优先级管理，支持容器化部署

运行中任务

12

等待队列

8

已完成

156

失败任务

3

任务列表

任务ID	任务名称	优先级	状态	资源需求	进度	创建时间	操作

资源配额管理

管理CPU、GPU、内存等计算资源的分配配额

CPU资源池

总核心数 448核

已分配 312核

可用 136核

GPU资源池

总GPU数 24张

已分配 18张

可用 6张

内存资源池

总内存 6TB

已分配 4.2TB

可用 1.8TB

配额分配管理

用户/项目	CPU配额	GPU配额	内存配额	使用率	状态	操作
AI训练团队 ai-training-team	128核已用: 96核 (75%)	8张已用: 6张 (75%)	2TB 已用: 1.5TB (75%)	75%	正常
推理服务 inference-service	64核已用: 45核 (70%)	4张已用: 3张 (75%)	1TB 已用: 0.7TB (70%)	70%	警告

GPU虚拟化管理

管理GPU资源的虚拟化分配，支持1/2/4张GPU按需分配

物理GPU

32

NVIDIA H100

总显存

3072

GB HBM3

总算力

1408

TeraFLOPS

NVLink

19200

GB/s 总带宽

平均温度

62

°C

利用率

75

%

GPU集群实时监控

GPU使用率分布

GPU温度监控

显存使用情况

NVLink吞吐量

GPU虚拟化配置

GPU节点1

在线

物理GPU 8张 RTX 4090

虚拟实例 16个

内存总量 192GB

80% 使用率

GPU节点2

在线

物理GPU 8张 RTX 4090

虚拟实例 16个

内存总量 192GB

75% 使用率

GPU节点3

在线

物理GPU 8张 RTX 4090

虚拟实例 16个

内存总量 192GB

90% 使用率

虚拟GPU实例

实例ID	物理GPU	分配规格	任务	使用率	状态	操作
vGPU-001 节点1-GPU0	RTX 4090 24GB VRAM	1/2 GPU 12GB 分配	AI训练-模型A ai-training-team	85%	运行中
vGPU-002 节点1-GPU0	RTX 4090 24GB VRAM	1/2 GPU 12GB 分配	推理服务-API inference-service	60%	运行中

容器管理

管理Docker和Kubernetes容器化部署，支持算力集群的容器编排

Docker容器

156

运行中

K8s Pods

89

活跃

镜像

245

已存储

服务

32

已部署

容器编排管理

Docker容器

容器名称	镜像	状态	端口	资源使用	创建时间	操作
ai-training-worker-1 ID: 7f8a9b2c3d4e	pytorch/pytorch:2.0-cuda11.8 GPU训练环境	运行中	8080:80 HTTP服务	CPU: 2.5/4核内存: 6.2/8GB GPU: 1张	2024-01-15 14:30:25
inference-api-server ID: 1a2b3c4d5e6f	tensorflow/serving:2.13.0-gpu 推理服务	运行中	8501:8501 REST API	CPU: 1.8/2核内存: 3.2/4GB GPU: 1/2张	2024-01-15 12:15:40

Kubernetes Pods

Pod名称	命名空间	状态	节点	资源请求	重启次数	操作
training-job-abc123 Ready: 1/1	ai-training	Running	gpu-node-1 192.168.1.101	CPU: 4核内存: 16GB GPU: 2张	0

仪表板

资源使用趋势

任务执行状态

算力服务规格

AI模型运行状态

智能推荐

预测分析

实时AI任务流程

智能告警

性能优化建议

AI算力智能分配

快速操作

节点管理

GPU-Node-01

GPU-Node-02

GPU-Node-03

硬件监控

集群CPU使用率

集群GPU使用率

集群内存使用率

实时性能监控

网络流量监控

存储性能监控

日志系统

系统日志

员工智能助手

智能问答

工作辅助

本月统计

热门问题

文案与公文助手

公文写作

文案创作

文档优化

使用统计

运维与设备知识助手

故障诊断

知识库

运维统计

合同审查智能体

合同审查

风险识别

合规检查

审查统计

智能问数智能体

数据查询

数据分析

查询统计

全域大模型调度平台

模型管理

调用次数

平均延迟

已接入模型

调度策略

负载均衡

智能路由

故障转移

算力服务

服务套数

服务期限

服务保障

CPU配置

内存配置

存储配置

GPU配置

网络配置

高速网络卡

管理网络

服务条款

服务保障

性能指标

系统配置

基础配置

性能配置

安全配置

监控配置

任务调度管理

任务列表

资源配额管理

CPU资源池