# gpu-tools **Repository Path**: rymaker/gpu-tools ## Basic Information - **Project Name**: gpu-tools - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-03-10 - **Last Updated**: 2026-03-10 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # AMD GPU 工具集 适用于 AMD GPU(ROCm)的电源管理和压力测试工具。 ## 文件说明 | 文件 | 说明 | |------|------| | `gpu_power_mode.sh` | GPU 电源管理模式调整脚本 | | `gpu_stress_test.sh` | GPU 压力测试脚本 | ## 前置要求 - AMD GPU 显卡 - ROCm 驱动已安装 - `rocm-smi` 命令可用 - `hipcc` 编译器(用于压测脚本) --- ## gpu_power_mode.sh - 电源管理模式调整 ### 使用方法 ```bash sudo ./gpu_power_mode.sh ``` > 注意:需要 root 权限修改电源设置 ### 可选模式 | 模式 | 说明 | |------|------| | `auto` | 自动调节(默认,推荐)- 根据负载自动调整频率和功耗 | | `low` | 低功耗模式 - 强制低频率运行,适合节能场景 | | `high` | 高性能模式 - 强制高频率运行,适合持续高负载 | | `manual` | 手动模式 - 可手动调节频率级别 | ### 示例 ```bash # 交互式菜单 sudo ./gpu_power_mode.sh # 直接设置高性能模式 echo "high" | sudo tee /sys/class/drm/card0/device/power_dpm_force_performance_level # 恢复自动模式 echo "auto" | sudo tee /sys/class/drm/card0/device/power_dpm_force_performance_level ``` ### 手动模式频率调节 启用 `manual` 模式后,可手动设置频率: ```bash # 查看可用的核心频率级别 cat /sys/class/drm/card0/device/pp_dpm_sclk # 查看可用的显存频率级别 cat /sys/class/drm/card0/device/pp_dpm_mclk # 设置特定频率级别(例如级别 5) echo 5 > /sys/class/drm/card0/device/pp_dpm_sclk ``` --- ## gpu_stress_test.sh - 压力测试 ### 使用方法 ```bash ./gpu_stress_test.sh [时长秒数] [GPU ID] ``` | 参数 | 说明 | 默认值 | |------|------|--------| | 时长 | 测试持续时间(秒) | 30 | | GPU ID | GPU 设备编号 | 0 | ### 示例 ```bash # 默认测试 30 秒 ./gpu_stress_test.sh # 测试 60 秒 ./gpu_stress_test.sh 60 # 测试 GPU 1,持续 120 秒 ./gpu_stress_test.sh 120 1 ``` ### 输出说明 测试完成后会显示: - 功耗监控日志(每秒记录) - 统计摘要:平均/最高/最低功耗和温度 ### 典型输出示例 ``` ========================================== 功耗监控日志 ========================================== 时间 功耗(W) 温度(C) GPU利用率(%) 核心频率(MHz) 15:57:15 146.0 35.0 0 1725 15:57:16 152.0 40.0 0 1725 ... --- 统计摘要 --- 功耗: 平均 131.4W, 最高 155.0W, 最低 19.0W 温度: 平均 46.7°C, 最高 51.0°C ``` --- ## 常见问题 ### Q: 出现 "AMD GPU device(s) is/are in a low-power state" 警告? 这是正常的省电提示,表示 GPU 处于空闲低功耗状态。有负载时会自动提升性能,无需处理。 ### Q: 如何查看当前 GPU 状态? ```bash # 查看完整状态 rocm-smi # 只看功耗 rocm-smi --showpower # 只看温度 rocm-smi --showtemp # 只看频率 rocm-smi --showclocks ``` ### Q: 如何查看所有 GPU? ```bash rocm-smi -a ``` --- ## 许可证 MIT License