# AngelSlim
**Repository Path**: mrerror/AngelSlim
## Basic Information
- **Project Name**: AngelSlim
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-04-29
- **Last Updated**: 2026-04-29
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
简体中文 | [English](README.md)
致力于打造更易用、更全面和更高效的大模型压缩工具包
✒️ TechnicalReport    |    📖 Documentation    |   🤗 Hugging Face    |   🤖 ModelScope
💬 WeChat |   🫨 Discord
## 📣最新进展
- [26/04/29] 我们发布了 2bit 与 1.25bit 腾讯混元翻译模型 [Hy-MT1.5-1.8B-2bit](https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit), [Hy-MT1.5-1.8B-1.25bit](https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit)。并且还制作了 [离线翻译体验 Demo](https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit/blob/main/Hy-MT-demo.apk)。 欢迎体验 🔥🔥🔥
- [26/04/23] 我们支持了 **Hy3-preview**(MoE A20B)模型的 FP8-Static 量化。
- [26/03/25] 我们发布了量化算法DAQ,该方法在后训练参数更新较小时,可保留量化后模型能力 [[论文]](https://arxiv.org/abs/2603.22324) | [[文档]](docs/source/features/quantization/daq.md)
- [26/02/09] 我们发布了 HY-1.8B-2Bit, 2比特端侧大模型, 模型可见[[Huggingface]](https://huggingface.co/AngelSlim/HY-1.8B-2Bit).
- [26/01/13] 我们发布V0.3版本, 支持了全模态场景的投机采样训练及部署,文档:[Eagle3 for LLM/VLM/Audio](https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/eagle/index.html)。并且我们发布了 **Sherry** 新的硬件高效的1.25bit三值量化算法 [[论文]](https://arxiv.org/abs/2601.07892) | [[代码]](https://github.com/Tencent/AngelSlim/tree/sherry/Sherry)🔥🔥🔥
历史更新
- [25/11/05] 我们发布V0.2版本,支持了包括GLM-4.6/Qwen3-VL/Qwen3-Omni等更多模型的量化,开源投机采样Eagle3训练框架,更新Diffusion模型量化工具。
- [25/09/30] 我们开源了思考早退新算法 **SpecExit** [[论文]](http://arxiv.org/abs/2509.24248) | [[文档]](https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/spec_exit.html) | [[vLLM代码]](https://github.com/vllm-project/vllm/pull/27192)
- [25/09/30] 我们发布了三值量化新算法 **Tequila** [[论文]](https://arxiv.org/abs/2509.23809) | [[代码]](https://github.com/Tencent/AngelSlim/tree/tequila/TernaryQuant)
- [25/09/24] 我们支持了Qwen3系列模型的NVFP4的PTQ量化,我们还开源了[Qwen3-32B-NVFP4](https://huggingface.co/AngelSlim/Qwen3-32B_nvfp4)、[Qwen3-235B-A22B-NVFP4](https://huggingface.co/AngelSlim/Qwen3-235B-A22B_nvfp4)权重。
- [25/09/01] 我们支持了[Hunyuan-MT-7B](https://huggingface.co/tencent/Hunyuan-MT-7B-fp8)翻译开源模型的FP8量化;支持了Eagle3的Torch推理及Benchmark评测流程。
- [25/08/06] 我们支持了`Hunyuan 0.5B/1.8B/4B/7B`和`Qwen2.5VL 3B/7B/32B/72B`的FP8、INT4量化,支持了`DeepSeek-R1/V3`和`Kimi-K2`模型的`W4A8-FP8`量化。我们还开源了`Hunyuan 1.8B/4B/7B`系列模型的Eagle3权重。
- [25/07/04] 我们支持了`Hunyuan/Qwen2.5/Qwen3/DeepSeek-R1-Distill-Qwen`等模型的量化,包含INT8、FP8、INT4等算法。
我们还开源了`Qwen3`系列模型的Eagle3权重。
## 🌟主要特性
- **高度集成化**:本工具将主流的压缩算法集成到工具,开发者可一键式调用,具有很好的易用性。
- **持续算法创新**:本工具除了集成工业界使用最广的算法,还持续自研更好的压缩算法,并且会陆续开源。
- **追求极致性能**:在模型压缩流程、压缩算法部署方面,本工具持续端到端优化,例如单卡GPU可量化Qwen3-235B和Deepseek-R1。
## 💼技术概览
场景
模型
压缩策略
量化
投机采样
其他技术
文生文(LLM)
图/视频生文(VLM)
文生图/视频/3D(Diffusion)
-
语音(TTS/ASR)
## 🛎️如何使用
### 1、安装 AngelSlim
推荐使用`pip`直接安装最新稳定版`AngelSlim`:
```shell
pip install angelslim
```
也可以选择克隆代码仓库后,以可编辑的方式从源代码安装:
```shell
cd AngelSlim && python setup.py install
```
更详细的安装说明以及不同平台的安装指引,可参考[安装文档](https://angelslim.readthedocs.io/zh-cn/latest/getting_started/installation.html)。
### 2、快速开始
#### 2.1 投机采样
完成安装`AngelSlim`后,您可以通过以下脚本快速开始`Eagle3`训练:
```shell
# 启动vLLM server
bash scripts/speculative/run_vllm_server.sh
# 生成训练数据
bash scripts/speculative/generate_data_for_target_model.sh
# 进行Eagle3模型的在线训练
bash scripts/speculative/train_eagle3_online.sh
```
全模态大模型的 Eagle3 训练与部署指南可参考:[LLM](https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/eagle/eagle.html) | [VLM](https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/eagle/vlm_eagle.html) | [Audio(ASR)](https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/eagle/audio_asr_eagle.html) | [Audio(TTS)](https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/eagle/audio_tts_eagle.html).
#### 2.2 LLM/VLM模型量化
完成安装`AngelSlim`后,您可以通过以下脚本快速开始,完成`Qwen3-1.7B`模型的静态`FP8`量化:
1、一键式启动
```shell
python3 tools/run.py -c configs/qwen3/fp8_static/qwen3-1_7b_fp8_static.yaml
```
该示例将会加载`HugggingFace`模型进行PTQ量化校准,最终量化产出模型权重.
对 **Hy3-preview**(MoE A20B)进行 FP8-Static 量化:
```shell
python tools/run.py -c configs/hunyuan/fp8_static/hunyuanv3_a20b_fp8_static_c8.yaml
```
2、源码启动
例如对`Qwen3-1.7B`完成动态`FP8`量化:
```python
from angelslim.engine import Engine
slim_engine = Engine()
# Prepare model
slim_engine.prepare_model(model_name="Qwen", model_path="Qwen/Qwen3-1.7B")
# Initialize compressor
slim_engine.prepare_compressor("PTQ", default_method="fp8_dynamic")
# Compress model
slim_engine.run()
# Save compressed model
slim_engine.save("./output")
```
详情请参考量化[快速开始文档](https://angelslim.readthedocs.io/zh-cn/latest/getting_started/quickstrat.html)。
#### 2.3 Diffusion模型量化
使用 `scripts/diffusion/run_diffusion.py` 脚本进行量化与推理:
```shell
# 在线量化并运行推理
python scripts/diffusion/run_diffusion.py \
--model-name-or-path black-forest-labs/FLUX.1-schnell \
--quant-type fp8-per-tensor \
--prompt "A cat holding a sign that says hello world" \
--height 1024 --width 1024 --steps 4 --guidance 0.0 --seed 0
```
更多量化推理方式请参考[Diffusion模型量化文档](https://angelslim.readthedocs.io/zh-cn/latest/features/diffusion/quantization.html)。
#### 2.4 Token 压缩 (多模态/VLM)
AngelSlim 提供了一套基于元数据驱动的通用视觉 Token 剪枝与合并框架。你可以通过以下 Smoke Test 快速验证压缩策略(如 **VisionZip**):
```shell
python tools/test_universal_pruning.py \
--model_path "Qwen/Qwen2.5-VL-3B-Instruct" \
--config "configs/qwen2_5_vl/pruning/visionzip_r0.9.yaml"
```
关于如何新增自定义剪枝策略及算法实现细节,请参考 [Token 压缩说明文档](https://angelslim.readthedocs.io/zh-cn/latest/features/token_compressor/index.html)。
### 3、部署与测试
#### 3.1 离线推理
通过`transformers`加载量化模型进行离线推理。
执行脚本细节
```shell
python scripts/deploy/offline.py $MODEL_PATH "Hello, my name is"
```
其中 `MODEL_PATH` 为量化产出模型路径。
#### 3.2 服务部署
支持通过 **vLLM**、**SGLang**推理框架部署 OpenAI 兼容的 API 服务。
执行脚本细节
- **vLLM**
[vLLM](https://github.com/vllm-project/vllm) 服务启动脚本,建议版本`vllm>=0.8.5.post1`,部署MOE INT8量化模型需要`vllm>=0.9.2`。
```shell
bash scripts/deploy/run_vllm.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -p 1 -g 0.8 --max-model-len 4096
```
其中`-d`为可见设备,`-t`为张量并行度,`-p`为流水线并行度,`-g`为显存使用率。
- **SGLang**
[SGLang](https://github.com/sgl-project/sglang) 服务启动脚本,建议版本 `sglang>=0.4.6.post1`:
```shell
bash scripts/deploy/run_sglang.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -g 0.8
```
#### 3.3 服务调用
通过 [OpenAI 格式](https://platform.openai.com/docs/api-reference/introduction) 接口发起请求。
执行脚本细节
```shell
bash scripts/deploy/openai.sh -m $MODEL_PATH -p "Hello, my name is" --port 8080 --max-tokens 4096 --temperature 0.7 --top-p 0.8 --top-k 20 --repetition-penalty 1.05 --system-prompt "You are a helpful assistant."
```
其中`-p`为输入prompt
#### 3.4 效果验证
使用 [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness) 评估量化模型精度,建议版本`lm-eval>=0.4.8`
执行脚本细节
```shell
bash scripts/deploy/lm_eval.sh -d 0,1 -t 2 -g 0.8 -r $RESULT_PATH -b "auto" --tasks ceval-valid,mmlu,gsm8k,humaneval -n 0 $MODEL_PATH
```
其中`RESULT_PATH`为测试结果保存目录,`-b`为batch size大小,`--tasks`为评测任务,`-n`为few-shot数量
详细操作指南请参阅[部署文档](https://angelslim.readthedocs.io/zh-cn/latest/deployment/deploy.html)。
## 📈Benchmark
### 1、投机采样
我们使用vLLM在代码、数学、指令跟随、文本生成、多模态理解等任务上评测了AngelSlim所训练的Eagle3模型,设置num_speculative_tokens=2 or 4 下我们所训的模型加速和接收长度表现如下所示,接收长度在1.8-3.5,最高加速可达1.4-1.9倍。
#### 1.1 Qwen3系列模型
我们使用vLLM(v0.11.2)评测了Qwen3系列Eagle3模型在**MT-bench**、 **HumanEval**、 **GSM8K**、**Alpaca**等数据集上的接收长度和吞吐。全部结果都是在单张GPU上用以下设置测得:**tp=1, ep=1, num_speculative_tokens=2, batch_size=1, output_len=1024**。
Model
Method
GSM8K
Alpaca
HumanEval
MT-bench
Mean
throughput (tokens/s) accept length
throughput (tokens/s) accept length
throughput (tokens/s) accept length
throughput (tokens/s) accept length
throughput (tokens/s) accept length
Qwen3-1.7B
Vanilla
376.42 1
378.86 1
378.38 1
390.53 1
381.05 1
Eagle3
616.9 2.13
653.29 2.19
680.1 2.2
621.44 2.17
642.93 2.17
Qwen3-4B
Vanilla
229.05 1
235.29 1
234.66 1
234.04 1
233.26 1
Eagle3
389.35 2.07
395.97 2.1
377.84 2.08
384.6 2.07
386.94 2.08
Qwen3-8B
Vanilla
149.63 1
149.93 1
153.85 1
153.81 1
151.81 1
Eagle3
257.32 2
266.69 2.02
244.89 1.97
258.2 1.97
257.52 1.99
Qwen3-14B
Vanilla
92.97 1
92.66 1
92.94 1
94.46 1
93.26 1
Eagle3
153.72 1.87
140.46 1.78
144.68 1.76
142.45 1.74
145.33 1.79
Qwen3-32B
Vanilla
43.49 1
43.38 1
43.19 1
43.3 1
43.32 1
Eagle3
80.43 2.01
72.49 1.9
71.57 1.86
74.1 1.86
74.1 1.91
Qwen3-30B-A3B
Vanilla
311.84 1
320.43 1
325.77 1
325.42 1
320.87 1
Eagle3
453.97 2.1
432.45 2.04
428.81 2.02
437.06 2.01
438.07 2.04
#### 1.2 多模态理解模型
##### 1.2.1 Qwen3-VL系列模型
我们使用(v0.12.0)评测了Qwen3-VL系列Eagle3模型在语言理解任务和多模态理解任务上的接收长度和吞吐。全部结果都是在单张GPU上用以下设置测得:**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**。
Model
Method
GSM8K
Alpaca
HumanEval
MT-bench
MATH-500
MMMU
MMStar
Mean
throughput (tokens/s)
accept length
throughput (tokens/s)
accept length
throughput (tokens/s)
accept length
throughput (tokens/s)
accept length
throughput (tokens/s)
accept length
throughput (tokens/s)
accept length
throughput (tokens/s)
accept length
throughput (tokens/s)
accept length
Qwen3-VL-2B-Instruct
Vanilla
348.55
1
350.9
1
346.07
1
346.31
1
82.96
1
83.27
1
81.63
1
234.24
1
Eagle3
511.52
2.11
560.55
2.26
826.01
3.39
555.22
2.29
163.09
2.57
154.18
2.55
139.73
2.31
415.76
2.5
Qwen3-VL-4B-Instruct
Vanilla
212.87
1
213.24
1
211.69
1
212.1
1
67.96
1
65.88
1
67.75
1
150.21
1
Eagle3
415.29
2.57
372.89
2.26
459.37
2.82
382.33
2.34
141.87
2.72
104.44
2.05
107.07
2.1
283.32
2.41
Qwen3-VL-30B-A3B-Instruct
Vanilla
179.94
1
184.6
1
168.68
1
180.57
1
31.08
1
31.51
1
30.93
1
115.33
1
Eagle3
281.93
2.82
241.42
2.13
223.05
2.57
240.47
2.19
75.31
2.79
48.47
1.78
52.57
1.94
166.17
2.32
##### 1.2.2 HunyuanOCR模型
我们使用(v0.13.0)评测了HunyuanOCR Eagle3模型在[OmniDocBench](https://huggingface.co/datasets/opendatalab/OmniDocBench)上的接收长度和吞吐。结果是在单张GPU上用以下设置测得:**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**。
Model
Method
OmniDocBench
throughput (tokens/s)
accept length
Hunyuan-OCR
Vanilla
70.12
1
Eagle3
108.1
2.08
#### 1.3 语音模型
##### 1.3.1 Qwen2-Audio模型
我们使用(v0.12.0)评测了Qwen2-Audio Eagle3模型在[LibriSpeech](https://www.openslr.org/12)数据集上的接收长度和吞吐。结果是在单张GPU上用以下设置测得:**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**。
Model
Method
LibriSpeech
throughput (tokens/s)
accept length
Qwen2-Audio
Vanilla
78.76
1
Eagle3
146.66
3.51
##### 1.3.2 Fun-CosyVoice3模型
我们评测了Fun-CosyVoice3 Eagle3模型在[LibriTTS](https://www.openslr.org/60/)数据集上的接收长度。结果是在单张GPU上用以下设置测得:**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**。
Model
Method
LibriTTS
throughput (tokens/s)
accept length
Fun-CosyVoice3
Vanilla
-
1
Eagle3
-
1.96
> Adapted for Transformers backend inference, only displays accept length. vLLM speedup ~1.6×, estimated from baseline LLM speedup.
### 2、量化
下面只展示了部分模型的效果测试情况,完整Benchmark可以参考[Benchmark文档](https://angelslim.readthedocs.io/zh-cn/latest/performance/quantization/benchmarks.html)
#### 2.1 Hunyuan系列模型
Hunyuan-Instruct的`BF16`、`FP8`、`INT4-GPTQ`、`INT4-AWQ`在`OlympiadBench`、`AIME 2024`、`DROP`、`GPQA-Diamond`上的评测结果如下:
Model Quantization OlympiadBench AIME 2024 DROP GPQA-Diamond
Hunyuan-A13B-Instruct
BF16 82.7 87.30 91.1 71.2
FP8-Static 83.0 86.7 91.1 -
Int4-GPTQ 82.7 86.7 91.1 -
Int4-AWQ 82.6 85.6 91.0 -
Hunyuan-7B-Instruct
BF16 76.5 81.1 85.9 60.1
FP8-Static 76.6 80.9 86.0 60.1
Int4-GPTQ 76.2 81.0 85.7 60.0
Int4-AWQ 76.4 80.9 85.9 60.1
Hunyuan-4B-Instruct
BF16 73.1 78.3 78.2 61.1
FP8-Static 73.1 76.6 78.3 60.2
Int4-GPTQ 72.9 - 78.1 58.1
Int4-AWQ 72.8 - 78.2 -
Hunyuan-1.8B-Instruct
BF16 63.4 56.7 76.7 47.2
FP8-Static 62.5 55.2 75.1 47.7
Int4-GPTQ 60.9 - 73.0 44.4
Int4-AWQ 61.7 - 71.7 43.6
Hunyuan-0.5B-Instruct
BF16 29.6 17.2 52.8 23.3
FP8-Static 29.6 17.2 51.6 22.5
Int4-GPTQ 26.8 - 50.9 23.3
Int4-AWQ 26.3 - 48.9 23.3
#### 2.2 Qwen3系列模型
Qwen3系列模型的`BF16`、`FP8-Static`、`FP8-Dynamic`、`INT8-Dynamic`、`INT4-GPTQ`、`INT4-AWQ`在`CEVAL`、`MMLU`、`GSM8K`、`HUMANEVAL`上的评测结果如下:
Model Quantization CEVAL MMLU GSM8K HUMANEVAL
Qwen3-0.6B BF16 45.84 47.21 42.99 19.51
FP8-Static 45.99 46.87 38.06 18.90
FP8-Dynamic 45.99 46.93 38.29 20.73
INT8-Dynamic 45.17 46.95 41.17 21.34
Qwen3-8B BF16 79.27 74.78 87.79 63.41
FP8-Static 78.23 74.79 86.96 62.20
FP8-Dynamic 78.45 74.75 87.64 62.80
INT8-Dynamic 78.01 74.84 86.96 67.07
INT4-GPTQ 77.19 73.26 86.43 62.20
INT4-AWQ 76.15 73.59 86.96 63.41
Qwen3-14B BF16 83.06 78.90 88.40 55.49
FP8-Static 82.62 78.57 89.46 57.32
FP8-Dynamic 82.24 78.92 88.32 52.44
INT8-Dynamic 81.87 78.13 86.28 56.10
INT4-GPTQ 81.05 78.02 87.34 57.93
INT4-AWQ 82.02 77.68 84.23 61.59
Qwen3-32B BF16 86.55 82.00 74.53 37.80
FP8-Static 86.92 81.78 70.20 39.63
FP8-Dynamic 86.55 81.89 70.43 38.41
INT4-GPTQ 86.18 81.01 - 43.29
INT4-AWQ 86.18 81.54 - 36.59
Qwen3-30B-A3B BF16 83.66 79.36 89.99 31.71
FP8-Static 83.95 79.47 89.01 31.10
FP8-Dynamic 84.10 79.40 89.16 32.93
INT8-Dynamic 83.36 79.48 89.16 34.15
Qwen3-235B-A22B BF16 89.60 86.28 85.29 27.44
FP8-Static 89.67 86.19 86.96 27.44
FP8-Dynamic 89.67 86.18 85.22 28.05
INT8-Dynamic 88.93 86.20 86.20 23.78
#### 2.3 DeepSeek系列模型
DeepSeek-R1-0528模型的`FP8-Block-Wise`、`W4A8-FP8`在`GPQA Diamond`、`AIME 2024`、`SimpleQA`、`LiveCodeBench`上的评测结果如下:
Model Quantization GPQA Diamond AIME 2024 SimpleQA LiveCodeBench
DeepSeek-R1-0528 FP8-Block-Wise 78.28 88.67 27.8 77.1
W4A8-FP8 77.37 88.67 26.83 78.86
备注
> - 以上评测结果使用TRT-LLM框架部署测试5次求平均
> - 评测时使用的超参如下:
> ```json
>{
> "top_k": 20,
> "top_p": 0.6,
> "temperature": 0.7,
> "output_seq_len": 32768,
> "max_input_seq_len": 16384
>}
>```
#### 2.4 Qwen-VL 系列模型
**Qwen3-VL Benchmark**
Qwen3VL系列模型的`BF16`、`FP8-Static`、`FP8-Dynamic`在`MMMU_VAL`、`DocVQA_VAL`、`ChartQA_TEST`上的评测结果如下:
Model Quantization MMMU_VAL DocVQA_VAL ChartQA_TEST
Qwen3-VL-32B-Instruct BF16 60.11 96.08 94.64
FP8-Static 61.22 96.00 94.64
FP8-Dynamic 60.78 96.19 94.72
Qwen3-VL-30B-A3B-Instruct BF16 50.44 95.28 95.36
FP8-Dynamic 50.67 95.25 95.20
Qwen2.5VL Benchmark
Qwen2.5VL系列模型的`BF16`、`FP8-Static`、`FP8-Dynamic`、`INT4-GPTQ`、`INT4-AWQ`在`MMMU_VAL`、`DocVQA_VAL`、`ChartQA_TEST`上的评测结果如下:
Model Quantization MMMU_VAL MMLDocVQA_VALU ChartQA_TEST
Qwen2.5VL-3B BF16 47.11 78.57 80.32
FP8-Static 47.33 79.34 79.68
FP8-Dynamic 45.99 46.93 38.29
INT4-GPTQ 46.56 77.20 78.96
INT4-AWQ 45.78 - 79.60
Qwen2.5VL-7B BF16 45.44 89.71 84.64
FP8-Static 47.00 89.83 85.92
FP8-Dynamic 47.22 89.80 88.64
INT4-GPTQ 46.67 90.45 -
INT4-AWQ 45.67 89.28 -
Qwen2.5VL-32B BF16 57.00 90.03 -
FP8-Static 57.00 89.88 -
FP8-Dynamic 56.44 89.88 -
INT4-GPTQ 55.22 89.80 -
INT4-AWQ 55.22 90.30 -
Qwen2.5VL-72B BF16 58.78 94.39 85.60
FP8-Static 57.89 94.41 85.84
FP8-Dynamic 58.67 94.38 85.60
INT4-GPTQ 57.56 94.46 86.48
INT4-AWQ 58.78 94.19 87.28
#### 2.5 Qwen-Omni 系列模型
**Qwen3-Omni Text to Text Benchmark**
Qwen3-Omni系列模型的`BF16`、`FP8-Static`、`FP8-Dynamic`在`aime25`、`gpqa_diamond`、`mmlu_redux`上的评测结果如下:
Model Quantization aime25 gpqa_diamond mmlu_redux
Qwen3-Omni-30B-A3B-Instruct BF16 73.32 56.77 88.09
FP8-Static 71.33 56.57 87.91
FP8-Dynamic 73.33 55.15 88.07
备注
> - 以上评测结果使用vllm框架部署测试5次求平均(vllm只支持thinker部分)
> - 评测时使用的超参如下:
> ```json
>{
> "top_p": 0.95,
> "temperature": 0.6,
> "do_sample": true,
> "max-model-len 65536": 65536
>}
>```
#### 2.6 其他模型
其他模型比如GLM、Qwen2.5、Seed-OSS等模型利用`FP8-Static`、`FP8-Dynamic`、`INT4-GPTQ`、`INT4-AWQ`量化等策略在`CEVAL`、`MMLU`、`GSM8K`上进行了评测。
Benchmark实验细节
Model Quantization CEVAL MMLU GSM8K
Qwen2.5-1.5B-Instruct BF16 67.01 60.05 54.28
FP8-Static 66.27 60.23 -
FP8-Dynamic 66.79 60.08 51.71
Qwen2.5-7B-Instruct BF16 81.20 74.55 79.98
FP8-Static 81.13 74.03 79.30
FP8-Dynamic 80.31 74.07 79.00
INT4-GPTQ 79.05 73.05 74.75
INT4-AWQ 79.35 73.22 79.38
Qwen2.5-32B-Instruct BF16 87.30 83.21 81.73
FP8-Static 87.59 83.08 81.58
FP8-Dynamic 87.30 83.04 81.58
INT4-GPTQ 86.70 82.45 82.03
INT4-AWQ 87.00 82.64 -
DeepSeek-R1-Distill-Qwen-7B BF16 53.49 53.80 75.74
FP8-Static 53.57 54.17 76.19
FP8-Dynamic 52.97 54.13 74.15
INT4-GPTQ 51.86 52.44 75.89
INT4-AWQ 53.49 53.70 -
DeepSeek-R1-Distill-Qwen-14B BF16 77.71 74.28 85.67
FP8-Static 77.56 74.66 86.73
FP8-Dynamic 76.82 74.63 87.11
INT4-GPTQ 74.29 72.37 84.61
INT4-AWQ 74.81 73.00 86.05
DeepSeek-R1-Distill-Qwen-32B BF16 84.18 80.89 87.41
FP8-Static 83.43 80.90 87.57
FP8-Dynamic 83.73 81.10 86.43
INT4-GPTQ 84.10 79.80 86.73
INT4-AWQ 82.84 80.15 87.19
### 3. Token 压缩 (多模态/VLM)
我们在 **Qwen2.5-VL-3B-Instruct** 模型上评估了多种视觉 Token 压缩策略(剪枝与合并)。你可以使用以下指令复现评测结果:
```shell
python tools/run_pruning_eval.py \
--model_path "Qwen/Qwen2.5-VL-3B-Instruct" \
--configs "configs/qwen2_5_vl/pruning/visionzip_r0.9.yaml" \
--tasks "textvqa" \
--output_dir "./results/visionzip_test"
```
Token 压缩详细评测结果 (Qwen2.5-VL-3B-Instruct)
方法
AI2D
ChartQA
DocVQA
MMBCN
MMB
MME
MMStar
OCRBench
POPE
SQA
VQAText
平均值
Baseline
79.11
83.56
92.48
73.28
77.32
1517
56.05
80.10
87.41
80.81
78.79
100.0%
保留 25% Tokens (75% 压缩比)
FastV 72.70 70.04 75.98 63.40 66.92 1437 47.39 36.60 86.42 79.33 73.51 86.02%
VisionZip 74.19 71.32 70.11 67.35 71.22 1452 49.37 42.50 85.51 81.36 68.12 87.34%
HiPrune 73.83 72.76 72.10 67.27 72.34 1449 48.93 41.30 85.86 80.91 69.27 87.67%
VisionSelector 75.19 73.72 90.24 68.81 72.59 1521 49.97 61.80 85.36 80.37 76.86 93.62%
DivPrune 73.06 62.96 78.46 67.10 71.82 1459 48.38 51.40 86.81 80.22 68.91 88.15%
DART 71.08 65.20 79.72 65.38 71.05 1428 48.78 41.80 80.97 80.91 68.25 86.17%
VisPruner 74.29 68.20 72.52 67.35 70.88 1458 49.74 44.80 86.59 81.46 69.62 87.87%
SCOPE 75.84 74.00 82.40 68.81 72.94 1471 50.35 56.00 86.62 80.96 74.04 91.98%
IDPruner 75.94 75.84 90.00 69.42 73.80 1505 49.49 64.90 86.26 80.42 76.90 94.42%
保留 10% Tokens (90% 压缩比)
FastV 65.87 29.72 36.89 48.37 51.98 1257 37.28 13.90 79.50 77.05 57.75 65.30%
VisionZip 67.65 51.60 37.88 59.62 63.06 1338 42.82 21.40 81.14 80.47 51.56 72.75%
HiPrune 67.75 53.20 41.15 59.45 63.14 1326 41.08 20.30 80.90 80.96 53.31 73.00%
VisionSelector 70.50 65.92 79.94 59.97 64.69 1374 42.86 45.20 82.66 80.61 71.57 84.42%
DivPrune 67.71 43.12 58.03 61.25 65.12 1389 40.43 27.90 82.24 79.18 56.87 75.50%
DART 67.49 47.56 60.23 57.99 63.83 1299 42.18 23.40 74.20 78.63 58.02 74.09%
VisPruner 67.75 47.92 48.65 59.28 63.32 1305 41.51 22.50 78.74 79.77 54.95 73.19%
SCOPE 69.75 56.24 55.01 64.26 67.18 1390 44.35 30.80 83.34 80.47 62.58 79.37%
IDPruner 71.79 63.32 79.38 63.57 68.21 1438 44.05 45.50 84.51 80.57 70.02 85.71%
## 📝许可协议
本项目的代码依照 [License for AngelSlim](LICENSE) 协议开源。
## 🔗引用
```
@article{angelslim2026,
title={AngelSlim: A more accessible, comprehensive, and efficient toolkit for large model compression},
author={Hunyuan AI Infra Team},
journal={arXiv preprint arXiv:2602.21233},
year={2026}
}
```
## 💬技术交流
- AngelSlim是由腾讯混元AI Infra团队研发,新功能在持续迭代更新中,有问题或建议欢迎通过[GitHub Issues](https://github.com/Tencent/AngelSlim/issues)给我们提issue,或者加入[微信技术交流群](./docs/source/assets/angel_slim_wechat.png)。
- ⭐ 欢迎给这个仓库点Star来关注后续我们的更新。并且如果有兴趣加入团队进行实习或正式工作,可投递简历至邮箱:lucayu@tencent.com。