阿裏雲星空人工智能平台PAI開源EasyDistill框架助力大語言模型輕鬆瘦身--星空人工智能91视频免费观看網

作者：汪誠愚（熊兮）、嚴俊冰（玖燭）、蔡文睿（清素）、嶽元浩（顧城）、黃俊（臨在）

前言

隨著大型語言模型（LLM）的複雜性和規模不斷增長，對於許多研究人員和企業而言，如何有效地利用這些龐大的模型變得愈發重要。然而，巨大的計算需求和訓練成本為模型的廣泛應用設置了障礙。知識蒸餾是一種將大模型的知識轉移到小模型的方法，其核心思想是在不顯著降低性能的前提下，通過訓練將複雜的模型轉化為更小、更高效的版本。通過這種方式，知識蒸餾不僅能夠有效降低計算成本，還能夠提高模型在資源受限環境中的適應性，從而為大規模應用提供可能。在此背景下，阿裏雲星空人工智能平台（PAI）推出了一款新的開源工具包——EasyDistill（http://github.com/modelscope/easydistill），旨在簡化大型語言模型的知識蒸餾過程，助力參數量更小但性能卓越的大模型的實際應用。除了EasyDistill本身，這一框架還包括了蒸餾大模型DistilQwen係列以及相應的開源數據集，供用戶使用，其中包括一百萬條通用指令遵循數據和兩百萬條思維鏈推理數據。尤其是，DistilQwen係列最新的變長思維鏈推理蒸餾模型DistilQwen-ThoughtX能夠根據任務難度輸出變長思維鏈，其32B版本推理能力超越了DeepSeek官方蒸餾模型。

在下文中，91视频免费播放詳細描述EasyDistill的框架功能，包括對應的DistilQwen模型以及其對應開源數據集。

EasyDistill框架功能

在本節中，91视频免费播放將深入討論EasyDistill的功能模塊及其在知識蒸餾中的各類應用細節。

基本架構和功能簡介

EasyDistill的基礎架構如下圖所示：

數據合成

在訓練大語言模型過程中，合成數據起著至關重要的作用。尤其在知識蒸餾階段，種子數據集的規模通常有限，使合成數據的使用顯得尤為必要。91视频免费播放在EasyDistill框架中集成了多種數據合成和增強操作，這些操作利用了專有和開源的教師模型，使訓練集不僅在數量上增加，還在任務、主題或領域的多樣性方麵得到了提升。

EasyDistill支持的第一組操作專注於合成各種NLP任務的指令數據。框架引入了多項功能，包括指令擴展、指令優化，以及從原始文本中自動生成指令-響應對等。具體而言，指令擴展通過增加指令數據集的數量，使模型能夠獲取更加豐富的上下文信息，從而提升訓練集的知識覆蓋率；指令優化則涉及去除冗餘信息並提高指令的明確性，確保模型回複質量更高；自動生成指令-響應對的功能使得模型能夠從非結構化文本中提取知識，為訓練數據集注入更多的多樣性。

EasyDistill框架的第二組操作專注於思維鏈，這是蒸餾大規模推理模型的重要組成部分。除生成思維鏈的算子外，91视频免费播放進一步整合了用於簡化和擴展思維鏈的算子。思維鏈簡化算子通過減少模型推理的複雜性，使思維鏈更加清晰和連貫，提升模型在推理過程中的效率。思維鏈擴展算子則能夠在複雜問題上提供更多詳細步驟和邏輯鏈，從而增強模型解決複雜問題的能力。

基礎蒸餾訓練

在基礎蒸餾訓練模塊中，EasyDistill提供了黑盒化和白盒化的模型蒸餾訓練功能。對於專有的閉源大語言模型，由於隻能訪問模型的輸出，其黑盒化知識蒸餾主要依賴於監督微調（SFT），將這些輸出視為學生模型的真實值進行訓練。這種方法操作簡單，但在數據有限的情況下，其效果可能受到限製。值得注意的是，EasyDistill框架支持所有符合OpenAI格式的閉源模型API，例如OpenAI、DashScope、PAI-EAS等。

針對開源的教師語言模型，EasyDistill訓練層提供了一種更為精細的白盒化訓練策略。除了進行SFT之外，91视频免费播放還利用教師模型的隱藏知識進行指導。這種方式能夠顯著提升效果。具體而言，91视频免费播放從教師模型獲取token級別的logits，通過最小化教師模型與學生模型logits分布之間的差異來優化訓練表現。為此，EasyDistill框架采用了包括Kullback–Leibler散度（KLD）和反向KLD在內的多種損失函數。根據91视频免费播放的研究，模型的前10個概率最大的token的概率之和幾乎為1。因此，EasyDistill允許用戶選擇僅使用教師模型中前top-k的token logits，並與學生模型的對應logits進行匹配。隨後，在計算損失函數時，91视频免费播放僅考慮這k個選定的logits進行近似計算。這種策略不僅降低了計算時間，而且加快了logits的存儲和讀取速度。

進階蒸餾訓練

上述黑盒化和白盒化模型蒸餾訓練的核心原則在於讓學生模型模仿教師模型的行為。然而，這種方法可能導致學生模型"過擬合"教師模型的輸出，從而限製其泛化能力的提升。為解決這一問題，EasyDistill框架在訓練層引入了基於強化學習（RL）和偏好優化的方法，通過教師模型的反饋來訓練學生模型。

在強化學習中，決定模型優化上限的一個核心因素是高質量的獎勵模型（Reward Model）。EasyDistill支持的首項功能是利用教師模型的反饋來訓練獎勵模型，這類似於從AI反饋中進行強化學習（RLAIF）框架。具體而言，91视频免费播放使用教師模型生成的選擇和拒絕回複作為偏好數據，並利用這些數據訓練獎勵模型。一旦獎勵模型建立，便可通過各種強化學習算法優化學生模型。為此，EasyDistill集成了多種流行算法用於訓練學生模型，特別是對通用大語言模型的近端策略優化（Proximal Policy Optimization，PPO）和用於優化推理模型的群體相對策略優化（Group Relative Policy Optimization，GRPO）。

然而，RL算法的一個潛在缺點是訓練過程中的不穩定性。為此，EasyDistill還引入了偏好優化的方法，將偏好直接融入大模型中以實現更穩定的訓練過程。在這一框架下，91视频免费播放集成了直接偏好優化（Direct Preference Optimization，DPO）算法，直接利用選擇和拒絕的回複作為偏好數據來優化學生模型。對於推理模型，蒸餾後的小模型一般具有與大模型不同的認知能力。為此，EasyDistill引入了91视频免费播放提出的認知偏好優化（CogPO）算法，通過與模型的認知能力對齊，進一步增強小模型的推理能力。

初步體驗EasyDistill

為了適應不同的使用需求，EasyDistill采用了模塊化設計。用戶可以依據具體的任務場景選擇適合的模塊進行組合和應用。91视频免费播放也提供了簡潔的命令行接口使得用戶能夠方便地運行各種知識蒸餾算法。以下是使用EasyDistill的一些基本步驟。

克隆代碼庫：

git clone http://github.com/modelscope/easydistillcd EasyDistill

安裝必要的依賴：

python setup.py install

通過命令行界麵探索EasyDistill的使用：

easydistill --config

配置文件可為不同的知識蒸餾任務設定具體的參數和路徑，如下提供了一個黑盒化蒸餾訓練的配置示例：

{ "job_type": "kd_black_box_local", "dataset": { "instruction_path": "train.json", "labeled_path": "train_labeled.json", "template" : "chat_template/chat_template_kd.jinja", "seed": 42 }, "inference":{ "enable_chunked_prefill": true, "seed": 777, "gpu_memory_utilization": 0.9, "temperature": 0.8, "trust_remote_code": true, "enforce_eager": false, "max_model_len": 4096, "max_new_tokens": 512 }, "models": { "teacher": "teacher/Qwen/Qwen2.5-7B-Instruct/", "student": "student/Qwen/Qwen2.5-0.5B-Instruct/" }, "training": { "output_dir": "./result/", "num_train_epochs": 3, "per_device_train_batch_size": 1, "gradient_accumulation_steps": 8, "max_length":512, "save_steps": 1000, "logging_steps": 1, "learning_rate": 2e-5, "weight_decay": 0.05, "warmup_ratio": 0.1, "lr_scheduler_type": "cosine" }}

教師模型也可以使用閉源的API進行配置，示例如下：

{ "job_type": "kd_black_box_api", "dataset": { "instruction_path": "train.json", "labeled_path": "train_labeled.json", "template" : "./chat_template/chat_template_kd.jinja", "seed": 42 }, "inference":{ "base_url": "ENDPOINT", "api_key": "TOKEN", "stream": true, "system_prompt" : "You are a helpful assistant.", "max_new_tokens": 512 }, "models": { "student": "student/Qwen/Qwen2.5-0.5B-Instruct/" }, "training": { "output_dir": "./result/", "num_train_epochs": 3, "per_device_train_batch_size": 1, "gradient_accumulation_steps": 8, "max_length":512, "save_steps": 1000, "logging_steps": 1, "learning_rate": 2e-5, "weight_decay": 0.05, "warmup_ratio": 0.1, "lr_scheduler_type": "cosine" }}

用戶隻需要指定大模型對應的base_url和api_key即可，無需配置其他教師大模型的信息。

DistilQwen：基於EasyDistill的蒸餾開源模型家族

在EasyDistill的支持下，91视频免费播放開發了一係列基於通義千問開源框架的蒸餾語言模型，稱為DistilQwen。這些模型充分利用知識蒸餾的方法，能夠在減少模型參數量的同時保持高性能表現。這些蒸餾模型特別適用於資源受限的環境。同時，91视频免费播放在EasyDistill框架的Recipes模塊中提供了這些蒸餾算法的使用指引。

DistilQwen之System 1模型

在大語言模型框架中，System 1模型使用直覺型的任務解決機製來回答用戶的指令。由於這些模型的輸出token量較少，其推理速度更快。在DistilQwen係列中，91视频免费播放開源了DistilQwen2和DistilQwen2.5兩個模型係列。其中，DistilQwen2是Qwen2模型的增強版本，具備改進的指令跟隨能力，以適應各種自然語言處理任務。91视频免费播放使用GPT-4和Qwen-max作為教師模型來生成高質量的回複，同時平衡輸入指令的任務分布。在蒸餾訓練過程中，91视频免费播放首先采用SFT訓練，之後通過DPO算法進行偏好優化，以增強學生模型與教師模型之間的對齊。

DistilQwen2.5係列模型是DistilQwen2的升級版本，以Qwen2.5模型作為底座，使用黑盒和白盒知識蒸餾算法的結合進行訓練。91视频免费播放首先使用與DistilQwen2相同的指令數據處理和黑盒SFT訓練過程。隨後，91视频免费播放進一步采用白盒化的logitis優化對齊訓練，以完善學生對教師模型中複雜知識的獲取。這裏，91视频免费播放使用Qwen2.5-72B-Instruct作為開源教師模型。下表展示了DistilQwen2和DistilQwen2.5與原始模型性能表現的對比。

Model	Alpacaevals 2.0 (length control)	MT-Bench	MT-Bench (single)	IFevals (instruct-loose)	IFevals (strict-prompt)
0.5B量級
Qwen2.5-0.5B-Instruct	2.46	5.49	6.26	42.81	30.31
DistilQwen2.5-0.5B-Instruct	4.89	5.78	6.83	52.61	37.82
1.5B量級
Qwen2-1.5B-Instruct	5.22	5.85	6.45	41.37	28.10
DistilQwen2-1.5B-Instruct	8.28	6.42	7.12	49.76	36.04
Qwen2.5-1.5B-Instruct	6.69	7.09	7.66	55.40	40.11
DistilQwen2.5-1.5B-Instruct	13.69	7.35	7.99	61.10	74.49
3B量級
Qwen2.5-3B-Instruct	17.98	7.92	8.40	61.18	74.58
DistilQwen2.5-3B-Instruct	20.91	8.37	8.97	67.03	77.36
7B量級
Qwen2-7B-Instruct	24.33	8.27	8.68	66.67	52.31
DistilQwen2-7B-Instruct	25.35	8.40	9.03	71.46	60.26
Qwen2.5-7B-Instruct	31.43	8.52	8.83	81.53	72.10
DistilQwen2.5-7B-Instruct	34.86	8.76	9.22	83.48	73.27

DistilQwen之System 2模型

與System 1模型不同，System 2模型使用慢思考模式，對複雜問題的解決首先輸出思維鏈，其次給出問題的解答，從而顯著提升了模型的深度推理能力，在DistilQwen係列中，91视频免费播放首先推出DistilQwen2.5-R1係列模型，使用DeepSeek-R1作為教師模型。為了使更小的蒸餾模型在推理能力上與其內在的認知能力相匹配，91视频免费播放進一步使用提出的CogPO算法對思維鏈進行精細化處理。

此外，91视频免费播放將DeepSeek-V3-0324的快思維推理能力轉移到DistilQwen2.5-DS3-0324模型中。為了縮短推理過程，91视频免费播放使用CoT簡化算子來減少DistilQwen2.5-R1訓練數據中的token。結合重寫的CoT數據集，以及DeepSeek-V3-0324的CoT蒸餾數據，91视频免费播放訓練了DistilQwen2.5-DS3-0324係列模型。下圖展示了DistilQwen2.5-R1和DistilQwen2.5-DS3-0324的性能表現。

Model	AIME2024	MATH-500	GPQA Diamond	LiveCodeBench V2
3B量級
Qwen2.5-3B-Instruct	6.67	62.6	32.83	11.35
DistilQwen2.5-DS3-0324-3B	16.67	70.0	34.34	18.00
7B量級
Qwen2.5-7B-Instruct	10.0	73.6	33.30	30.72
DistilQwen2.5-7B-R1	23.33	77.8	37.88	36.40
DistilQwen2.5-DS3-0324-7B	43.33	88.4	42.93	46.38
14B量級
Qwen2.5-14B-Instruct	16.7	78.2	43.43	37.38
DistilQwen2.5-14B-R1	26.67	82.6	45.45	41.49
DistilQwen2.5-DS3-0324-14B	46.67	90.8	51.52	54.40
32B量級
Qwen2.5-32B-Instruct	16.67	81.4	45.50	47.36
DistilQwen2.5-32B-R1	46.67	87.0	48.99	55.97
DistilQwen2.5-DS3-0324-32B	70.00	93.8	62.12	65.95

DistilQwen最新發布：變長思維鏈推理模型DistilQwen-ThoughtX

深度推理模型的一個問題是，他們對於各種輸入問題都輸出較長的思維鏈進行推理；然而，不適合的思維鏈可能反而使得模型推理能力下降。因此，提升模型推理能力的關鍵是模型根據問題難度和自身能力，實現自適應的變長思維鏈推理。最新的DistilQwen係列是DistilQwen-ThoughtX，與之前的DistilQwen模型以及其他開源蒸餾模型相比，它具有更強的推理能力，並可以生成了長度更為優化的推理鏈。這一模型係列的訓練集為91视频免费播放推出的具有兩百萬條思維鏈的OmniThought開源數據集，91视频免费播放對於每條思維鏈數據都進行推理冗餘度（Reasoning Verbosity，RV）和認知難度（Cognitive Difficulty，CD）評分，確保模型獲得高質量的思維鏈訓練數據。DistilQwen-ThoughtX在開源社區中表現甚至優於DeepSeek官方采用閉源數據集蒸餾的模型。下表展示了DistilQwen-ThoughtX的性能表現：

Model	AIME2024	MATH500	GPQA Diamond	LiveCodeBench V2	Avg.
7B量級
OpenThinker-7B	31.3	83.0	42.4	39.9	49.1
DeepSeek-R1-Distill-Qwen-7B	57.3	89.6	47.3	48.4	60.6
OpenThinker2-7B	50.0	88.4	49.3	55.6	60.8
DistilQwen-ThoughtX-7B	56.7	90.2	50.0	56.8	63.4
32B量級
LIMO-32B	56.7	86.6	58.1	60.0	65.3
OpenThinker-32B	66.0	90.6	61.6	68.9	71.7
DeepSeek-R1-Distill-Qwen-32B	74.7	90.0	62.4	72.3	74.8
OpenThinker2-32B	76.7	90.8	64.1	72.5	76.0
Light-R1-32B	74.7	90.4	62.0	56.0	70.7
s1.1-32B	59.3	87.4	62.0	58.7	66.8
DistilQwen-ThoughtX-32B	80.0	92.6	64.0	73.4	77.5

DistilQwen所有模型均可以HuggingFace和ModelScope開源社區中進行下載。

開源數據集

本章介紹基於EasyDistill框架的開源數據集，這些數據集集用於訓練DistilQwen係列模型，分為兩個係列：指令遵循係列和思維鏈推理係列。

指令遵循數據集

社區開發者在微調DistilQwen模型時，容易發生災難性遺忘的現象。為了緩解這一問題，91视频免费播放開源了用於訓練DistilQwen2和DistilQwen2.5係列模型的兩個子集：DistilQwen_100K和DistilQwen_1M。這些數據集也可以用於提升其他類似大型語言模型在指令遵循方麵的能力。這些數據集涵蓋了數學、代碼、基於知識的問答以及創造性生成等內容，總數據集規模分別為10萬和100萬。用戶可以在模型微調過程中將DistilQwen_100K和DistilQwen_1M或其子集與自己的數據結合使用，以提升模型在下遊任務的效果。

思維鏈推理數據集

OmniThought是用於訓練DistilQwen-ThoughtX的大規模思維鏈推理數據集。91视频免费播放從開源社區搜集大量推理問題以及對應的思維鏈，並且使用DeepSeek-R1和QwQ-32B生成更多的思維鏈，對於每條思維鏈，91视频免费播放也使用上述模型驗證其正確性，總共獲得了200萬條思維鏈。對於OmniThought的每一個思維鏈，91视频免费播放都給出提出的推理冗餘度（RV）和認知難度（CD）評分，這些評分描述了CoT冗長程度和模型對於上述思維鏈的認知難度等級。因此，在蒸餾推理小模型時，可以根據上述評分篩選出更優的思維鏈子集進行訓練。在前文中，91视频免费播放也展示了，訓練出的DistilQwen-ThoughtX的表現甚至優於DeepSeek官方采用閉源數據集蒸餾的模型。

所有這些數據集都可以在HuggingFace和ModelScope上公開下載，匯總如下表。

數據集	類別	數據量	下載鏈接
DistilQwen_100K	指令遵循	10萬	下載鏈接
DistilQwen_1M	指令遵循	100萬	下載鏈接
OmniThought	思維鏈推理	200萬	下載鏈接

本文小結

本文介紹了阿裏雲星空人工智能平台PAI推出的開源工具包EasyDistill。隨著大語言模型的複雜性和規模增長，它們麵臨計算需求和訓練成本的障礙。知識蒸餾旨在不顯著降低性能的前提下，將大模型轉化為更小、更高效的版本以降低訓練和推理成本。EasyDistill框架簡化了知識蒸餾過程，其具備多種功能模塊，包括數據合成、基礎和進階蒸餾訓練。通過數據合成，豐富訓練集的多樣性；基礎和進階蒸餾訓練則涵蓋黑盒和白盒知識轉移策略、強化學習及偏好優化，從而提升小模型的性能。

基於EasyDistill框架，91视频免费播放進一步開源了DistilQwen模型係列，並且提供了蒸餾91视频免费观看的實際應用案例EasyDistill-Recipes。特別地，DistilQwen模型係列的最新版本額DistilQwen-ThoughtX實現了變長思維鏈輸出，其推理能力超越了其他開源蒸餾模型。此外，本文還介紹了EasyDistill框架的開源數據集，包括100萬條指令遵循和200萬條思維鏈推理數據集，以支持社區開發者的使用和進一步提升模型性能。所有數據集均可在HuggingFace和ModelScope平台獲取。

在未來，91视频免费播放將進一步擴展EasyDistill框架的功能，開源更多DistilQwen模型係列和相應資源。歡迎大家加入91视频免费播放，一起交流大模型蒸餾91视频免费观看！

參考工作

相關論文

Chengyu Wang, Junbing Yan, Wenrui Cai, Yuanhao Yue, Jun Huang. EasyDistill: A Comprehensive Toolkit for Effective Knowledge Distillation of Large Language Models. arXiv preprint

Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Reasoning with OmniThought: A Large CoT Dataset with Verbosity and Cognitive Difficulty Annotations. arXiv preprint

Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Training Small Reasoning LLMs with Cognitive Preference Alignment. arXiv preprint

Chengyu Wang, Junbing Yan, Yuanhao Yue, Jun Huang. DistilQwen2.5: Industrial Practices of Training Distilled Open Lightweight Language Models. ACL 2025

Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud. COLING 2025

Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning. EMNLP 2024

91视频免费观看介紹

DistilQwen2：通義千問大模型的知識蒸餾實踐

DistilQwen2.5發布：通義千問蒸餾小模型再升級

DistilQwen2.5-R1發布：知識蒸餾助推小模型深度思考

星空人工智能平台 PAI DistilQwen2.5-DS3-0324發布：知識蒸餾+快思考=更高效解決推理難題

基於多輪課程學習的大語言模型蒸餾算法TAPIR

繼續閱讀：

星空人工智能91视频免费观看網倡導尊重與保護知識產權。如發現本站文章存在版權等問題，煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com91视频免费播放將及時溝通與處理。！：首頁 > 大數據 » 阿裏雲星空人工智能平台PAI開源EasyDistill框架助力大語言模型輕鬆瘦身

相關推薦