Copyright 2014-2025 觀經濟 版權所有 京ICP備20151973號-1
Klear 語言大模型團隊完成,核心作者蘇振鵬,潘雷宇,呂民軒,胡文憑,張富崢,周國睿等。快手 Klear 語言大模型團隊聚焦在基礎語言大模型研發、Agent RL 等前沿技術創新等方向,積累務實的探索 AGI 的能力邊界,并不斷推進 AI 領域新技術和新產品的發展。此前,該團隊已開源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在數學和代碼的基準測試上達到了同參數級別模型的 SOTA 效果。
近年來,隨著 OpenAI O1、Deepseek R1、KIMI K2 等大模型不斷展示出復雜推理與思維鏈能力,強化學習已成為推動語言模型智能躍升的關鍵技術環節。相比傳統的監督微調,RL 通過獎勵信號直接優化模型行為,使模型能夠在訓練中自我探索、自我修正。
然而,這一階段的訓練并非穩態過程。業界在大規模 RLVR 實踐中普遍發現,模型熵的失衡,即探索與利用的不協調,是導致模型訓練不穩定、性能難以提升的核心原因。針對這一長期瓶頸,快手 Klear 團隊提出了一種新的強化學習算法 CE-GPPO(Coordinating Entropy via Gradient-Preserving Policy Optimization),該方法以「熵」為核心視角,重新審視 RL 中梯度裁剪機制的本質影響,并對應地提出了梯度保留策略,在保證訓練穩定的前提下,納入裁剪區間外的梯度使模型能夠在訓練過程中達到探索與收斂的平衡。
