1,556 Downloads Updated 10 months ago
大量使用RL策略,主要采用671B满血R1蒸馏的数据,输出发散性高,继承R1优点,也继承了R1的危害性。文学性能佳。
增量训练0.4T小说内容
40K由TifaMax生成的SFT数据,60K由DeepseekR1生成的SFT数据,2K高质量人工数据
30K由TifaMax生成的DPO强化学习数据,用于防止重复,增强上下文关联,提升政治安全性
10K由TifaMax生成PPO数据,10K由DeepseekR1生成PPO数据