175 10 months ago

Models

View all →

Readme

Tifa-Deepsex-14b-CoT-Chat-Q4

Hugging Face仓库 激进版本 F16 Q8量化

本模型基于Deepseek-R1-14B进行深度优化,借助Tifa_220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链(CoT)能力。特别适合需要长程上下文关联的创作场景。

Q4量化版本损失较大,有能力建议优先使用Q8量化模型

仅转存模型,暂无修改

  • 采用标准数据训练,使用成熟RL策略,附加防重复强化学习,适合正常使用,输出文本质量正常,少数情况下思维发散。

  • 增量训练0.4T小说内容

  • 100K由TifaMax生成的SFT数据,10K由DeepseekR1生成的SFT数据,2K高质量人工数据

  • 30K由TifaMax生成的DPO强化学习数据,用于防止重复,增强上下文关联,提升政治安全性