asedmammad / lhk-dpo

DPO finetuned model from FusionNet_7Bx2_MoE_14B

13B

23 Pulls Updated 7 months ago

Updated 7 months ago

7 months ago

2aef458b7638 · 9.1GB

parameters12.9B

quantizationQ5_K_M

{"stop":["[INST]","[/INST]"]}

[INST] {{ .System }} {{ .Prompt }} [/INST]

Readme

LHK_DPO_v1 is trained via Direct Preference Optimization(DPO) from https://huggingface.co/TomGrc/FusionNet_7Bx2_MoE_14B.

Original model is from https://huggingface.co/HanNayeoniee/LHK_DPO_v1