llama3.1 DPO 中文对齐版本
1,064 Pulls 1 Tag Updated 1 year ago
llama3-8b-instruct-dpo-zh-loftq, DPO beta: 0.5, lora rank 128, with LoftQ lora