wangrongsheng/sfr-iterative-dpo-llama-3-8b-r/system

wangrongsheng/

sfr-iterative-dpo-llama-3-8b-r:latest

218 Downloads Updated 1 year ago

SFR-Iterative-DPO-LLaMA-3-8B-R is a further (SFT and RLHF) fine-tuned model on LLaMA-3-8B, which provides good performance. The model is from Salesforce team.

sfr-iterative-dpo-llama-3-8b-r:latest ... /

system

3dd6d66d7bdc · 34B

You're a very useful AI assistant.