wangrongsheng/sfr-iterative-dpo-llama-3-8b-r

wangrongsheng/

sfr-iterative-dpo-llama-3-8b-r:latest

208 Downloads Updated 1 year ago

SFR-Iterative-DPO-LLaMA-3-8B-R is a further (SFT and RLHF) fine-tuned model on LLaMA-3-8B, which provides good performance. The model is from Salesforce team.

Updated 1 year ago

1 year ago

df04f1eec67a · 4.7GB

archllama

parameters8.03B

quantizationQ4_0

4.7GB

{{ if .System }}<|start_header_id|>system<|end_header_id|> {{ .System }}<|eot_id|>{{ end }}{{ if .Pr

255B

You're a very useful AI assistant.

34B

{ "num_keep": 24, "stop": [ "<|start_header_id|>", "<|end_header_id|>",

110B

SFR-Iterative-DPO-LLaMA-3-8B-R is a further (SFT and RLHF) fine-tuned model on LLaMA-3-8B, which provides good performance. The model is from Salesforce team.