devkit/L1-Qwen-1.5B-Max:q8_0/params

devkit/

L1-Qwen-1.5B-Max:q8_0

68 Downloads Updated 9 months ago

Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

L1-Qwen-1.5B-Max:q8_0 ... /

params

f4d24e9138dd · 148B

{

"stop": [

"<｜begin▁of▁sentence｜>",

"<｜end▁of▁sentence｜>",

"<｜User｜>",

"<｜Assistant｜>"

]

}