11 Downloads Updated 10 months ago
Мислеща модела базирана на llama-3.1-8b-instruct
Не е deepseek, а стандартна модела научена да мисли.
Релиз: 14.02.2025 - GRPO
Пример:
SYSTEM:"""
Отговори в следния формат:
<reasoning>
...
</reasoning>
<answer>
...
</answer>
"""
USER: Колко е 2 + 2?
ASSISTANT:
<reasoning>
2 + 2 е едно от най-елементарните аритметични операции.
При изпълнението на тази операция се позволява да се запишат
числата в еднакви групи и се даде обща им стойност.
Има два брояча в групите, които запълват всеки един с две единици.
След това се сумира стойността на двете групи, което води до 2 + 2 = 4.
</reasoning>
<answer>
4
</answer>