Predibase-T2T-32B-RFT. 20-03-2025 Supera a Deepseek r1 y a OpenAi 01 *NO razonamiento*
9 Pulls Updated 2 weeks ago
Updated 2 weeks ago
2 weeks ago
3319a4b21951 · 19GB
Readme
Nuevo modelo de código abierto para transpilar PyTorch a Triton supera a DeepSeek-R1 y OpenAI o1 en kernelbench - hecho con ajuste fino por refuerzo.
EXAONE-Deep-32B Licencia MUY restrictiva
AIME 2024: 90.0
CSAT Math 2025: 94.5
GPQA Diamond: 65.2%
LiveCodeBench: 50%
QwQ-32B-MAX Licencia Libre uso
AIME 2024: 79.5
CSAT Math 2025: 90.6
GPQA Diamond: 65.2%
LiveCodeBench: 50%
Predibase-T2T-32B-RFT
AIME 2024: 75.0
CSAT Math 2025: 88.0
GPQA Diamond: 60.0%
LiveCodeBench: 45%
New Model Oye, entrenamos un modelo para traducir código PyTorch a Triton y lo publicamos como código abierto aquí: https://huggingface.co/predibase/Predibase-T2T-32B-RFT
Para hacerlo, entrenamos Qwen2.5-Coder-32B-instruct usando ajuste fino por refuerzo (basado en GRPO) y, según kernelbench, estamos superando a DeepSeek-R1 y OpenAI o1 por aproximadamente 3x.
Escribimos sobre la implementación de RFT y el modelo aquí: https://predibase.com/blog/introducing-reinforcement-fine-tuning-on-predibase
Predibase-T2T-32B-RFT.Q4_K_S:latest
AIME 2024: 75.0
CSAT Math 2025: 88.0
GPQA Diamond: 60.0%
LiveCodeBench: 45%
Qué es la RFT y por qué nos entusiasma El ajuste de refuerzo permite a un LLM aprender de funciones de recompensa que dirigen y guían al modelo hacia los resultados, en lugar de ejemplos puramente etiquetados como en SFT.
La técnica funciona especialmente bien para tareas de razonamiento, en las que modelos como DeepSeek-R1 u OpenAI o1 obtienen buenos resultados, y en las que se dispone de cantidades más pequeñas de datos etiquetados pero se pueden escribir rúbricas para ayudar a puntuar el rendimiento.
RFT-Flow-Chart Según nuestra experiencia, la RFT ofrece resultados excepcionales en tareas como la generación de código, en las que la corrección puede verificarse objetivamente mediante la ejecución, y en escenarios RAG complejos en los que la precisión de los hechos y la calidad del razonamiento son primordiales. En estas áreas, hemos observado sistemáticamente que la RFT proporciona un aumento significativo del rendimiento incluso sobre los LLM básicos más capaces.
Una infraestructura totalmente gestionada y sin servidores Una experiencia integral que va desde los datos hasta el servicio de alto rendimiento en el motor de inferencia de Predibase. Totalmente gestionada y sin servidor