Predibase-T2T-32B-RFT. 20-03-2025 Supera a Deepseek r1 y a OpenAi 01 *NO razonamiento*

tools

9 2 weeks ago

Readme

Nuevo modelo de código abierto para transpilar PyTorch a Triton supera a DeepSeek-R1 y OpenAI o1 en kernelbench - hecho con ajuste fino por refuerzo.

EXAONE-Deep-32B Licencia MUY restrictiva

AIME 2024: 90.0

CSAT Math 2025: 94.5

GPQA Diamond: 65.2%

LiveCodeBench: 50%

QwQ-32B-MAX Licencia Libre uso

AIME 2024: 79.5

CSAT Math 2025: 90.6

GPQA Diamond: 65.2%

LiveCodeBench: 50%

Predibase-T2T-32B-RFT

AIME 2024: 75.0

CSAT Math 2025: 88.0

GPQA Diamond: 60.0%

LiveCodeBench: 45%

New Model Oye, entrenamos un modelo para traducir código PyTorch a Triton y lo publicamos como código abierto aquí: https://huggingface.co/predibase/Predibase-T2T-32B-RFT

Para hacerlo, entrenamos Qwen2.5-Coder-32B-instruct usando ajuste fino por refuerzo (basado en GRPO) y, según kernelbench, estamos superando a DeepSeek-R1 y OpenAI o1 por aproximadamente 3x.

Escribimos sobre la implementación de RFT y el modelo aquí: https://predibase.com/blog/introducing-reinforcement-fine-tuning-on-predibase

image.png

Predibase-T2T-32B-RFT.Q4_K_S:latest

AIME 2024: 75.0

CSAT Math 2025: 88.0

GPQA Diamond: 60.0%

LiveCodeBench: 45%

Qué es la RFT y por qué nos entusiasma El ajuste de refuerzo permite a un LLM aprender de funciones de recompensa que dirigen y guían al modelo hacia los resultados, en lugar de ejemplos puramente etiquetados como en SFT.

La técnica funciona especialmente bien para tareas de razonamiento, en las que modelos como DeepSeek-R1 u OpenAI o1 obtienen buenos resultados, y en las que se dispone de cantidades más pequeñas de datos etiquetados pero se pueden escribir rúbricas para ayudar a puntuar el rendimiento.

RFT-Flow-Chart Según nuestra experiencia, la RFT ofrece resultados excepcionales en tareas como la generación de código, en las que la corrección puede verificarse objetivamente mediante la ejecución, y en escenarios RAG complejos en los que la precisión de los hechos y la calidad del razonamiento son primordiales. En estas áreas, hemos observado sistemáticamente que la RFT proporciona un aumento significativo del rendimiento incluso sobre los LLM básicos más capaces.

Una infraestructura totalmente gestionada y sin servidores Una experiencia integral que va desde los datos hasta el servicio de alto rendimiento en el motor de inferencia de Predibase. Totalmente gestionada y sin servidor