aratan/Predibase-T2T-32B-RFT.Q4_K

New Model Oye, entrenamos un modelo para traducir código PyTorch a Triton y lo publicamos como código abierto aquí: https://huggingface.co/predibase/Predibase-T2T-32B-RFT

Para hacerlo, entrenamos Qwen2.5-Coder-32B-instruct usando ajuste fino por refuerzo (basado en GRPO) y, según kernelbench, estamos superando a DeepSeek-R1 y OpenAI o1 por aproximadamente 3x.

Escribimos sobre la implementación de RFT y el modelo aquí: https://predibase.com/blog/introducing-reinforcement-fine-tuning-on-predibase

Predibase-T2T-32B-RFT.Q4_K_S:latest

AIME 2024: 75.0

CSAT Math 2025: 88.0

GPQA Diamond: 60.0%

LiveCodeBench: 45%

Qué es la RFT y por qué nos entusiasma El ajuste de refuerzo permite a un LLM aprender de funciones de recompensa que dirigen y guían al modelo hacia los resultados, en lugar de ejemplos puramente etiquetados como en SFT.

La técnica funciona especialmente bien para tareas de razonamiento, en las que modelos como DeepSeek-R1 u OpenAI o1 obtienen buenos resultados, y en las que se dispone de cantidades más pequeñas de datos etiquetados pero se pueden escribir rúbricas para ayudar a puntuar el rendimiento.

RFT-Flow-Chart Según nuestra experiencia, la RFT ofrece resultados excepcionales en tareas como la generación de código, en las que la corrección puede verificarse objetivamente mediante la ejecución, y en escenarios RAG complejos en los que la precisión de los hechos y la calidad del razonamiento son primordiales. En estas áreas, hemos observado sistemáticamente que la RFT proporciona un aumento significativo del rendimiento incluso sobre los LLM básicos más capaces.

Una infraestructura totalmente gestionada y sin servidores Una experiencia integral que va desde los datos hasta el servicio de alto rendimiento en el motor de inferencia de Predibase. Totalmente gestionada y sin servidor

Nuevo modelo de código abierto para transpilar PyTorch a Triton supera a DeepSeek-R1 y OpenAI o1 en kernelbench - hecho con ajuste fino por refuerzo.

**EXAONE-Deep-32B** Licencia MUY restrictiva

AIME 2024: 90.0

CSAT Math 2025: 94.5

GPQA Diamond: 65.2%

LiveCodeBench: 50%

**QwQ-32B-MAX** Licencia Libre uso

AIME 2024: 79.5

CSAT Math 2025: 90.6

GPQA Diamond: 65.2%

LiveCodeBench: 50%

**Predibase-T2T-32B-RFT**

AIME 2024: 75.0

CSAT Math 2025: 88.0

GPQA Diamond: 60.0%

LiveCodeBench: 45%

**New Model**
Oye, entrenamos un modelo para traducir código PyTorch a Triton y lo publicamos como código abierto aquí: https://huggingface.co/predibase/Predibase-T2T-32B-RFT

Para hacerlo, entrenamos Qwen2.5-Coder-32B-instruct usando ajuste fino por refuerzo (basado en GRPO) y, según kernelbench, estamos superando a DeepSeek-R1 y OpenAI o1 por aproximadamente 3x.

Escribimos sobre la implementación de RFT y el modelo aquí: https://predibase.com/blog/introducing-reinforcement-fine-tuning-on-predibase

![image.png](/assets/aratan/Predibase-T2T-32B-RFT.Q4_K_S/ad25877b-85d7-4233-947d-f9b00da6fd4d)

Predibase-T2T-32B-RFT.Q4_K_S:latest

AIME 2024: 75.0

CSAT Math 2025: 88.0

GPQA Diamond: 60.0%

LiveCodeBench: 45%

Qué es la RFT y por qué nos entusiasma
El ajuste de refuerzo permite a un LLM aprender de funciones de recompensa que dirigen y guían al modelo hacia los resultados, en lugar de ejemplos puramente etiquetados como en SFT.

La técnica funciona especialmente bien para **tareas de razonamiento**, en las que modelos como DeepSeek-R1 u OpenAI o1 obtienen buenos resultados, y en las que se dispone de cantidades más pequeñas de datos etiquetados pero se pueden escribir rúbricas para ayudar a puntuar el rendimiento.

RFT-Flow-Chart
Según nuestra experiencia, la RFT ofrece resultados excepcionales en tareas como la **generación de código, en las que la corrección** puede verificarse objetivamente mediante la ejecución, y en **escenarios RAG** complejos en los que la precisión de los hechos y la calidad del razonamiento son primordiales. En estas áreas, hemos observado sistemáticamente que la RFT proporciona un aumento significativo del rendimiento incluso sobre los LLM básicos más capaces.

Una **infraestructura totalmente gestionada y sin servidores**
Una experiencia integral que va desde los datos hasta el servicio de alto rendimiento en el motor de inferencia de Predibase.
Totalmente gestionada y sin servidor

Paste, drop or click to upload images (.png, .jpeg, .jpg, .svg, .gif)

Predibase-T2T-32B-RFT. 20-03-2025 Supera a Deepseek r1 y a OpenAi 01 *NO razonamiento*

Readme

Predibase-T2T-32B-RFT. 20-03-2025 Supera a Deepseek r1 y a OpenAi 01 NO razonamiento