El mejor modelo de razonamiento 32B 22-03-2025

32b

5 11 days ago

Readme

NO LOPUEDES USAR PARA LO QUE QUIERAS, la licencia es muy restrictiva

Comparación directa con QwQ32-Max Matemáticas avanzadas (AIME, CSAT Math 2025)

EXAONE-Deep-32B tiene mejores puntuaciones en AIME 2025 y CSAT Math 2025 (94.5 vs. 90.6 de QwQ-32B).

En AIME 2024, EXAONE obtuvo 90.0, superando el 79.5 de QwQ-32B.

LiveCodeBench (Programación y depuración de código)

Ambos modelos tienen un rendimiento similar (~50%).

GPQA (Conocimiento general y razonamiento)

EXAONE-Deep-32B parece más fuerte en esta métrica (~65.2% frente a QwQ-32B).

Ventana de contexto

QwQ-32B ofrece 32,000 tokens, útil para tareas largas.

EXAONE-Deep-32B no especifica su límite, pero podría ser menor.

Conclusión: ¿Cuál es mejor? Si buscas el mejor rendimiento global en matemáticas, programación y razonamiento, EXAONE-Deep-32B es la mejor opción.

Si necesitas una ventana de contexto mayor para analizar grandes volúmenes de datos, QwQ-32B podría ser más útil.

En términos generales, EXAONE-Deep-32B gana en precisión y rendimiento en tareas matemáticas y de conocimiento general, por lo que sería mi recomendación.

image.png

Qwq32-Max Tiene una licencia muy amigable, no como exaone-deep

EXAONE Deep exhibe capacidades superiores en varias tareas de razonamiento, incluidos los puntos de referencia matemáticos y de codificación, que van desde parámetros de 2.4B a

32B desarrollados y lanzados por LG AI Research.

Los resultados de la evaluación muestran que:

EXAONE Deep 2.4B supera a otros modelos de tamaño comparable

EXAONE Deep 7.8B supera no solo a los modelos de peso abierto de escala comparable, sino también a un modelo de razonamiento patentado OpenAI o1-mini

EXAONE Deep 32B demuestra un rendimiento competitivo frente a los principales modelos de peso abierto.