QwQ-32B-MAX El segundo mejor modelo de razonamiento 32B 20-03-2025
76 Pulls Updated 3 weeks ago
Updated 3 weeks ago
3 weeks ago
cc1091b0e276 · 20GB
Readme
QwQ MAX
la diferencia esta en el tamaño ### deepseek 671b vs QwQ 32b además de las puntuaciones
Supera a Sonnet 3.7
MATEMÁTICAS-500
Puntuación: ~90.6% Significado: El modelo puede resolver alrededor del 90% de 500 preguntas de matemáticas de secundaria a nivel universitario. Esta es una hazaña significativa, considerando que las tareas matemáticas a menudo requieren pruebas lógicas de varios pasos en lugar de solo “comprensión de lectura”.
AIME (Examen Americano de Matemáticas por Invitación)
Puntuación: ~50.0% Significado: Los problemas de AIME son conocidos por su complejidad y engaño. Una tasa de éxito del 50% indica una gran capacidad para manejar las matemáticas a nivel de competencia, algo con lo que muchos modelos de IA luchan.
LiveCodeBench
Puntuación: ~50.0% Significado: Demuestra una competencia moderada en la generación, depuración o finalización de segmentos de código. Útil para automatizar tareas de codificación comunes y, posiblemente, ayudar en las canalizaciones de desarrollo de software.
GPQA (Respuesta a preguntas de propósito general)
Puntuación: ~65.2% Significado: Si bien no es la mejor de su clase para responder preguntas generales, la puntuación intermedia de QwQ Max Preview subraya que aún funciona bien en contextos más amplios, especialmente si se guía con indicaciones específicas y estructuradas.
** Configuracion **
Características destacadas Modo “Pensamiento” paso a paso Uno de los rasgos característicos de QwQ Max Preview es una funcionalidad de cadena de pensamiento dentro de la aplicación Qwen Chat. Cuando se habilita, el modelo muestra realmente cómo razona a través de un problema:
Transparencia: Los usuarios pueden ver los pasos intermedios, lo que facilita la detección (y corrección) de errores. Valor Educativo: Ideal para enseñar matemáticas o conceptos de programación, ya que los alumnos pueden seguir el proceso de razonamiento. Asistencia de depuración: Los desarrolladores pueden verificar el flujo lógico, identificar dónde podría haber tropezado el modelo y adaptar las indicaciones en consecuencia. Propina: Utilice la función “pensar” con moderación en producción debido a los límites de solicitudes diarias y a la posibilidad de que los tiempos de respuesta sean más lentos.
Manejo de contexto grande Manejar 32K tokens de una sola vez no es poca cosa. Esta ventana de contexto ampliada permite a QwQ Max Preview realizar un seguimiento de documentos largos, manejar instrucciones de varias partes o mantener una conversación larga con una repetición o confusión mínimas. Para casos de uso como el análisis de contratos legales o la documentación técnica ampliada, esto puede cambiar las reglas del juego.
EXAONE-Deep-32B licencia restrictiva
AIME 2024: 90.0
CSAT Math 2025: 94.5
GPQA Diamond: 65.2%
LiveCodeBench: 50%
QwQ-32B-Max licencia libre
AIME 2024: 79.5
CSAT Math 2025: 90.6
GPQA Diamond: 65.2%
LiveCodeBench: 50%
Ruta de código abierto El plan de Alibaba de lanzar QwQ Max Preview bajo Apache 2.0 significa:
Flexibilidad Comercial: Integre e incluso venda servicios basados en QwQ con una fricción mínima en las licencias.
Innovación Comunitaria: Espere expansiones rápidas, correcciones de errores y módulos especializados una vez que los desarrolladores de todo el mundo puedan jugar bajo el capó. Implementaciones locales: Perfecto para industrias que necesitan modelos locales o de nube privada debido a la confidencialidad de los datos (por ejemplo, atención médica, finanzas).
Aplicaciones prácticas Investigación Matemática y Científica Teoremas avanzados: El modelo puede ayudar a verificar pruebas, sugerir los próximos pasos en una ecuación o explorar soluciones alternativas. Asistencia Académica: Ya sea para tareas de pregrado o investigación de posgrado, las fortalezas centradas en las matemáticas de QwQ Max Preview pueden reducir significativamente el tiempo de resolución de problemas. Generación de código y refactorización Desarrollo de Software: Genere código reutilizable, depure errores lógicos o refactorice el código heredado.
Canalizaciones de ciencia de datos: Acelere la creación de scripts para la limpieza o el análisis de datos. Educación para desarrolladores: Los desarrolladores junior pueden aprender del código de ejemplo del modelo, especialmente si habilitan la función de “pensamiento” para ver la lógica detrás de una función o algoritmo. Soporte técnico al cliente
Análisis de archivos de registro: La capacidad del modelo para el razonamiento estructurado ayuda a leer e interpretar registros extensos o volcados de errores. Solución de problemas paso a paso: Los agentes pueden introducir transcripciones o registros en QwQ Max Preview y obtener un enfoque estructurado para diagnosticar problemas complejos.
Chatbots interactivos Chatbots de razonamiento profundo: Las explicaciones en cadena de pensamiento de QwQ Max Preview pueden dar transparencia a las interacciones con los clientes, mostrando cómo se deriva la respuesta.
Plataformas educativas: Imagina a un tutor de IA guiándote a través de una prueba de geometría paso a paso, en lugar de simplemente mostrarte una solución final. Limitaciones y consideraciones Ningún modelo de IA es perfecto. Esto es lo que debe tener en cuenta antes de integrar QwQ Max Preview en su flujo de trabajo:
Mezcla de idiomas y cambio de código Algunos usuarios informan de cambios inesperados entre idiomas en una sola respuesta. Esto puede confundir a las audiencias no bilingües o interrumpir el flujo en un fragmento de código. Bucles de razonamiento recursivo En indicaciones complejas o mal estructuradas, el modelo puede caer en bucles repetitivos, reiterando razonamientos parciales sin llegar a una conclusión. Consejo: Mantén las indicaciones claras y orientadas a objetivos para minimizar los bucles. Seguridad y uso ético Al igual que muchos LLM, QwQ Max Preview puede alucinar o presentar respuestas seguras pero incorrectas. Utilice comprobaciones sólidas de posprocesamiento, especialmente en aplicaciones sensibles (por ejemplo, asesoramiento médico, planificación financiera).
Lagunas de conocimiento general Si bien sobresale en matemáticas y codificación, el modelo a veces tiene dificultades con consultas de sentido común o menos técnicas. Para conversaciones amplias, considere la posibilidad de combinar QwQ Max Preview con un LLM “generalista” especializado. Cómo acceder y qué sigue Empezar Cara de abrazo: Una versión preliminar denominada QwQ-32B-Preview está disponible para su descarga. Perfecto para investigadores o aficionados que buscan experimentar. Aplicación de chat Qwen: Para una experiencia más fácil de usar (incluida la función “pensar”), puede interactuar con el modelo directamente en Qwen Chat. Tenga en cuenta los límites de uso diario. Versión de código abierto bajo Apache 2.0 Alibaba ha confirmado sus intenciones de lanzar una versión completa de código abierto bajo Apache 2.0. Esperar:
Mejoras en la comunidad: Iteración rápida de los contribuyentes globales. Variantes localizadas: Versiones más pequeñas o especializadas (por ejemplo, QwQ-13B para dispositivos integrados o ajustes finos específicos del sector). Enfoque empresarial: Soluciones locales para organizaciones que necesitan una estricta privacidad de datos y cumplimiento. Future Outlook Enhanced Safety Measures: More robust filters and fine-tuning to handle harmful or malicious prompts.
Expanded Domain Knowledge: Ongoing data ingestion could broaden QwQ Max’s expertise beyond just math/coding. Multimodal Capabilities: Potential integration of image or audio inputs to tackle even more complex tasks. Scalable Compute Solutions: Alibaba’s continued investment in AI hardware and cloud services means we may see dedicated hosting, faster inference, and more advanced parallelization techniques. Conclusion & Key Takeaways QwQ Max Preview illustrates Alibaba’s strong commitment to developing AI models that go beyond just producing coherent text—they aim for structured reasoning, mathematical accuracy, and coding proficiency. With a 32.5B-parameter architecture and a 32,768-token context window, it’s tailor-made for extensive documents, advanced math queries, and robust coding tasks. Moreover, the chain-of-thought reveal in Qwen Chat provides a unique lens into how AI arrives at an answer, which can be invaluable for learning and debugging. Before you dive head-first, remember the limitations: watch out for language mixing, recursive loops, and potential inaccuracies in areas outside its core strengths. But if you’re a researcher needing high-level math solutions, a dev looking for coding assistance, or an enterprise seeking advanced reasoning, QwQ Max Preview is definitely one of the most intriguing LLMs to keep on your radar.
Final Thought El inminente lanzamiento de código abierto bajo Apache 2.0 bien podría ser la mayor contribución de QwQ Max Preview a la comunidad de IA, abriendo nuevas fronteras en accesibilidad e innovación. Estén atentos: esto es solo el comienzo para el equipo Qwen de Alibaba, y es probable que veamos más avances a medida que continúen refinando QwQ Max y ampliando los límites del razonamiento de la IA.
Razonamiento
todas las pruebas superadas
Razonamiento Simbólico: Lógica Proposicional:
Pregunta: “Si llueve, entonces la calle está mojada. Si la calle está mojada, ¿Está lloviendo?”
Respuesta: No necesariamente. Evalúa la falacia de afirmar el consecuente.
Pregunta: “Todos los hombres son mortales. Sócrates es un hombre. ¿Es Sócrates mortal?”
Respuesta: Sí. Evalúa la aplicación del modus ponens.
Pregunta: “Si A implica B, y B implica C, entonces ¿A implica C?”
Respuesta: Sí. Evalúa el razonamiento silogístico.
Álgebra y Matemáticas:
Pregunta: “Si x + y = 10, y y - x = 2, ¿cuál es el valor de x e y?”
Respuesta: x=4, y=6. Evalúa la capacidad de resolver sistemas de ecuaciones.
Pregunta: “Si todos los cuadrados son rectángulos, y todos los rectángulos son paralelogramos, entonces ¿todos los cuadrados son paralelogramos?”
Respuesta: Sí. Evalúa la capacidad de razonar con jerarquías de clases.
Problemas de Conocimiento Común y Reglas:
Pregunta: “Si conduces a 80 km/h en una zona de 50 km/h, ¿estás infringiendo la ley?”
Respuesta: Sí. Evalúa el conocimiento de las reglas de tráfico.
Pregunta: “Si un objeto se cae al suelo, ¿qué fuerza lo hace caer?”
Respuesta: La gravedad. Evalúa el conocimiento de las leyes físicas.
Enfoque Neurosimbólico: Combinación de Lógica y Contexto:
Pregunta: “Un pájaro está en una jaula. La jaula está abierta. ¿Puede el pájaro volar?”
Respuesta: Requiere combinar la lógica de que una jaula abierta permite la salida con el conocimiento del mundo real de que los pájaros vuelan.
Pregunta: “María tiene un billete de 50 euros y quiere comprar un libro que cuesta 30 euros. ¿Cuánto dinero le quedará a María después de comprar el libro?”
Respuesta: Combina conocimiento matemático con un escenario del mundo real.
Interpretación de Símbolos:
Acción: Mostrar imágenes abstractas con reglas simbólicas y pedir al modelo que las interprete o complete la secuencia. Razonamiento con Información Incompleta:
Acción: Presentar un escenario con información faltante y pedir al modelo que deduzca la información faltante utilizando tanto lógica como conocimiento del mundo real. Entrenamiento en Tiempo de Prueba (Simulado): Generación de Múltiples Respuestas:
Pregunta: “¿Cuáles son las posibles causas de un dolor de cabeza?” Acción: Pedir al modelo que genere varias opciones y que explique por qué seleccionó una como la mejor. Evaluación de Hipótesis:
Pregunta: “Un detective investiga un robo. Se han encontrado huellas dactilares en la escena del crimen. ¿Cuáles son las posibles explicaciones?” Acción: Plantear un problema y pedir al modelo que genere varias hipótesis y que las evalúe utilizando la información proporcionada. Preguntas Abiertas:
Pregunta: “¿Cuál es la mejor manera de reducir la contaminación en las ciudades?” Acción: Pedir al modelo que explore diferentes soluciones y justifique su elección final. Tipos de Razonamiento: Razonamiento Condicional:
Pregunta: “Si llueve, el suelo se moja. No está lloviendo. ¿Puedo concluir que el suelo no está mojado?” Respuesta: No, porque el suelo podría haberse mojado por otras razones, como un rociador o una persona derramando agua. Resolución de Acertijos:
Pregunta: “Tres personas necesitan cruzar un puente por la noche. Solo tienen una linterna y el puente es demasiado inestable para soportar más de dos personas a la vez. La primera persona tarda 1 minuto, la segunda 2 minutos y la tercera 5 minutos en cruzar. ¿Cómo pueden cruzar todos en 8 minutos o menos?” Respuesta: Primero, las personas que tardan 1 y 2 minutos cruzan juntas (2 minutos). Luego, la de 1 minuto regresa con la linterna (1 minuto, total 3 minutos). Después, las que tardan 5 y 1 minutos cruzan juntas (5 minutos, total 8 minutos). Escenarios Hipotéticos:
Pregunta: “Si los humanos pudieran respirar bajo el agua, ¿cómo cambiaría nuestra sociedad?” Respuesta: Podría haber una mayor explotación de los recursos marinos, ciudades submarinas, cambios en la navegación y el transporte, y una mejor comprensión y conservación de los ecosistemas marinos. Razonamiento Causal:
Pregunta: “¿Qué pasaría si las abejas desaparecieran completamente?” Respuesta: Muchas plantas dependerían de las abejas para la polinización, lo que podría llevar a una disminución de la producción de alimentos y afectar la cadena alimentaria, incluyendo a los seres humanos. Deducción Lógica:
Pregunta: “Todos los mamíferos tienen pulmones. Los delfines son mamíferos. ¿Los delfines tienen pulmones?” Respuesta: Sí, los delfines tienen pulmones porque son mamíferos y todos los mamíferos tienen pulmones. Reconocimiento de Patrones:
Pregunta: “¿Cuál es el próximo número en la secuencia: 2, 4, 8, 16, …?” Respuesta: 32, ya que cada número es el doble del anterior (secuencia de potencias de 2). Razonamiento Ético:
Pregunta: “Si un tren se dirige hacia cinco personas atadas en los rieles y puedes tirar de una palanca para desviar el tren a un riel con una persona, ¿qué deberías hacer?” Respuesta: La decisión ética más común es desviar el tren para salvar más vidas, aunque involucra una elección moral difícil. Razonamiento Temporal:
Pregunta: “Si empiezas una tarea a las 2 PM y lleva 1 hora y 30 minutos, ¿cuándo la terminarás?” Respuesta: La tarea se completará a las 3:30 PM. Razonamiento Espacial:
Pregunta: “Si estás mirando hacia el norte y te giras 90 grados a tu derecha, ¿hacia qué dirección estás mirando?” Respuesta: Estás mirando hacia el este. Razonamiento Abductivo:
Pregunta: “Encuentras un suelo mojado. ¿Cuáles podrían ser las razones posibles?” Respuesta: Podría haber llovido, alguien pudo haber regado el jardín, una persona derramó un líquido, o hubo una fuga de agua.
Pruebas nuevas:
Prueba: Estoy pensando un numero del 1 al 100 , puedes hacerme preguntas ¿Qué numero estoy pensando?
Resolver un laberinto: 4 x 4, encuentra la solución pero algunas veces no da los pasos
Problemas de creatividad: Lo pasa pero es un poco tosco, aunque da todos los pasos.
** no lo pasa ** tengo un vaso con una pelota de ping pong y lo lleno hasta la mitad de agua. sin tapar el vaso, luego lo meto dentro de un congelador durante 5 segundos y lentamente lo giro 180 grados para dejarlo boca abajo. saco el vaso del congelador y lo vuelvo a girar sobre la mesa para volver a llenarlo esta vez hasta arriba. ¿Dónde esta la pelota de pin pong? respuesta: fuera
Dame un listado de provincias españolas que contengan “ia” en su nombre, pero no al final de la palabra.
Si es media noche en Madrid y esta lloviendo , ¿podría estar soleado en Barcelona 24 horas después? respuesta: no, seria de noche