Supera a modelos de 97B como Qwen3.5 - Multimodal Vision / Audio, Razonamiento (uso comercial valido) sin censura

Details

Updated 1 month ago

1 month ago

eb8511cc84ac · 18GB ·

model

archgemma4

parameters30.7B

quantizationQ4_K_S

18GB

params

{ "stop": [ "<turn|>" ] }

31B

template

{{ if .System }}<bos><|turn>system {{ .System }}<turn|> {{ end }}{{ if .Prompt }}<|turn>user {{ .Pro

159B

GEMMA 4 de 31B supera a modelos de 397B como Qwen3.5

Multimodal Vision y Audio

Gemma 4 cuenta con una ventana de contexto de hasta 256 000 tokens y ofrece soporte multilingüe en más de 140 idiomas.

Gemma 4 introduce avances arquitectónicos y de capacidades clave :

Razonamiento : Todos los modelos de la familia están diseñados para razonar con gran capacidad, con modos de pensamiento configurables.

Multimodalidades extendidas : procesa texto, imágenes con soporte para relación de aspecto y resolución variables (todos los modelos), vídeo y audio (disponible de forma nativa en los modelos E2B y E4B).

Arquitecturas diversas y eficientes : ofrece variantes densas y de mezcla de expertos (MoE) de diferentes tamaños para una implementación escalable.

Optimizado para su uso en el dispositivo : los modelos más pequeños están diseñados específicamente para una ejecución local eficiente en ordenadores portátiles y dispositivos móviles.

Ventana de contexto ampliada : los modelos pequeños cuentan con una ventana de contexto de 128 KB, mientras que los modelos medianos admiten 256 KB.

Capacidades mejoradas de codificación y gestión de agentes : logra mejoras notables en los parámetros de referencia de codificación, junto con la compatibilidad con llamadas a funciones nativas, lo que permite crear agentes autónomos de gran capacidad.

Compatibilidad nativa con las indicaciones del sistema : Gemma 4 introduce compatibilidad nativa con esta systemfunción, lo que permite conversaciones más estructuradas y controlables.

Descripción general de los modelos Los modelos Gemma 4 están diseñados para ofrecer un rendimiento de vanguardia en cada tamaño, y se adaptan a diversos escenarios de implementación, desde dispositivos móviles y periféricos (E2B, E4B) hasta GPU y estaciones de trabajo para consumidores (26B, A4B, 31B). Son ideales para el razonamiento, los flujos de trabajo automatizadas, la codificación y la comprensión multimodal.

Los modelos emplean un mecanismo de atención híbrido que combina la atención local mediante ventana deslizante con la atención global completa, garantizando que la capa final sea siempre global. Este diseño híbrido ofrece la velocidad de procesamiento y el bajo consumo de memoria de un modelo ligero sin sacrificar la profunda comprensión necesaria para tareas complejas de contexto extenso. Para optimizar la memoria en contextos extensos, las capas globales presentan claves y valores unificados y aplican RoPE proporcional (p-RoPE).

Modelos densos Propiedad E2B E4B 31B Denso Parámetros totales 2.3 mil millones efectivos (5.1 mil millones con incrustaciones) 4.5B efectivos (8B con incrustaciones) 30.7 mil millones Capas 35 42 60 Ventana corrediza 512 tokens 512 tokens 1024 tokens Longitud del contexto 128.000 tokens 128.000 tokens 256.000 tokens Tamaño del vocabulario 262K 262K 262K Modalidades compatibles Texto, Imagen, Audio Texto, Imagen, Audio Texto, Imagen Parámetros del codificador de visión ~150M ~150M ~550M Parámetros del codificador de audio ~300M ~300M Sin audio La “E” en E2B y E4B significa parámetros “efectivos”. Los modelos más pequeños incorporan incrustaciones por capa (PLE) para maximizar la eficiencia de los parámetros en implementaciones en dispositivos. En lugar de agregar más capas o parámetros al modelo, PLE asigna a cada capa del decodificador su propia incrustación pequeña para cada token. Estas tablas de incrustaciones son extensas, pero solo se utilizan para búsquedas rápidas, por lo que el número de parámetros efectivos es mucho menor que el total.

Modelo de mezcla de expertos (MoE) Propiedad 26B A4B MoE Parámetros totales 25.2B Parámetros activos 3.8 mil millones Capas 30 Ventana corrediza 1024 tokens Longitud del contexto 256.000 tokens Tamaño del vocabulario 262K Recuento de expertos 8 activos / 128 en total y 1 compartido Modalidades compatibles Texto, Imagen Parámetros del codificador de visión ~550M La “A” en 26B A4B significa “parámetros activos”, en contraste con el número total de parámetros que contiene el modelo. Al activar solo un subconjunto de 4B parámetros durante la inferencia, el modelo Mixture-of-Experts se ejecuta mucho más rápido de lo que su total de 26B podría sugerir. Esto lo convierte en una excelente opción para una inferencia rápida en comparación con el denso modelo 31B, ya que se ejecuta casi tan rápido como un modelo de 4B parámetros.

Resultados de referencia Estos modelos se evaluaron con una amplia colección de conjuntos de datos y métricas diferentes para abarcar distintos aspectos de la generación de texto. Los resultados de la evaluación que se muestran en la tabla corresponden a modelos optimizados para instrucciones específicas.

Gemma 4 31B Gemma 4 26B A4B Gemma 4 E4B Gemma 4 E2B Gemma 3 27B (no pensar) MMLU Pro 85,2% 82,6% 69,4% 60,0% 67,6% AIME 2026 sin herramientas 89,2% 88,3% 42,5% 37,5% 20,8% LiveCodeBench v6 80,0% 77,1% 52,0% 44,0% 29,1% Codeforces ELO 2150 1718 940 633 110 Diamante GPQA 84,3% 82,3% 58,6% 43,4% 42,4% Tau2 (promedio sobre 3) 76,9% 68,2% 42,2% 24,5% 16,2% HLE sin herramientas 19,5% 8,7% - - - HLE con búsqueda 26,5% 17,2% - - - BigBench Extra Duro 74,4% 64,8% 33,1% 21,9% 19,3% MMMLU 88,4% 86,3% 76,6% 67,4% 70,7% Visión MMMU Pro 76,9% 73,8% 52,6% 44,2% 49,7% OmniDocBench 1.5 (distancia de edición promedio, cuanto menor sea el valor, mejor) 0,131 0,149 0,181 0,290 0,365 Visión matemática 85,6% 82,4% 59,5% 52,4% 46,0% MedXPertQA MM 61,3% 58,1% 28,7% 23,5% - Audio CoVoST - - 35,54 33,47 - FLORES (cuanto menor, mejor) - - 0,08 0,09 - Contexto largo MRCR v2 8 agujas 128k (promedio) 66,4% 44,1% 25,4% 19,1% 13,5% Capacidades básicas Los modelos Gemma 4 manejan una amplia gama de tareas relacionadas con texto, imagen y audio. Sus capacidades clave incluyen:

Pensamiento : modo de razonamiento incorporado que permite al modelo pensar paso a paso antes de responder. Contexto largo : ventanas de contexto de hasta 128 000 tokens (E2B/E4B) y 256 000 tokens (26B A4B/31B). Comprensión de imágenes : detección de objetos, análisis de documentos/PDF, comprensión de pantallas e interfaces de usuario, comprensión de gráficos, OCR (incluido el multilingüe), reconocimiento de escritura a mano y puntero. Las imágenes se pueden procesar con diferentes relaciones de aspecto y resoluciones. Comprensión de vídeo : Analizar vídeos procesando secuencias de fotogramas. Entrada multimodal intercalada : combine libremente texto e imágenes en cualquier orden dentro de una misma solicitud. Llamada a funciones : compatibilidad nativa con el uso estructurado de herramientas, lo que permite flujos de trabajo basados en agentes. Codificación : generación, finalización y corrección de código. Multilingüe : compatibilidad inmediata con más de 35 idiomas y preentrenado con más de 140 idiomas. Audio (solo E2B y E4B): reconocimiento automático de voz (ASR) y traducción de voz a texto en varios idiomas. Empezando Puedes usar todos los modelos Gemma 4 con la última versión de Transformers. Para empezar, instala las dependencias necesarias en tu entorno:

pip install -U transformers torch accelerate

Una vez que tenga todo instalado, puede proceder a cargar el modelo con el siguiente código:

from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = “google/gemma-4-26B-A4B-it”

Load model

processor = AutoProcessor.from_pretrained(MODEL_ID) model = AutoModelForCausalLM.from_pretrained( MODEL_ID, dtype=“auto”, device_map=“auto” )

Una vez cargado el modelo, puede comenzar a generar resultados:

Prompt

messages = [ {“role”: “system”, “content”: “You are a helpful assistant.”}, {“role”: “user”, “content”: “Write a short joke about saving RAM.”}, ]

Process input

text = processor.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, enable_thinking=False ) inputs = processor(text=text, return_tensors=“pt”).to(model.device) input_len = inputs[“input_ids”].shape[-1]

Generate output

outputs = model.generate(**inputs, max_new_tokens=1024) response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

Parse output

processor.parse_response(response)

Para habilitar el razonamiento, configure enable_thinking=Truela parse_responsefunción y esta se encargará de analizar el resultado del pensamiento.

A continuación, también encontrará fragmentos de código para el procesamiento de audio (solo E2B y E4B), imágenes y vídeo junto con texto:

Código para el procesamiento de audio Código para el procesamiento de imágenes Código para procesar vídeos Mejores prácticas Para obtener el mejor rendimiento, utilice estas configuraciones y mejores prácticas:

Parámetros de muestreo Utilice la siguiente configuración de muestreo estandarizada en todos los casos de uso:

temperature=1.0 top_p=0.95 top_k=64 2. Configuración del modo de pensamiento En comparación con Gemma 3, los modelos utilizan roles estándar system, assistant, y user. Para gestionar adecuadamente el proceso de pensamiento, utilice los siguientes tokens de control:

Activar el pensamiento: El pensamiento se habilita incluyendo el <|think|>token al inicio del mensaje del sistema. Para desactivar el pensamiento, elimine el token. Generación estándar: Cuando el pensamiento está habilitado, el modelo generará su razonamiento interno seguido de la respuesta final utilizando esta estructura: <|channel>thought\n[Razonamiento interno] Comportamiento de pensamiento deshabilitado: Para todos los modelos excepto las variantes E2B y E4B, si el pensamiento está deshabilitado, el modelo seguirá generando las etiquetas pero con un bloque de pensamiento vacío: <|channel>thought\n[Respuesta final] Tenga en cuenta que muchas bibliotecas, como Transformers y llama.cpp, se encargan de las complejidades de la plantilla de chat por usted.

Conversaciones de varios turnos Sin contenido de pensamiento en el historial : En conversaciones de varios turnos, la salida del modelo histórico solo debe incluir la respuesta final. No se deben agregar pensamientos de turnos anteriores del modelo antes de que comience el siguiente turno del usuario.
Orden de modalidad Para un rendimiento óptimo con entradas multimodales, coloque el contenido de imagen y/o audio antes del texto en su mensaje.
Resolución de imagen variable Además de las relaciones de aspecto variables, Gemma 4 admite resolución de imagen variable mediante un presupuesto de tokens visuales configurable, que controla cuántos tokens se utilizan para representar una imagen. Un presupuesto de tokens mayor conserva más detalles visuales a costa de un mayor procesamiento, mientras que un presupuesto menor permite una inferencia más rápida para tareas que no requieren una comprensión detallada.

Los presupuestos de tokens admitidos son: 70 , 140 , 280 , 560 y 1120 . Utilice presupuestos más bajos para la clasificación, la generación de subtítulos o la comprensión de vídeo, donde la inferencia y el procesamiento más rápidos de muchos fotogramas priman sobre el detalle minucioso. Utilice presupuestos más elevados para tareas como el reconocimiento óptico de caracteres (OCR), el análisis de documentos o la lectura de textos pequeños. 6. Audio Utilice las siguientes estructuras de indicaciones para el procesamiento de audio:

Reconocimiento de voz por audio (ASR) Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer: * Only output the transcription, with no newlines. * When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Traducción automática del habla (AST) Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}. When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string ‘{TARGET_LANGUAGE}: ‘, then the translation in {TARGET_LANGUAGE}.

Duración del audio y del vídeo Todos los modelos admiten entrada de imagen y pueden procesar vídeos como fotogramas, mientras que los modelos E2B y E4B también admiten entrada de audio. El audio admite una duración máxima de 30 segundos. El vídeo admite un máximo de 60 segundos, suponiendo que las imágenes se procesen a un fotograma por segundo.

Datos del modelo Datos utilizados para el entrenamiento del modelo y cómo se procesaron dichos datos.

Conjunto de datos de entrenamiento Nuestro conjunto de datos de preentrenamiento es una colección de datos diversa y a gran escala que abarca una amplia gama de dominios y modalidades, incluyendo documentos web, código, imágenes y audio, con una fecha límite de enero de 2025. Estos son los componentes clave:

Documentos web : Una colección diversa de textos web garantiza que el modelo esté expuesto a una amplia gama de estilos lingüísticos, temas y vocabulario. El conjunto de datos de entrenamiento incluye contenido en más de 140 idiomas. Código : Exponer el modelo al código le ayuda a aprender la sintaxis y los patrones de los lenguajes de programación, lo que mejora su capacidad para generar código y comprender cuestiones relacionadas con el código.

Matemáticas : El entrenamiento con textos matemáticos ayuda al modelo a aprender el razonamiento lógico, la representación simbólica y a abordar consultas matemáticas. Imágenes : Una amplia gama de imágenes permite al modelo realizar tareas de análisis de imágenes y extracción de datos visuales. La combinación de estas diversas fuentes de datos es crucial para entrenar un modelo multimodal potente que pueda manejar una amplia variedad de tareas y formatos de datos diferentes.

Preprocesamiento de datos Estos son los principales métodos de limpieza y filtrado de datos aplicados a los datos de entrenamiento:

Filtrado de CSAM : Se aplicó un riguroso filtrado de CSAM (material de abuso sexual infantil) en múltiples etapas del proceso de preparación de datos para garantizar la exclusión de contenido dañino e ilegal.

Filtrado de datos sensibles : Como parte del proceso para garantizar la seguridad y fiabilidad de los modelos preentrenados de Gemma, se utilizaron técnicas automatizadas para filtrar cierta información personal y otros datos sensibles de los conjuntos de entrenamiento. Métodos adicionales : Filtrado basado en la calidad y seguridad del contenido, de acuerdo con nuestras políticas . Ética y seguridad A medida que los modelos abiertos se convierten en elementos centrales de la infraestructura empresarial, la procedencia y la seguridad son primordiales. Desarrollado por Google DeepMind, Gemma 4 se somete a las mismas rigurosas evaluaciones de seguridad que nuestros modelos Gemini, de propiedad exclusiva.

Enfoque de evaluación Los modelos Gemma 4 se desarrollaron en colaboración con equipos internos de seguridad e IA responsable.

El rendimiento de un modelo puede verse influenciado por la cantidad de contexto proporcionado (un contexto más extenso generalmente conduce a mejores resultados, hasta cierto punto). Ambigüedad y matices del lenguaje El lenguaje natural es inherentemente complejo. Los modelos pueden tener dificultades para captar matices sutiles, el sarcasmo o el lenguaje figurado. Precisión fáctica Los modelos generan respuestas basándose en la información que aprendieron de sus conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar afirmaciones fácticas incorrectas o desactualizadas. Sentido común Los modelos se basan en patrones estadísticos del lenguaje. Es posible que carezcan de la capacidad de aplicar el razonamiento de sentido común en determinadas situaciones. Consideraciones éticas y riesgos El desarrollo de modelos de lenguaje visual (MLV) plantea varias preocupaciones éticas. Al crear un modelo abierto, hemos considerado cuidadosamente lo siguiente:

Beneficios

En el momento de su lanzamiento, esta familia de modelos proporciona implementaciones de modelos de lenguaje de visión abiertos y de alto rendimiento, diseñados desde cero para un desarrollo responsable de la IA, en comparación con modelos de tamaño similar.