Mejor que Gemma3, también es Multimodal. y Rápido 18-03-2025 *NO razonamiento*
1,713 Pulls Updated 2 weeks ago
Updated 2 weeks ago
2 weeks ago
904740aec25d · 14GB
Readme
Las aplicaciones modernas de IA exigen una combinación de capacidades (manejo de texto, comprensión de entradas multimodales, compatibilidad con varios idiomas y administración de contextos largos) con baja latencia y rentabilidad. Como se muestra a continuación, Mistral Small 3.1 es el primer modelo de código abierto que no solo cumple, sino que de hecho supera el rendimiento de los principales modelos propietarios pequeños en todas estas dimensiones.
A continuación encontrará más detalles sobre el rendimiento del modelo. Siempre que sea posible, mostramos los números informados previamente por otros proveedores, de lo contrario, evaluamos los modelos a través de nuestro arnés de evaluación común.
Instruir el rendimiento Puntos de referencia de instrucciones de texto
Vision: Vision capabilities enable the model to analyze images and provide insights based on visual content in addition to text. Multilingual: Supports dozens of languages, including English, French, German, Greek, Hindi, Indonesian, Italian, Japanese, Korean, Malay, Nepali, Polish, Portuguese, Romanian, Russian, Serbian, Spanish, Swedish, Turkish, Ukrainian, Vietnamese, Arabic, Bengali, Chinese, Farshi. Apache 2.0 License: Open license allowing usage and modification for both commercial and non-commercial purposes. Context Window: A 128k context window. Tokenizer: Utilizes a Tekken tokenizer with a 131k vocabulary size. Benchmark Results When available, we report numbers previously published by other model providers, otherwise we re-evaluate them using our own evaluation harness.
Pretrain Evals Model MMLU (5-shot) MMLU Pro (5-shot CoT) TriviaQA GPQA Main (5-shot CoT) MMMU Small 3.1 24B Base 81.01% 56.03% 80.50% 37.50% 59.27% Gemma 3 27B PT 78.60% 52.20% 81.30% 24.30% 56.10% Usage Examples vLLM (recommended) We recommend using Mistral-Small 3.1 Base with the vLLM library. Note however that this is a pretrained-only checkpoint and thus not ready to work as an instruction model out-of-the-box. For a production-ready instruction model please use Mistral-Small-3.1-24B-Instruct-2503.
RENDIMIENTO
MULTIMODALIDAD