scomper / minicpm-v2.5

MiniCPM-Llama3-V 2.5 是 MiniCPM-V 系列的最新版本（2024.05.28）模型，基于 SigLip-400M 和 Llama3-8B-Instruct 构建，共 8B 参数量，相较于 MiniCPM-V 2.0 性能取得较大幅度提升。MiniCPM-Llama3-V 2.5 值得关注的特点包括：

领先的性能：在综合了 11 个主流多模态大模型评测基准的 OpenCompass 榜单上平均得分 65.1，以 8B 量级的大小超过了 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等主流商用闭源多模态大模型，大幅超越基于Llama 3构建的其他多模态大模型。
优秀的 OCR 能力：可接受 180 万像素的任意宽高比图像输入，OCRBench 得分达到 725，超越 GPT-4o、GPT-4V、Gemini Pro、Qwen-VL-Max 等商用闭源模型，达到最佳水平。增强了全文 OCR 信息提取、表格图像转 markdown 等高频实用能力，并且进一步加强了指令跟随、复杂推理能力，带来更好的多模态交互体感。
可信行为：借助最新的 RLAIF-V 对齐技术，MiniCPM-Llama3-V 2.5 具有更加可信的多模态行为，在 Object HalBench 的幻觉率降低到了 10.3%，显著低于 GPT-4V-1106 (13.6%)，达到开源社区最佳水平。
多语言支持：得益于 Llama 3 强大的多语言能力和 VisCPM 的跨语言泛化技术，MiniCPM-Llama3-V 2.5 在中英双语多模态能力的基础上，仅通过少量翻译的多模态数据的指令微调，高效泛化支持了德语、法语、西班牙语、意大利语、韩语等 30+ 种语言的多模态能力，并表现出了良好的多语言多模态对话性能。
高效部署：MiniCPM-Llama3-V 2.5 较为系统地通过模型量化、CPU、NPU、编译优化等高效加速技术，实现高效的终端设备部署。

引用

GitHub ：https://github.com/OpenBMB/MiniCPM-V/

HuggingFace： 🤗 🤖

## 简介
MiniCPM-V是面向图文理解的端侧多模态大模型系列，该系列模型接受图像和文本输入，并提供高质量的文本输出。自2024年2月以来，陆续发布了4个版本模型，旨在实现领先的性能和高效的部署。

- 领先的性能：在综合了 11 个主流多模态大模型评测基准的 OpenCompass 榜单上平均得分 65.1，以 8B 量级的大小超过了 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等主流商用闭源多模态大模型，大幅超越基于Llama 3构建的其他多模态大模型。

- 优秀的 OCR 能力：可接受 180 万像素的任意宽高比图像输入，OCRBench 得分达到 725，超越 GPT-4o、GPT-4V、Gemini Pro、Qwen-VL-Max 等商用闭源模型，达到最佳水平。增强了全文 OCR 信息提取、表格图像转 markdown 等高频实用能力，并且进一步加强了指令跟随、复杂推理能力，带来更好的多模态交互体感。

- 可信行为：借助最新的 RLAIF-V 对齐技术，MiniCPM-Llama3-V 2.5 具有更加可信的多模态行为，在 Object HalBench 的幻觉率降低到了 10.3%，显著低于 GPT-4V-1106 (13.6%)，达到开源社区最佳水平。

- 多语言支持：得益于 Llama 3 强大的多语言能力和 VisCPM 的跨语言泛化技术，MiniCPM-Llama3-V 2.5 在中英双语多模态能力的基础上，仅通过少量翻译的多模态数据的指令微调，高效泛化支持了德语、法语、西班牙语、意大利语、韩语等 30+ 种语言的多模态能力，并表现出了良好的多语言多模态对话性能。

- 高效部署：MiniCPM-Llama3-V 2.5 较为系统地通过模型量化、CPU、NPU、编译优化等高效加速技术，实现高效的终端设备部署。

## 引用
GitHub ：[https://github.com/OpenBMB/MiniCPM-V/](https://github.com/OpenBMB/MiniCPM-V/blob/main/README_zh.md)

HuggingFace： [🤗](https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5/) [🤖](https://huggingface.co/spaces/openbmb/MiniCPM-Llama3-V-2_5)

Paste, drop or click to upload images (.png, .jpeg, .jpg, .svg, .gif)