MiniCPM-V是面向图文理解的端侧多模态大模型系列,该系列模型接受图像和文本输入,并提供高质量的文本输出。

8B

2,158 Pulls Updated 3 months ago

Readme

简介

MiniCPM-V是面向图文理解的端侧多模态大模型系列,该系列模型接受图像和文本输入,并提供高质量的文本输出。自2024年2月以来,陆续发布了4个版本模型,旨在实现领先的性能和高效的部署。

MiniCPM-Llama3-V 2.5 是 MiniCPM-V 系列的最新版本(2024.05.28)模型,基于 SigLip-400M 和 Llama3-8B-Instruct 构建,共 8B 参数量,相较于 MiniCPM-V 2.0 性能取得较大幅度提升。MiniCPM-Llama3-V 2.5 值得关注的特点包括:

  • 领先的性能:在综合了 11 个主流多模态大模型评测基准的 OpenCompass 榜单上平均得分 65.1,以 8B 量级的大小超过了 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等主流商用闭源多模态大模型,大幅超越基于Llama 3构建的其他多模态大模型。

  • 优秀的 OCR 能力:可接受 180 万像素的任意宽高比图像输入,OCRBench 得分达到 725,超越 GPT-4o、GPT-4V、Gemini Pro、Qwen-VL-Max 等商用闭源模型,达到最佳水平。增强了全文 OCR 信息提取、表格图像转 markdown 等高频实用能力,并且进一步加强了指令跟随、复杂推理能力,带来更好的多模态交互体感。

  • 可信行为:借助最新的 RLAIF-V 对齐技术,MiniCPM-Llama3-V 2.5 具有更加可信的多模态行为,在 Object HalBench 的幻觉率降低到了 10.3%,显著低于 GPT-4V-1106 (13.6%),达到开源社区最佳水平。

  • 多语言支持:得益于 Llama 3 强大的多语言能力和 VisCPM 的跨语言泛化技术,MiniCPM-Llama3-V 2.5 在中英双语多模态能力的基础上,仅通过少量翻译的多模态数据的指令微调,高效泛化支持了德语、法语、西班牙语、意大利语、韩语等 30+ 种语言的多模态能力,并表现出了良好的多语言多模态对话性能。

  • 高效部署:MiniCPM-Llama3-V 2.5 较为系统地通过模型量化、CPU、NPU、编译优化等高效加速技术,实现高效的终端设备部署。

引用

GitHub :https://github.com/OpenBMB/MiniCPM-V/

HuggingFace: 🤗 🤖