Tags · ahmadwaqar/smolvlm2-500m-video

ahmadwaqar/ smolvlm2-500m-video

606 Downloads Updated 4 months ago

Compact 500M vision-language model for video/image understanding. Supports visual QA, captioning, OCR, video analysis. Only 1.8GB VRAM. Built on SigLIP + SmolLM2. Available in Q8 and FP16. Apache 2.0 license.

vision

Name

3 models

Size / Usage

Context

Input

smolvlm2-500m-video:latest

546MB

Text, Image

918994c25a40 · 4 months ago

smolvlm2-500m-video:q8 latest

546MB

Text, Image

918994c25a40 · 4 months ago

smolvlm2-500m-video:fp16

1.0GB

Text, Image

756bce9b8009 · 4 months ago