ahmadwaqar/smolvlm2-500m-video/template

ahmadwaqar/ smolvlm2-500m-video:latest

606 Downloads Updated 4 months ago

Compact 500M vision-language model for video/image understanding. Supports visual QA, captioning, OCR, video analysis. Only 1.8GB VRAM. Built on SigLIP + SmolLM2. Available in Q8 and FP16. Apache 2.0 license.

vision

template

836e095f63ff · 160B

<|im_start|>{{ if .System }}System: {{ .System }}<end_of_utterance>

{{ end }}User: {{ .Prompt }}<end_of_utterance>

Assistant: {{ .Response }}<end_of_utterance>