tukia/nvidia-ultralong-4M

tukia/ nvidia-ultralong-4M:latest

76 Downloads Updated 11 months ago

4 million long context window model built on Llama-3.1.

ollama run tukia/nvidia-ultralong-4M

curl http://localhost:11434/api/chat \
  -d '{
    "model": "tukia/nvidia-ultralong-4M",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

from ollama import chat

response = chat(
    model='tukia/nvidia-ultralong-4M',
    messages=[{'role': 'user', 'content': 'Hello!'}],
)
print(response.message.content)

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'tukia/nvidia-ultralong-4M',
  messages: [{role: 'user', content: 'Hello!'}],
})
console.log(response.message.content)

Details

Updated 11 months ago

11 months ago

dc3c87b57e07 · 16GB ·

model

archllama

parameters8.04B

quantizationF16

16GB

params

{ "stop": [ "<|start_header_id|>", "<|end_header_id|>", "<|eot_id|>"

96B

template

{{- range .Messages }}<|start_header_id|>{{ .Role }}<|end_header_id|> {{ .Content }}<|eot_id|> {{- e

153B

Readme

Nemotron-UltraLong-8B from https://huggingface.co/nvidia/Llama-3.1-Nemotron-8B-UltraLong-4M-Instruct.

Context window size of 4 million tokens.