a0rk293/amd-llama-135m

a0rk293/ amd-llama-135m

53 Downloads Updated 1 year ago

AMD-Llama-135m is a language model trained on AMD MI250 GPUs.

ollama run a0rk293/amd-llama-135m:q8

curl http://localhost:11434/api/chat \
  -d '{
    "model": "a0rk293/amd-llama-135m:q8",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

from ollama import chat

response = chat(
    model='a0rk293/amd-llama-135m:q8',
    messages=[{'role': 'user', 'content': 'Hello!'}],
)
print(response.message.content)

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'a0rk293/amd-llama-135m:q8',
  messages: [{role: 'user', content: 'Hello!'}],
})
console.log(response.message.content)

Models

View all →

Name

1 model

Size / Usage

Context

Input

amd-llama-135m:q8

143MB · 2K context window · Text · 1 year ago

amd-llama-135m:q8

143MB

Text

Readme

AMD-Llama-135m is a language model trained on AMD MI250 GPUs. Based on LLaMA2 model architecture, this model can be smoothly loaded as LlamaForCausalLM with huggingface transformers. Furthermore, we use the same tokenizer as LLaMA2, enabling it to be a draft model of speculative decoding for LLaMA2 and CodeLlama.