74 8 months ago

cyberagentの公開しているdeepseekモデルをollamaで動かせるようにしました。

8 months ago

d3406fdce9df · 30GB ·

qwen2
·
14.8B
·
F16
あなたは優秀な日本人アシスタントです。
MIT

Readme

DeepSeek-R1-Distill-Qwen-14B-Japanese このリポジトリには、DeepSeek-R1-Distill-Qwen-14B-Japanese モデルが含まれています。これは、DeepSeek チームによって開発された Qwen-14B モデルの日本語対応バージョンで、特に日本語のテキスト生成と理解に優れたパフォーマンスを発揮します。元々は Hugging Face 上に公開されていたモデルですが、こちらでは GGUF形式 に変換され、Ollama 上で利用できるようになっています。

モデル概要 モデル名: DeepSeek-R1-Distill-Qwen-14B-Japanese ベースモデル: Qwen-14B 使用言語: 日本語 モデルタイプ: 転移学習、蒸留モデル(Distilled Model) 開発者: CyberAgent 特徴 高精度な日本語生成: 日本語のテキスト生成と理解に特化した設計。 軽量化されたパフォーマンス: オリジナルのQwen-14Bよりも計算リソースが少なくて済みます。 トランスフォーマーアーキテクチャ: 高性能なトランスフォーマーアーキテクチャに基づくモデルです。 ライセンス このモデルは MITライセンス の下で配布されています。利用の際は、以下の条件に従ってください:

商用利用も可能ですが、著作権表記は保持する必要があります。 モデルの改変、再配布も許可されていますが、改変した場合も元のライセンスを保持する必要があります。