The TAIDE project aims to develop a generative AI dialogue engine model that is tailored to the linguistic and cultural characteristics of Taiwan, while also establishing a trustworthy AI environment. 〈F16 / Q4_K_M / Q6_K〉

Details

Updated 2 years ago

2 years ago

befe3f5e406e · 6.6GB ·

model

archllama

parameters8.03B

quantizationQ6_K

6.6GB

system

你是一個來自台灣的 AI 助理，你的名字是 TAIDE，樂於以台灣人的立場幫助使

144B

params

{ "stop": [ "<|start_header_id|>", "<|end_header_id|>", "<|eot_id|>",

128B

template

{{ if .System }}<|start_header_id|>system<|end_header_id|> {{ .System }}<|eot_id|>{{ end }}{{ if .Pr

254B

模型簡介

TAIDE計畫致力於開發符合台灣語言和文化特性的生成式人工智慧對話引擎模型，同時建構可信任的人工智慧環境。結合產學研能量，推動可信任生成式人工智慧的發展，提升台灣在國際競爭中的地位，促進產業發展，避免對外國技術的依賴。
Llama3 TAIDE 系列模型以 Meta 公司釋出的 LLaMA3-8b 為基礎，導入台灣不同領域可用的文本與訓練素材，提高模型在正體中文回應的能力與特定任務的表現。公開釋出的模型如下:
- Llama3-TAIDE-LX-8B-Chat-Alpha1: 以 LLaMA3-8b 為基礎，使用繁體中文資料預訓練 (continuous pretraining)，並透過指令微調(instruction tuning)強化辦公室常用任務和多輪問答對話能力，適合聊天對話或任務協助的使用情境。Llama3-TAIDE-LX-8B-Chat-Alpha1 另外有提供4 bit 量化模型，量化模型主要是提供使用者的便利性，可能會影響效能與更多不可預期的問題，還請使用者理解與注意。

模型參數

參數量: 8B
最大內容長度 (context length): 8K
繁中訓練資料 token 量: 43B
訓練時間: 2336 H100 GPU Hours

特色

嚴格把關模型的訓練資料，提升模型生成資料的可信任性和適用性
針對自動摘要、寫信、寫文章、中翻英、英翻中等辦公室常用任務做加強
針對台灣在地文化、用語、國情等知識做加強
具備多輪問答對話能力

應用範例

任務	使用者輸入	模型輸出
寫文章	請以以下內容為基礎，寫一篇文章：撰寫一篇作文，題目為《一張舊照片》，內容要求為：選擇一張令你印象深刻的照片，說明令你印象深刻的原因，並描述照片中的影像及背後的故事。記錄成長的過程、與他人的情景、環境變遷和美麗的景色。	一張舊照片，承載著時光的痕跡和回憶的溫度。我還記得那張照片是怎麼出現的，那是一張泛黃的黑白相片，裱在牆上，訴說著一段屬於我家族的故事。那張照片中，我的祖父母站在田野間，後方是綿延的山巒，前方則是一片金黃的稻田。這幅景象令我印象深刻，因為這是我的童年回憶，也是我成長過程中最美好的風景線。我出生在台灣鄉下，從小就生活在這樣一個純樸的環境中。每當我跟著家人在田裡工作時，就會看到這樣的美景。金黃的稻穗隨著微風搖曳，山巒則靜靜地矗立在遠方，給人一種安詳與祥和的感覺。那張照片拍攝於民國50年代，當時台灣經濟尚未起飛，農業為主要產業。我的祖父母都是農民，他們辛勤耕種，為我們家提供溫飽。每當我看到那張照片，就會想起他們為我們所做的犧牲和努力。除了美麗的風景外，照片中還有一段動人的故事。在我還很小的時候，家裡發生了一場大火，將我們的房子和所有財產都燒光了。幸好全家人都平安無事，但生活卻變得十分困苦。我們被迫搬到另一個村莊，在那裡重新開始生活。那張照片也記錄了那段艱辛的歲月。雖然我們失去了許多東西，但家人之間的感情卻更加深厚。我們互相扶持，共同面對生活上的種種挑戰。如今，我已長大成人，在都市裡工作。但每當我看到那張舊照片，我都會想起那段簡單而美好的時光。那些美麗的風景、親人的笑容，以及那段充滿挑戰卻又充滿希望的日子，都將永遠鐫刻在我的記憶深處。這張舊照片，不僅僅是一張照片，更是一個寶貴的家族史，一個關於我們如何克服困難、珍惜現在的故事。我將把這張照片好好保存下來，讓後代也能夠認識我們的根源，並且銘記那些值得珍藏的美好回憶。
寫信	請以品牌經理的身份，給廣告公司的創意總監寫一封信，提出對於新產品廣告宣傳活動的創意建議。	[您的姓名] [您的職稱] [您的公司名稱] [郵件地址] [電話號碼] [發文日期] [創意總監姓名] [廣告公司名稱] [廣告公司地址] 主旨:關於新產品宣傳活動創意發想，請查照。尊敬的[創意總監姓名]，我希望這封信能找到你忙碌中好好休息。我寫這封信，是為了分享我對於我們即將推出的新產品宣傳活動一些創意發想。我深信，這些想法能幫助我們新產品在市場上脫穎而出，吸引消費者的目光。首先，我建議我們可以利用社群媒體平台，像是Facebook、Instagram、YouTube等，製作一系列引人入勝的短片和貼文。這些內容可以展現新產品的特色和優點，同時也能傳達出我們品牌重視環保、健康的核心價值。我們可以與網紅或意見領袖合作，讓他們試用並分享他們的使用經驗，這將有助於增加我們產品的可信度和能見度。其次，我們可以舉辦新產品試吃/試用活動，邀請民眾親身體驗我們的新產品。我們可以在各大百貨公司、超市、以及我們的門市舉辦這些活動，讓參與者免費試吃/試用新產品，並填寫問卷回饋意見。這種互動的方式，不僅能收集到寶貴的市場反饋，還能讓民眾對我們的品牌產生正面的印象。第三，我們可以與當地餐飲業者合作，將我們的新產品納入他們的菜單中。這將使我們的產品接觸到更廣泛的客群，同時也能證明我們的產品在烹飪和美食產業中具有價值。第四，我們可以舉辦一場新產品發表會，邀請媒體、業界人士、以及重要客戶參加。在這場活動中，我們可以展示新產品的各項特色和優勢，並由專業廚師示範如何將新產品融入各式料理中。這將是向大眾展示我們品牌創新精神和專業能力的絕佳機會。最後，我建議我們可以製作一系列精美的包裝和禮盒，以吸引消費者在節慶和送禮時選擇我們的產品。精緻的包裝將能提升我們產品的價值感，同時也能傳達出我們品牌對細節和品質的堅持。我深信，這些創意發想將有助於我們新產品在市場上獲得成功。若您對這些想法有任何意見或建議，請不吝與我分享。我期待著與您合作，共同為[您的公司名稱]的成長和成功而努力。謝謝您抽空閱讀我的信，並期待著與您進一步討論這些想法。敬禮 [您的姓名] [您的職稱] [您的公司名稱]
摘要	請將這篇文章精簡條理化:「產業創新條例第10條之2及第72條條文修正案」俗稱「台版晶片法」,針對半導體、電動車、5G等技術創新且居國際供應鏈關鍵地位公司,提供最高25%營所稅投抵優惠,企業適用要件包含當年度研發費用、研發密度達一定規模,且有效稅率達一定比率。為因應經濟合作暨發展組織(OECD)國家最低稅負制調整,其中有效稅率門檻,民國112年訂為12%,113年料將提高至15%,但仍得審酌國際間最低稅負制實施情形。經濟部官員表示,已和財政部協商進入最後階段,除企業研發密度訂在6%,目前已確認,企業購置先進製程的設備投資金額達100億元以上可抵減。財政部官員表示,研商過程中,針對台灣產業與其在國際間類似的公司進行深入研究,在設備部分,畢竟適用產創10之2的業者是代表台灣隊打「國際盃」,投入金額不達100億元,可能也打不了。至於備受關注的研發費用門檻,經濟部官員表示,歷經與財政部來回密切討論,研發費用門檻有望落在60億至70億元之間。財政部官員指出,研發攸關台灣未來經濟成長動能,門檻不能「高不可攀」,起初雖設定在100億元,之所以會調降,正是盼讓企業覺得有辦法達得到門檻、進而適用租稅優惠,才有動力繼續投入研發,維持國際供應鏈關鍵地位。經濟部官員表示,因廠商研發費用平均為30、40億元,其中,IC設計業者介於30億至60億元範圍,若將門檻訂在100億元,符合條件的業者較少、刺激誘因不足;此外,若符合申請門檻的業者增加,將可提高企業在台投資金額,財政部稅收也能因此獲得挹注。 IC設計業者近日頻頻針對產創10之2發聲,希望降低適用門檻,加上各國力拚供應鏈自主化、加碼補助半導體產業,經濟部官員表示,經濟部和財政部就產創10之2達成共識,爭取讓更多業者受惠,盼增強企業投資力道及鞏固台灣技術地位。財政部官員表示,租稅獎勵的制定必須「有為有守」,並以達到獎勵設置目的為最高原則,現階段在打「國內盃」的企業仍可適用產創第10條、10之1的租稅優惠,共同壯大台灣經濟發展。經濟部和財政部正就研發費用門檻做最後確認,待今明兩天預告子法之後,約有30天時間,可與業界進一步討論及調整,盼產創10之2能在6月上路。	文章重點摘要如下: - 「台版晶片法」或《產業創新條例第10條之2及第72條條文修正案》，旨在鼓勵關鍵技術創新企業，特別是那些在半導體、電動車、5G技術等領域且在國際供應鏈中扮演關鍵角色者。 - 企業若符合特定條件，包括當年度研發費用及研發密度達標，可享最高25%的營所稅抵減優惠。研發密度目標設為6%，而企業為取得抵減，必須證明其有效稅率達到特定比率，起初設定為112年的12%，113年提高至15%，但可能會依國際稅制的實施情形進行調整。 - 政府在制定政策時，考量到OECD最低稅負制的調整，因此會視情況調整有效稅率門檻。 - 政府部門已就法案內容與企業利益相關者進行協商，確定一些細節，例如企業投資先進製程設備的門檻設為100億元新台幣以供抵減。 - 研發費用門檻經過討論，可能從最初提議的100億元下調至60億至70億元之間，以激勵更多企業符合資格並投入研發，維持台灣在國際供應鏈中的關鍵地位。 - 經濟部官員表示，調降門檻的目的是讓更多企業覺得能夠達成標準，從而獲得應用租稅優惠的動力，並可能藉此提高在台投資金額，進而增加政府稅收。 - 由於IC設計業者的研發費用普遍較低，若門檻設得過高，符合條件的企業將很少，因此有必要調整。 - 在各國推動供應鏈自主化並增加對半導體產業的補助之際，經濟部正努力確保更多企業能從《產業創新條例》第10條之2中受益，以增強投資和鞏固台灣的技術地位。 - 政府強調租稅優惠的制定應符合獎勵目標，在此同時，也將繼續提供其他租稅優惠給在國內經營的企業，以促進台灣經濟成長。 - 最終的研發費用門檻將由經濟部和財政部共同確定，在預告相關子法後，將有約30天的時間供各界討論並提出調整建議，目標是讓這項新政策在6月上路。
翻譯	以下提供英文內容，請幫我翻譯成中文。Dongshan coffee is famous for its unique position, and the constant refinement of production methods. The flavor is admired by many caffeine afficionados.	東山咖啡以獨特的位置，加上不斷精進的製作手法而聞名，風味更是讓許多咖啡癡趨之若鶩。

使用說明

範例程式
- 範例程式與文件後續會釋出到github
prompt 樣版
- 一般問答用法
```
chat = [
    {"role": "user", "content": "{question}"},
]
prompt = tokenizer.apply_chat_template(chat)
```
  - 將 {question} 替換成使用者的輸入
- 加入 system prompt 的用法
```
chat = [
    {"role": "system", "content": "{sys}"},
    {"role": "user", "content": "{question}"},
]
prompt = tokenizer.apply_chat_template(chat)
```
  - 將 {sys} 替換成指令，例如：你是一個來自台灣的AI助理，你的名字是 TAIDE，樂於以台灣人的立場幫助使用者，會用繁體中文回答問題。
  - 將 {question} 替換成使用者的問題
- 多輪問答用法
```
chat = [
    {"role": "system", "content": "{sys}"},
    {"role": "user", "content": "{question1}"},
    {"role": "assistant", "content": "{model_anwer_1}"},
    {"role": "user", "content": "{question2}"},
]
prompt = tokenizer.apply_chat_template(chat)
```
  - 將 {sys} 替換成指令，例如：你是一個來自台灣的AI助理，你的名字是 TAIDE，樂於以台灣人的立場幫助使用者，會用繁體中文回答問題。
  - 將 {question1} 替換成使用者的問題1
  - 將 {model_anwer_1} 替換成模型的回答1
  - 將 {question2} 替換成使用者的問題2
- 更多細節請參考Llama3 文件

訓練方法

軟硬體規格
- 國網中心 H100
- 訓練框架: PyTorch
資料前處理
- 字元標準化
- 去除重覆
- 去除雜訊
  - 網頁資料的html tag、javascript
  - 非標準字元或亂碼
  - 字數過短的文章
  - 去除文章中的特定格式，如為排版增加的換行
- 去除個資，如email、電話
- 去除不當文字，如賭博、色情等
持續預訓練 (continuous pretraining, CP)
- 補充大量來源可信賴的繁體中文知識
- 超參數 (hyper parameters)
  - optimizer: AdamW
  - learning rate: 1e-4
  - batch size: 1M tokens
  - epoch: 1
微調 (fine tune, FT)
- 讓模型可針對繁體中文提問回答問題
- 超參數 (hyper parameters)
  - optimizer: AdamW
  - learning rate: 5e-5
  - batch size: 256K tokens
  - epoch: 3

訓練資料

持續預訓練資料(資料量約為140G) | 資料集 | 資料描述 | | — | ——– | | 訴訟資料 | 《司法院裁判書》自2013年1月至2023年12月各級法院民事、刑事、行政訴訟資料。 | | 中央社 | 《中央社中文新聞》資料集含中央社自1993年6月至2023年06月，共30年份之每日新聞文章。內容涵蓋國內外政治、社會、財經、文教、生活等領域。 | | ETtoday 新聞雲 | 《ETtoday新聞雲》資料，包含自2011年10月至 2023年12月的資料。 | | 立法院公報 | 《立法院公報》包含自第8屆第1會期至第10屆第7會期之公報資料。 | | 出版商網站書籍介紹 | 包含三采、Gotop出版商網站上的書籍簡介。 | | GRB 研究計畫摘要 | GRB為收錄由政府經費補助之研究計畫及其成果報告的資訊系統，此資料集主要收錄 1993年至 2023年之研究計畫摘要以及研究報告摘要，含中文及其英文對照。 | | 學術會議論文摘要 | 收錄《學術會議論文摘要資料庫》中自1988至2009年由台灣所舉辦之學術會議論文。 | | 光華雜誌 | 《台灣光華雜誌》含自1993年7月至2023年6月的文章，共30年份。內容著重於我國文化、觀光與民情等。 | | 樂詞網 | 《樂詞網》涵蓋文理領域約187萬則學術名詞及其譯名對照。 | | 各部會資料 | 包含行政院「國情簡介」、文化部「國家文化記憶庫」、國發會「檔案支援教學網」、交通部「交通安全入口網」等部會網站資料之部分資料。 | | 今周刊 | 《今周刊》為一以財經為主的週刊雜誌，此資料集涵蓋2008年1月至2023年7月的文章。 | | 教育部國語辭典、成語辭典 | 包含以下三項資料:
教育部《成語典》，含5,338條成語，內容包含每條成語的釋義、典故原文及其白話說明、用法說明、例句等。
教育部《重編國語辭典修訂本》，收錄中文單字及各類辭彙，包含讀音、部首、釋義等資訊，共約165,539筆資料。
教育部《國語辭典簡編本》，為《重編國語辭典修訂本》的簡編版本，共45,247筆資料。 | | 科技大觀園資料 | 含《科技大觀園網站》上的科學新知以及科普文章。 | | iKnow 科技產業資訊室 | 《科技產業資訊室（iKnow）》提供台灣及全球的科技市場趨勢、策略分析、專利知識，及技術交易資訊，專注於科技產業的創新與發展，包含自 2008 年至 2023 年。 | | 科學發展月刊 | 《科學發展月刊》為國科會為推廣科學教育而出版的科普刊物，含自2004年10月至2020年12月之科普文章；2021年起，以《科技魅癮》季刊重新出發，提供國際關注科技議題的新知文章。 | | 法規資料庫 | 《法規資料庫》含截自 112 年 10 月各政府部門最新發布之中央法規、行政規則、法規命令草案及地方自治法規等。 | | 各地政府旅遊網 | 涵蓋台灣部分縣市地方政府觀光旅遊網站上之部分資料。 | | 國教院課程綱要(十二年國教) | 含十二年國教課程綱要之總綱以及各級學校不同科目之課程綱要。 | | 中央社譯名檔資料庫 | 《中央社譯名檔資料庫》蒐集中央社新聞業務上翻譯過的中外姓氏、人名、組織、地名等譯名對照。 | | 童話書 | 共 20 本童話書，含湯姆歷險記、小飛俠、愛麗絲夢遊仙境、長腿叔叔等。 | | RedPajama-Data-V2 | 從國外開放多國語言語料庫 RedPajama-Data-v2 取出英文資料 | | MathPile-commercial | 國外開放數學語料庫 MathPile-commercial | | 中文維基百科 | 《中文維基百科》截至2023年1月所有條目的內容。 | | github-code-clean | 為 github 開源程式碼資料集，去除unlicense的程式碼和文件。 |
微調資料
- TAIDE團隊訓練llama2系列模型來產生微調資料資料，產生的任務包含世界知識、創意寫作、普通常識、翻譯、摘要、程式、台灣價值等單輪或多輪對話問答共 128K 筆。微調資料後續會對外釋出。

模型評測

taide-bench
- 評測資料
  - 寫文章、寫信、摘要、英翻中、中翻英，共500題
  - 資料連結: taide-bench
- 評測方法
  - gpt4評分
  - 評分程式: taide-bench-eval
- 評測分數 | 模型 | 中翻英 | 英翻中 | 摘要 | 寫文章 | 寫信 | 平均 | | — | —– | —– | —- | —- | —- | — | | Llama3-TAIDE-LX-8B-Chat-Alpha1 | 7.770 | 8.280 | 8.495 | 9.605 | 8.950 | 8.620 | | GPT3.5 | 8.880 | 8.810 | 7.450 | 9.490 | 8.750 | 8.676 | | TAIDE-LX-7B-Chat | 7.165 | 7.685 | 7.720 | 9.635 | 9.110 | 8.263 | | LLAMA2 7B | 6.075 | 4.475 | 5.905 | 2.625 | 3.040 | 4.424 | | LLAMA2 13B | 6.480 | 6.135 | 6.110 | 2.565 | 3.000 | 4.858 | | LLAMA2 70B | 6.975 | 6.375 | 6.795 | 2.625 | 2.990 | 5.152 |

授權條款

Llama3-TAIDE 模型社群授權同意書

免責聲明

LLM 模型由於設計架構的限制，以及資料難免有偏誤，語言模型的任何回應不代表 TAIDE 立場，使用前需要額外加入安全防護機制，且回應內容也可能包含不正確的資訊，使用者請勿盡信。

開發團隊

https://taide.tw/index/teamList

Citation

TAIDE官網