台灣主權AI

問：台灣有多個團隊正在打造AI模型，目前已有成果包括：

國科會：「TAIDE」模型

聯發科：「BreeXe」及「BLOOM-zh」模型

台智雲：「福爾摩沙大模型」

群創光電：「白龍」模型

台大資工系博士生林彥廷：「Taiwan-LLM」模型

Project TAME: 「繁體中文專家模型開源專案TAiwan Mixture of Experts」

iKala:TMMLU+ 驗證集

這些模型都是主打以繁體中文語料進行訓練，以能產生流利的繁體中文對話為目標，並強化台灣的人文、地理、歷史和風俗習慣等知識，以方便台灣人直接使用，或是滿足本土企業的生產力需求。

這跟「中推會」在建構的小型語言模型有哪些異同之處？

答：差異非常大他們是【微調 Finetune】國外大語言模型，中推會是【預訓練 PerTrain】的原生純正台灣基底語言模型

中推會的 CMEX SLM 1B 墨奇 Mochi 是

全新從頭訓練起來的小語言模型

也就是說從基本

【台灣主權字集 character set】最常用三萬多字可以擴充到十萬字 ( 包含常用字跟罕用字例如地名罕用子等華語、台語、客語等漢字跟台語羅馬字(十腔)、客語羅馬字(六腔)，原住民羅馬字16族42腔的字集(當然也包含英文，日文平假名片假名、韓文諺文跟符號等) ，當然還可以跟各單位的造字也能結合的台灣主權字集為核心發展起來的的

【台灣主權詞彙 vocab】包含台灣最常用的 11萬華語、台語、客語詞彙等合計大約 18萬詞到20萬詞之間，這是最完整涵蓋包括北車、珍奶到中華民國(台灣)等，台灣常用詞彙，當然可以包含客製化的各政府主權AI,企業主權AI到個人主權AI 的台灣主權詞彙以及是由

【台灣主權語料 corpus】包含台灣教育部字典詞典成語典等課本以及wiki，台灣新聞，社群平台跟台灣opendata等台灣本國語料從頭預訓練出來的

也就是台灣基底從頭預訓練出來的模型！

不是拿國外用大量英文跟少量簡體中文訓練出來的大語言進行微調這是截然不同的！

因為預訓練是直接生出一個小孩，從出生開始就是用台灣主權字集、台灣主權詞彙、台灣主權語料訓練出來的，微調是在外國長大後，再學習台灣語言，這樣在思維邏輯跟價值觀本質上就完全不同！後天的學習無法真正改變其核心的字集、詞彙尤其用來預訓練的基本語料，如同只能化妝或整形試圖改變容貌，只是表面工作，教會模型因應講出不一樣的話！這樣跟【原生語言模型】(也就是從頭利用台灣主權字集、台灣主權詞彙、台灣主權語料預訓練出來的) 台灣主權AI ，這就是其中最根本的差異！

其實關鍵是資安疑慮！這跟無人機去紅化(排除中港澳供應鏈也就是包含軟硬體零組件)完全相同！

這些用國外大模型微調的模型核心，存在太多黑箱，這是很大的風險！台灣需要從頭訓練自己的大語言模型，如同國機國造、國艦國造，以及真正的MIT無人機一樣！台灣主權AI 就是最核心的基底！

主權AI 分為【國家主權AI】National Sovereignty AI、【政府主權AI】Government Authority AI、【企業主權AI】Enterprise Sovereignty AI、【個人主權AI】personality AI，【沒有AI 就沒有主權】這就是數位主權（Digital Sovereignty）

AI 的論述權跟表示權，包含人格主權(表示權) 跟財產主權(使用權)，這是多數人還很陌生的領域！

但是【沒有AI 就沒有主權】卻很容易理解！在2025開始的AI世界中，政府、企業、個人沒有主權AI，不僅寸步難行，效能低落，更是失去AI主權！

甚麼是「主權AI」？各國語言文字不同，在經濟發展與國家安全的需求，以及美中競爭大環境下，從亞洲、中東到歐美，都需要依據各國與主要社群媒體累積的大數據，建立自己的資料庫與自主人工智慧工具，這是各國投入大筆預算發展AI的主因

台灣同樣需要依照台灣自己的價值觀，依照國家的文化主體性，產生國家主體性語料，也就是台灣本國最常用的語詞跟用字，包括時間、地名、族群、物品、以及各種事項的主要描述，建立起來的國家主權語料，然後用這個語料來訓練AI人工智慧，目標就是能夠正確理解(超過95%~98%)跟生成最常用的語料，這對於國家的AI產業發展，跟國家的AI競爭力，是最根本的要求，這就是【台灣國家主權AI】

主權AI（Sovereign AI）是一種強調AI技術自主性與控制權的概念，特別針對國家、企業或個人，確保AI系統的開發、部署及運作不受外部勢力干預。它主要關注以下幾個方面：

1. 數據主權：確保AI系統使用的數據由自己掌控，數據的存儲、處理和分析不會洩漏或受到外部國家或企業的影響。這尤其重要在跨國界數據傳輸和雲端計算領域。

2. 技術自主性：建立或使用AI技術時，減少對外部國家或大型科技公司技術的依賴，確保關鍵技術在國內或由自己掌控。這包括AI模型的開發、訓練及運行環境。

3. 法律與合規：確保AI系統在開發和應用過程中，符合本地法律與規範，並避免受到外部國家或區域的法律或規範影響。例如，某些國家可能要求在地化數據存儲或限制特定AI技術的應用。

4. 網絡安全與風險管理：保障AI系統的安全性，防止外部攻擊、間諜活動或數據竊取。主權AI強調建立獨立的安全框架來抵禦外部威脅。

5. 價值觀與倫理控制：確保AI系統在設計和應用中，符合本地文化、倫理與價值觀，並且不會受到外部國家或企業的文化價值觀影響。

所以台灣必需要建立自己的【台灣主權AI】

Written by

東昇李

創造價值夥伴VCP李東昇
「東昇陪你創造價值」價值經濟研究者、台灣價值推廣者、打賞文化引進者 1ALEXANDROSLEE, 2A好態度與分析力, 3A價值鏈, 4A需求循環，5A行銷漏斗，開始創造價值! 創造價值夥伴VCP李東昇透過操作啟發，陪你面對世界3.0，開發黃金腦，與你一同創造價值！

台灣主權AI

答：差異非常大他們是【微調 Finetune】國外大語言模型，中推會是【預訓練 PerTrain】的原生純正台灣基底語言模型

Written by

東昇李

Recommended Articles

【台灣經濟奇蹟】→【台灣民主奇蹟】→【台灣文化奇蹟】這是保衛台灣最好的方法

公標籤 public TAG (語義) vs 私標籤 private TAG (語意)

台灣文化主體論

發佈留言取消回覆

台灣主權AI

答：差異非常大 他們是 【微調 Finetune】 國外大語言模型， 中推會是 【預訓練 PerTrain】 的原生純正台灣基底語言模型

Written by

東昇 李

發佈留言 取消回覆

答：差異非常大他們是【微調 Finetune】國外大語言模型，中推會是【預訓練 PerTrain】的原生純正台灣基底語言模型

東昇李

發佈留言取消回覆