台灣主權AI

台灣主權AI

問:台灣有多個團隊正在打造AI模型,目前已有成果包括:

國科會:「TAIDE」模型

聯發科:「BreeXe」及「BLOOM-zh」模型

台智雲:「福爾摩沙大模型」

群創光電:「白龍」模型

台大資工系博士生林彥廷:「Taiwan-LLM」模型

Project TAME: 「繁體中文專家模型開源專案TAiwan Mixture of Experts」

iKala:TMMLU+ 驗證集

✅這些模型都是主打以繁體中文語料進行訓練,以能產生流利的繁體中文對話為目標,並強化台灣的人文、地理、歷史和風俗習慣等知識,以方便台灣人直接使用,或是滿足本土企業的生產力需求。

這跟「中推會」在建構的小型語言模型有哪些異同之處?

答:差異非常大 他們是 【微調 Finetune】 國外大語言模型, 中推會是 【預訓練 PerTrain】 的原生純正台灣基底語言模型

中推會的 CMEX SLM 1B 墨奇 Mochi 是

全新從頭訓練起來的 小語言模型

也就是說 從 基本

【台灣主權字集 character set】 最常用三萬多字 可以擴充到十萬字 ( 包含常用字跟罕用字例如 地名罕用子等 華語、台語、客語等漢字跟台語羅馬字(十腔)、客語羅馬字(六腔),原住民羅馬字16族42腔的字集(當然也包含英文,日文平假名片假名、韓文諺文跟符號等) ,當然還可以跟各單位的造字也能結合的 台灣主權字集為核心 發展起來的的

【台灣主權詞彙 vocab】 包含台灣最常用的 11萬 華語、台語、客語詞彙等 合計大約 18萬詞到20萬詞之間,這是最完整涵蓋 包括北車、珍奶 到 中華民國(台灣)等,台灣常用詞彙,當然可以包含 客製化的各政府主權AI,企業主權AI到個人主權AI 的 台灣主權詞彙 以及是由

【台灣主權語料 corpus】 包含台灣教育部字典詞典成語典等課本以及wiki,台灣新聞,社群平台跟台灣opendata等 台灣本國語料 從 頭 預訓練 出來的

也就是 台灣基底 從頭預訓練 出來的模型!

不是拿國外 用大量英文跟少量簡體中文訓練出來的 大語言進行微調 這是截然不同的!

因為 預訓練是 直接生出一個小孩,從出生開始就是用 台灣主權字集、台灣主權詞彙、台灣主權語料 訓練出來的,微調是 在外國長大後,再學習台灣語言,這樣在 思維邏輯跟價值觀本質上就完全不同!後天的學習無法真正改變其核心的 字集、詞彙尤其用來預訓練的基本語料,如同只能化妝或整形試圖改變容貌,只是表面工作,教會模型因應講出不一樣的話!這樣跟 【原生語言模型】(也就是 從頭利用 台灣主權字集、台灣主權詞彙、台灣主權語料 預訓練出來的) 台灣主權AI ,這就是其中最根本的差異!

其實 關鍵是 資安疑慮!這跟 無人機 去紅化(排除 中港澳供應鏈 也就是包含軟硬體零組件)完全相同!

這些用國外大模型微調的模型核心,存在太多黑箱,這是很大的風險!台灣需要 從頭訓練自己的大語言模型,如同 國機國造、國艦國造,以及真正的MIT無人機一樣!台灣主權AI 就是最核心的基底!

主權AI 分為【國家主權AI】National Sovereignty AI、【政府主權AI】Government Authority AI、【企業主權AI】Enterprise Sovereignty AI、【個人主權AI】personality AI,【沒有AI 就沒有主權】這就是 數位主權(Digital Sovereignty)

AI 的 論述權 跟 表示權,包含 人格主權(表示權) 跟 財產主權(使用權),這是 多數人還很陌生的領域!

但是 【沒有AI 就沒有主權】卻很容易理解!在2025開始的AI世界中,政府、企業、個人沒有主權AI,不僅寸步難行,效能低落,更是失去AI主權!

甚麼是「主權AI」?各國語言文字不同,在經濟發展與國家安全的需求,以及美中競爭大環境下,從亞洲、中東到歐美,都需要依據各國與主要社群媒體累積的大數據,建立自己的資料庫與自主人工智慧工具,這是各國投入大筆預算發展AI的主因

台灣同樣需要依照台灣自己的價值觀,依照國家的文化主體性,產生國家主體性語料,也就是台灣本國最常用的語詞跟用字,包括 時間、地名、族群、物品、以及各種事項的主要描述,建立起來的國家主權語料,然後用這個語料來訓練AI人工智慧,目標就是能夠正確理解(超過95%~98%)跟生成最常用的語料,這對於國家的AI產業發展,跟國家的AI競爭力,是最根本的要求,這就是【台灣國家主權AI】

主權AI(Sovereign AI)是一種強調AI技術自主性與控制權的概念,特別針對國家、企業或個人,確保AI系統的開發、部署及運作不受外部勢力干預。它主要關注以下幾個方面:

1. 數據主權:確保AI系統使用的數據由自己掌控,數據的存儲、處理和分析不會洩漏或受到外部國家或企業的影響。這尤其重要在跨國界數據傳輸和雲端計算領域。

2. 技術自主性:建立或使用AI技術時,減少對外部國家或大型科技公司技術的依賴,確保關鍵技術在國內或由自己掌控。這包括AI模型的開發、訓練及運行環境。

3. 法律與合規:確保AI系統在開發和應用過程中,符合本地法律與規範,並避免受到外部國家或區域的法律或規範影響。例如,某些國家可能要求在地化數據存儲或限制特定AI技術的應用。

4. 網絡安全與風險管理:保障AI系統的安全性,防止外部攻擊、間諜活動或數據竊取。主權AI強調建立獨立的安全框架來抵禦外部威脅。

5. 價值觀與倫理控制:確保AI系統在設計和應用中,符合本地文化、倫理與價值觀,並且不會受到外部國家或企業的文化價值觀影響。

所以台灣必需要建立自己的【台灣主權AI】

東昇 李

創造價值夥伴VCP李東昇 「東昇陪你創造價值 」價值經濟研究者、台灣價值推廣者、打賞文化引進者 1ALEXANDROSLEE, 2A好態度與分析力, 3A價值鏈, 4A需求循環,5A行銷漏斗,開始創造價值! 創造價值夥伴VCP李東昇透過操作啟發,陪你面對世界3.0,開發黃金腦,與你一同創造價值!

發佈留言