數學AI的底層核心
數學AI的底層核心運作模式:
目前的AI主流以機器學習發展出來的演算法為和心,屬於端到端的技術,我們無法知道中間過程發生甚麼事情,即使程式人員與科學人員使用大量的數學模型,或他們稱之為的模型,也無助於我們去「驗證」人工智慧。
如果人類的腦袋可以分為一定比例的感性與一定比例的理性,那麼大型語言模型可能屬於較高的感性比重。當微軟準備推出以文字為主的「指令工程」時,這代表文學院等的科系應該要崛起,走向「工程」路線。
但還有一群人正在努力解決端到端技術的黑盒問題,因為不能驗證代表不符合數學與科學精神。他們重新思考人工智慧該有的底層核心,回到了1950年代迄今都無法解決的數學問題(含機率與統計),卻深深影響人工智慧發展。
他們提出了:所有的數據都該轉為數學模型結果,即以數學式表現。即使我們普遍認為人工智慧以機率和統計有絕大關係,但更本質與核心的部份應該是回到數學。
而數據驅動為主的大數據與人工智慧,這是從數據挖掘到大數據,再到人工智慧,始終沒有做出來的測定數據規律!無論是數據分析師、大數據分析師、資料科學家、電腦科學家等在延續數據挖掘的方法以來,始終從「數據特徵」下手。
數據規律與數據特徵的差異在於數據規律會產生數學式,而數據特徵可能是數據經過轉換,成為係數指標方式,讓人類認為他們發現了數據特徵。這決定了人工智慧兩派人的發展方向差異。
現在就讓我說明數學AI的底層核心運作模式吧。
1. 非數字轉數字 / 跳過此階段
- 第一步是針對數據類型進行全面的數字化,即使是文字或圖像或影片都能轉換成數字表示。
- 為什麼文字、圖像、影片都要轉為數字代號呢?因為文字、圖像、影片都具有排序規律,所以原本文字、圖像、影片都無法使用數字型的分析方法,在轉換為數字代號後,變成數字代號排序。這樣才能進入到數學模型表示。
- 建立精準的數學模型可以分為兩類,一類是只有一條數學式結果,另一類則是採愈多條數學式結果。
- 第一類以2021年的台指期精準見模論文最具代表性。
- 第二類請參加即將釋放的AI數據分析人才認證研習活動內容,了解詳情。
3. 數學模型做模擬
- 很多的大學理工課程中都有「數值模擬」的內容,不過這類數值模擬通常會用亂數或排序數字生成基數(類似自變數),然後經過數值模擬的數學式產生圖形。
- 如果是人工智慧的數據規律數學模型,則真實存在隨機性。所以你不只是在模擬第二點,你還得對這隨機性的誤差進行模擬。
- 一般對隨機性的模擬都是先將誤差打出直方圖。透過觀察,主觀判斷。這不適合人工智慧,並且過程中還有人為造成的錯誤,加深誤差模擬的失真。
- 做法上,誤差同樣要經過第二點的建模,差別是這樣的模型稱為機率模型。
- 當有了誤差的機率模型與數據規律數學模型的數學式後,才能真正做到「模擬」!
4. 模擬結果與原數字規律做比對(用強大數法則)
- 目前常用方式是多次的模擬與原數字做比對,產生正確比例的準確率(Accurancy)。但這樣的做法並沒有數學/統計意義。
- 王冠先與李玫郁2015年開始公布的書籍或報告書都使用強大數法則為模擬值與原數字進行比對。這樣的做法才具有數學/統計意義。同時也代表有驗證的機會。
- 第一點只是一個數字,沒有意義。第二點是整體做比較,並有多個差異的誤差與機率,具有可信度。
5. 增加新數字,改變規律
- 人工智慧是開放的數據集。在數學上稱為「開集合」。
- 多數的數學理論或統計理論都是基於「閉集合」數據集。
- 當我們使用第二點來研究第一點時,數學該調整或增加的判斷就需要產生。如果沒有產生,那麼就會是現行的人工智慧端到端技術黑盒。特別是訓練的數據集不可變一事已經是限制了人工智慧的使用。
- 後續有人說人工智慧開放數據集可更新,使用者需要的資訊都能即時聯網獲得。這裡就要存疑:這樣的情況是人工智慧演算法能更承受的嗎?原參數能支撐正確性嗎?
6. 新數字規律找精準數學模型
- 在數學與科學精神與架構下,新的數字進入數據集,我們就要重新跑數據規律。
- 結果很可能只有最新的規律改變,也可能某段數據期間的規律全部改變。
- 不可否認的是新數字進到數據集就是要重新建立數據規律的數學模型。
7. 比對新數字位置的數學模型與原數字規律的數學模型差異
- 新數字的數據規律結果可以與先前的結果進行比對。可能是數據規律的數學模型函數改變,可能是係數改變。這得看你使用的數學模型為何。
8. 判斷:調整為新的數學模型或切割數字產生新的規律
- 原本人類做運算與判斷的任務,全由AI進行。
反覆上述動作
---
附註:
以上概念有版權保護。引用或使用到程式中,需先與版權方聯繫。
這裡指的模型都是有數學式結果。