別搞科學,因為現在的科學不是你認識的科學:數學建模生,數學建模死,數學建模不再撞大牆

簡單點的數據驅動數學建模,通常以迴歸直線模型為主。有些人認為一切的變量經過轉換都能用直線解釋。但遇到大數據和人工智慧(Artificial intelligence)時,兩者都以數據驅動為主,對數據的精準是要還原回數據本身。這就是為什麼他們只考慮直線模型或者如可以降為到以線性代數的直線模型這類的數學。我們以為他們的模型很多樣(variety),但實際上在大模型的形態下就已經限制並拒絕了「模型選擇」這條路線。



為什麼我們要做數學建模呢?

任何數據都是可以建構數學模型的,也就是做數學建模。而這個數學建模得符合科學精神與原則,也就是可以被驗算。想要被驗算,那就得有數學結果。這點倒是可以做到。對數據做數學建模的目的就是讓數據特徵或規律可以客觀地表現出來,讓我們(人類)可以驗算與解讀。


但是這數據建構的數學模型是我們(人類)先預設數學模型,然後將數據導入,然後看模型的適配度?還是,我們放手讓數據自己選模型,不要預設?


後者在過去甚至美國主流大數據技術時期是無法做到的。你問我為什麼會做不到,我只能回答你:思路不同,最後走向的地方就不同。當時美國已經開發出機器學習與其延伸的技術,專家、學者、權威在全球各地大推這些技術,認為這些技術是革新,是未來。


大數據分析技術對統計套裝軟體公司是災難

大數據分析技術對傳統統計套裝軟體的公司來說則是場災難!因為「統計學真的不是大數據分析的工具」,這裡的工具是指統計套裝軟體,當然也不是基於統計模型的程式語言函式庫。


很多人都誤解這點,以為程式語言就是大數據分析的工具。正確來說,大數據的「大」已經彰顯大數據分析和一般的數據分析不同。簡單地說,你做大數據的分析過程中有沒有在一開始將數據進行分布的檢查呢?這個分布檢查可不是只檢查常態分配(Normal distribution)。早在2014年左右已經有人以C語言寫出數據的分布檢查可超過78個分布,並且被公布在網路上,但並沒有獲得反響。反而是國外的學者以Python做出來的函式庫被推崇。


這讓人很遺憾!遺憾的原因是更早之前其實有人做出來了,並且跑得非常快。但因為是使用C語言寫的,所以沒人認為是正確的。當然背後也是因為沒有人背書,加上不出名就石沉大海。


現在的AI數據分析也是一樣。即使有英文書籍,卻也乏人問津。畢竟誰願意那麼大的飯碗被人端走是吧?所以,為什麼中國反而很可能在人工智慧領域瞬間崛起,只要他們少受大模型的洗禮,運用他們的數學人才在數據上,反而有機會彎道超車。


過去,傳統統計套裝軟體公司甚至連圖像視覺都無法合併到軟體當中,而是要成為客製化服務套件。現在傳統統計套裝軟體公司號稱軟體內有著人工智能的模型或者可以做大數據分析,這裡指的是神經網路系列模型、機器學習系列模型等。畢竟這些模型背後的基礎模型都是來自統計為主。


數學建模的重要性

再從大數據分析談回數學建模。數學建模其實是數據分析的基礎。一旦我們能夠將數據的特徵與規律用數學表現,當然這裡不是只一個數值,或數個數值座代表那種,即使說人工智慧的核心是機率(Probability),那機率和數值之間也是函數形式,是數學模型,可不是一個值或數個值。


所以數學建模不單單是我們過去高中所學的函數觀念,這個函數的變化是多樣的,是千千萬萬種。這就是為什麼我前面說了數學建模沒走的「模型選擇」路線。在統計學迴歸分析中也有這個問題。因為迴歸分析預設直線,但數據未必是直線,所以要將自變量(Independent variable)轉換,讓轉換後的自變量和應變量具有強烈的直線關係。


當然教科書上寫的是Y = H(X) = a + b f(X) 這種形式,將f(X) = X^2。這裡我要特別提到課本並沒有說到的部分:你怎麼知道平方後就與應變量有強烈直線關係?


我當初在學校學習時,老師使用課本上課,所以課本說什麼就是什麼。不知道正在看這篇文章的你是否也有這種感覺與懷疑:課本說平方就平方嗎?難道不會是其他數學函數嗎?


因為後面的變異數異質性的檢定也是基於平方概念下進行,所以如果你盡信課本內容,就會進入誤區。


另一個就是老師說用眼睛看就看得出來。那我也能跟你分享:你用Excel的散布圖打出數據後,加上趨勢線,每個函數形式都用一下,看哪個好就用哪個!


你看這不是相似的說詞嗎?可這樣做符合科學的「客觀」原則嗎?還是科學嗎?原來我用「觀察法」就能做到,那我幹嘛學數學,課本上幹嘛要出現那些公式?


所以,既然大數據分析、數學建模都是來自科學,那麼就要符合科學精神與原則,你在觀察與比對就要客觀點,而不是一個用眼睛看就可以成功的做法。


思維的碰撞


即使你是在國立的大學學習,那也會遭遇相同的事情。所以只有你有沒有遇到好老師,沒有說你有沒有遇到好學校!選名校又如何,沒有真的好老師願意教,你是沒辦法學到真的實用的知識。另外,我也看過學生家長在那邊說國立大學的老師多優秀,有那麼多的學術成果,有那麼多的論文產出。我是在旁邊看的路人,所以沒有當場發表言論。但我自己也是國立大學畢業的,如果那些老師真的那麼厲害,那這些個家長應該看到我們台灣應該要有自己的統計套裝軟體,有自己的通訊軟體,有自己的手機OS,有自己的社群平台,有自己的直播平台,有自己的大語言模型,有自己的所有一切一切。


你怎麼會在用YouTube,怎麼會用號稱香港來的創課課程平台,怎麼會用line,怎麼會用蘋果手機,怎麼會用Google雲端硬碟的文件、簡報和試算表。這些專家與學者都沒有能力開發出這些,甚至連複製的能力都沒有,你怎麼會認為他們有多優秀。他們只能算是應用人員。我不敢說每個專家學者都這樣,但多數的專家學者都這樣。那麼你的孩子在一個比較多教學型老師的學校,又哪裡不好了?


現在的「科學」是神壇?還是真的是科學?

基於數學建模的重要性,那麼你可以看到這些人,甚至號稱全球1%的頂尖人員,他們做出來的學術成果真的是能給你看到數學建模的結果嗎?即使看到了,就像做預測的人就會說ARIMA非常好用。但真的是如此嗎?就像我們看到新冠肺炎每日確診人數用直條圖呈現,然後上面給你來個MA(7)的移動平均線,這就叫做有趨勢?這樣符合科學?


如果這樣符合科學,是科技,那我對現在的科學與科技還真是失望。也難怪現在人心惶惶,終日醉生夢死,還說打仗就打仗的言論。


做數學建模的人是要根據科學原則而走,你沒有客觀的結果就沒得談。你的結果讓人找到一個反例,你的結果也是沒得談。為什麼會這樣說呢?如同這節的標題一樣,現在的科學與科技到底發生什麼事情?


在科學部分,真的任人搞不清楚是走「科學」還是走「神學」。原因很簡單。剛剛說到只有能被提出一個反例,或者流程根本不符合其實都是有瑕疵或錯誤的。任何理論與定理都是這樣。以統計學的杜賓–瓦森檢定臨界值表來說就是明顯錯誤。但作者是美國人,並且超過40年來的使用,在教科書上有其獨特的地位,另外在財務分析師的考試也是內容之一。那你說是要推翻掉錯誤,還是繼續沿用?反正前面的人會幫你頂著,所以繼續用下去嗎?


後者這句話也是一名美國東部某知名大學教授說的。他說他是引用這些人的杜賓–瓦森檢定臨界值表和演算法,所以他的統計分析軟體並沒有問題。請那些對此有問題的人去找他引用文獻的作者。所以,這是多強的護盾呀,反正有前人幫忙頂著,再不濟就去找Savin and White。


另外杜賓–瓦森的模型也是直線,所以有序列相關很可能是數據的模型形式錯誤造成。但誰管啊!有誰理會呢?


科學已死,黃天當立

讓我用一下黃巾軍喊出的“蒼天已死,黃天當立。”句型,做為這篇文章的結尾。誠然數學建模是如此重要,但遭遇到的問題也很是很多。想要解決,就像當初人工智慧發展時對計算器的定義就是:解決數學無法解決的問題。而今,我想問:你,計算器,解決數學無法解決的問題了嗎?


按照數學的邏輯和要求,結果要能出現。好笑的是現在都能接受沒有數學結果出現,只要一個數值或數個數值出現,再和前值比對就認為是證據。這是科學嗎?原來我們的科學是這樣的科學?那只要我拿出我跑出來的數據,畫個直條圖,所有人就該相信嗎?


更讓人可笑的是,拿出數據的數學模型結果,做為證據,竟然還乏人問津,無論是美國前五十大的大學教授或是各論文期刊區的主副編輯都是一樣的。他們不願意回應,不願意面對,不願意背書,更不願意驗證。


他們寧可相信知名大學的聲望和社經地位,這是權威的象徵,但不是科學的象徵。很遺憾地,我們生活在這個階層流動性低的時代,背負社會的錯誤道路傷害。


也許有人還會繼續走數學建模這條路,但只要沒有辦法顯示出數學結果的所有成果,你願意相信也好,不願意相信也好,所有人終將為此買單。而數學建模,不再願意為此背鍋。