你做不到對沖基金的數據分析,至少還有簡易且有效版的方法

當我們看著全球最賺錢的對沖基金經理James Simons說他的公司運用數學的知識破解了股票市場,令他1年內賺到120億的利潤時,他所提到的那些資料來源,以及數據,讓我不禁懷疑:不同衡量時間的數據如何放在一起?

當然可以使用平均法或是加權平均法讓那一年數據切割成12個月,甚至是365天的數據。只是在這樣做的同時,他們必須將過去365天的每日數據先行取得,然後建模,最後將真實的每年財報數據進行切割後才能獲得貼近真實的數據切割。

而他在說公司有使用機器學習去做交易預測時,其實這跟機率的臆測是相同的。不過他在說明一個反常的型態訊號很可能是隨機現象,但當數據量大的時候就會顯示反常的特徵。這件事情時合理的。當我們只用100天的數據量去分析時,你不會碰到2008年的金融海嘯,也不會碰到2009到2013年持續的QE政策影響情況。所以,這樣的100天數據只是反映這100天曾經發生的事件對股價指數造成的影響。

那如果有些意外發生呢?例如從過去到現在從未發生過全球性的瘟疫蔓延,那麼數據能夠預測這件事情嗎?肯定不行!於是當這樣的疫情造成經濟停頓後,有人開始以歷史上曾經股市重挫的那些時期事件來進行比對。可是他們都遺忘了:事件原因不同可能造成相同結果,我們不能從結果反推原因,然後依此說接下來的衰退會經歷18週或是多少週。

例如很多人喜歡使用金融海嘯期間和這次的疫情期間進行比對,然後說應該是V型反轉。可是時空背景不同,成因不同,以及金融海嘯前市場上的資金沒有那麼多,這次疫情期間的市場資金不僅寬裕還加上了各國政府還未見經濟谷底就已經大量釋放資金。這樣的資金浮濫情況,和2008年那次的金融海嘯相比,其實沒有任何意義。

另外,如果你使用機率空間去解析這兩個事件,同樣也能發現,兩者並無相比性。一切都是人們試圖使用過往經驗的經驗法則來解讀這疫情與後疫情時期的情況。至於你說會不會準確,很多事情都是人為去營造出來的。

為什麼這樣說呢?雖然數據分析很好,但James Simons和TED主持人所提到的那數據資料庫內容,各種的數據都有,有的有關,有的無關。因為你不知道是否就是這些無關的數據卻變成了有關的數據。

你該知道的相關概念

那就讓我回頭來說說,有關與無關吧。所謂的有無關係,其實就是這些數據的關聯性。那麼我倒底怎麼衡量這些關聯性呢?受限於人類的思考範圍,通常都是架構在直線型的關係上,所以我們總是常見股價走勢圖上,分析師喜歡用直線畫拉出趨勢線、頸線、支撐線和壓力線等。

但是各位朋友們有沒有發現,沿著這些線碰觸到的點是不是最多的?好像不是這麼一回事吧!另外,分析師畫拉這條線時對於時間段的選擇好像都沒有特別要求,有的分析師或許有,但多數看起來似乎不是如此。也就是說當那條線被畫出後,其實點都在線的附近波動著。這跟經濟學的景氣循環一模一樣!

那至於其他的線型,就算了吧。所以所謂的有關或是無關,也是架構在「直線」關係上。所以才會有「相關係數」的存在,做為表示兩組數據之間的關聯性高低。可是當多組數據出現,又該如何呢?這時候就會使用「相關係數矩陣」來表示。

你可以怎麼做

讓我回到這些具有時間性的財務數據上吧。這些財務數據在被蒐集時就已經被設定好蒐集的時間點,所以有秒、分、日、週、月、季、年等。這些深受時間點記錄的數據是無法同時被擺弄在分析上的。例如,一組數據是日記錄,一組數據是年記錄,所以365天的日期上,只有12月31日出現另一組數據的年記錄,其他都是空白。試問你光是數據就有問題,還談何找相關。所以有人就將日的記錄數據可能做年平均後,形成一個數字,這樣就變成年度資料。再來跟另一組的年記錄進行分析。

可是那是對沖基金,每天都在交易的!你將數據全部轉成年,難道一年做一次交易?哈~~這是不可能的!所以他們必須將時間切割到非常地小,以極短期的交易去累積大量的財富。因此,另一種方法就是全部都是日資料的數據放在一起,然後進行分析。如有需要其他更長時間記錄得到的數據就變成像特殊事件一樣。這是一種處理數據與分析的方法!

根據上方的說明相關係數其實可以幫助你很多,只是你要每天做而已。我介紹兩種種方法。

第一種是固定數據的資料量,例如近100天的數據量,然後以此100天將之扣除最早期的每10天數據,跑一次相關係數值,然後就能得到這近100天內,愈接近現在的兩組數據之相關係數變化。

你也可以每扣除一天就跑一次相關係數!接著如同下圖一般,將之繪製出其走勢比對圖。

2020年1月14日(台股收盤指數最高點) ~2020年3月13日的 樣本相關係數=0.916107,代表關係十分密切

那麼我們怎麼解讀這樣的數據呢?相關係數的特性就是兩組數據的相關有多高,如果有很強烈的相關,那麼數值就會趨近正負1。例如上圖就是91.6707%的高度正相關,代表台股大盤收盤指數和道瓊工業指數在這段資料期間有著強烈的同向走勢。如果美股漲,那麼我壓台股漲的機會就有91.6707%。

但是請注意到這是根據這段時間的數據計算得到的相關係數,如果你改變的時間長度就會造成相關係數不同,例如,下圖較長的時間就得到85.2156%的高度同向的相關程度。




第二種的話就是時間長度會改變的方法。我們一樣是近100天的數據在資料庫內,然後從最近的10天數據開始計算相關係數,接著在增加歷史資料進來,例如一組數據每次增加10筆數據,再計算相關係數[參考 Psccc_機率與統計 粉絲專頁的置頂文]。我稱這個為【股市動態資訊分析】,透過時間的改變,但你仍要看到整體的走勢樣貌,輔以數據結果,幫助投資人做出數據之間的關聯性。這不僅可以培養投資人對股市的股感外,還能夠判斷出
  • 哪些個股是跟著大盤走
  • 哪些個股是跟著國外股市走
  • 哪些個股是反向走法
再使用時間差,如同美股和台股特性,美股總是先收盤,我們可以根據美國去判斷台股的漲跌。這種時間差在相關係數當中,能夠幫助我們提前作預判。所以,雖然我們無法像對沖基金或是外資大戶等獲得很多的數據分析結果,但其實你在大學,甚至是現在的高中(職)程度就能夠使用如此簡單、方便、易懂的概念,建立你的投資股票清單,以及預判能力。