疫情、股價指數與政府 取得連結 Facebook X Pinterest 以電子郵件傳送 其他應用程式 6月 28, 2020 過去(2009~2019)十年期間是各國股市的黃金上漲週期。新冠病毒始於武漢正是封城,拉開序幕。無論其病名為何,都無法讓人忽略「公共衛生危機」對經濟的影響,以及對投資市場的影響。投資是從有那些投資產品開始至今,讓人累積財富與資產的地方,例如,歐美在退休金上的提列與人口基數上,可見退休基金的龐大。這也是在投資市場上非常重要的主力基金之一。又例如,荷蘭退休金制度規模高達1.5兆歐元,曾獲美世投顧公司選為2019年全球最佳退休金制度,讓荷蘭人退休後能保有在職時80%的收入。 閱讀完整內容
[掃雷]談談大數據分析的三個障礙 取得連結 Facebook X Pinterest 以電子郵件傳送 其他應用程式 6月 24, 2020 為什麼會有 大數據分析三個障礙 呢?這些個問題都起源於我們的研究方法問題。在研究大數據分析方法時,很多都是從電腦程式語言的角度出發,試圖將資料進行分類,然後計數,再去做分析。而分析的方法囿限於他們所認知的方法上,就如同我一直提到的,方法有基礎,我們需要從現有的方法上,將方法中的問題點突破,才能串聯起原有方法的真實力量。 閱讀完整內容
[掃雷]預測分析的二三事 取得連結 Facebook X Pinterest 以電子郵件傳送 其他應用程式 6月 23, 2020 我們都在做預測,但是當你做預測時需要考慮什麼事情呢?預測的方法有很多種,特別是從現在主流的機器學習和Python衍伸出的預測分析。不過我不想討論這類偏向程式的預測分析運作,而是想討論我們如果遵循建模需要的變因來考量,那麼或許是不錯的一個角度。 在這邊,我指的變因不只是自變數而已,而是會影響預測的原因。那麼就讓我一一來分享預測過程中所遭遇的迷惘吧。 閱讀完整內容
[掃雷]分析法差之毫釐 - 你真認識迴歸分析的二三事? 取得連結 Facebook X Pinterest 以電子郵件傳送 其他應用程式 6月 22, 2020 你沒正確拆解迴歸分析的數學結構就別說你學過迴歸分析。無論是統計學、迴歸分析或計量經濟學的課程中,都會說到迴歸模型。當然深入討論迴歸模型的課程多落在迴歸分析或計量經濟學上。可是你知道迴歸分析的數據要求、自變數要求、殘差要求、整個的模式狀態嗎? 閱讀完整內容
[掃雷]分析法差之毫釐 - 你以為的線性真的正確嗎? 取得連結 Facebook X Pinterest 以電子郵件傳送 其他應用程式 6月 22, 2020 我們常用來尋找兩個變數的關聯方法有兩種 -- 相關係數或迴歸分析。這兩者的基礎都是線性!這是因為我們將線性視為最能表現趨勢方向的指標,所以在經濟學或是股市分析上常以直線來表述長期趨勢。 我們也以這條直線將數據區分出長期趨勢與短期波動。在股市分析上就是長期價值投資與短線操作。 閱讀完整內容
是否真的可以做股價預測呢? 取得連結 Facebook X Pinterest 以電子郵件傳送 其他應用程式 6月 20, 2020 很多人認為股價預測或是任何事物預測都是一個值!但實際上,真正在做數字分析時,預測不會單純只有一個值。這也是為什麼我看到相信「預測值」的一種反思。 目前預測值 -- 這個字詞的使用,等同於我所認識的「估計值」。除非在計算時都是採用前一期數據去預測這期數據(t和t+1的關係,也就是AR(1)),那麼我會認為那是「預測值」,只是當期數據出現時,你若還是使用預測值進行估計,那就有點怪。所以需要調整回使用真實數據進行下一期的數據估計。這樣的概念是否有出現在程式中,我不清楚且無數學式與程式碼可以看到,所以不予評論。 那麼一般來說都是歷史數據的估計值計算居多。至於「預測值」,這就要說到迴歸分析了。 閱讀完整內容
[掃雷]你知道機率分配怎麼使用嗎? 取得連結 Facebook X Pinterest 以電子郵件傳送 其他應用程式 6月 20, 2020 很多人讀完統計學的機率分配後,都會有一種感覺。那就是我好像只要會常態分配、t分配、卡方分配、F分配就好。因為這是統計推論當中最常使用到的分配,以及臨界值表。至於其他的分配都像跑龍套一樣。可是台灣的教學部份可能受限於時間以及需要完成的課程內容,使得分配說明很少。然而,分配只要設定好特定的參數值就可以讓它們互相相等。[註1] 於是乎,當我們要建立大數據分析方法時就遭遇到很大的阻礙。因為統計學讓使用者養成了什麼都可以用常態分配,由中央極限定理為基礎,好像萬事萬物就使用一個無窮大的符號,趨近常態分配或標準常態分配。好似忘記了無窮大的符號只是符號,在實務上的操作是有困難的。那麼我們該不該重新耗費時間與精力去檢測樣本個數增加到多少才能真正趨近常態分配呢? 閱讀完整內容
[掃雷]你真的知道MSE嗎? 取得連結 Facebook X Pinterest 以電子郵件傳送 其他應用程式 6月 20, 2020 MSE是 mean squared error 的縮寫,指實際值與估計值之差的平方和,再除以個數。此定義來自於維基百科。從此定義來說,MSE可以視為變異數的估計量(Estimator)。 通常這定義寫法上都以參數的估計值符號做為表示,而不是使用Y的估計值符號,這意味著網頁表示的 才是真正的表達方式。 閱讀完整內容
[掃雷]你知道如何表達時間序列資料? 取得連結 Facebook X Pinterest 以電子郵件傳送 其他應用程式 6月 18, 2020 時間序列資料是指當我們在記錄數據時是受到時間影響而形成的資料。例如說股票市場最常見的就是日資料,經濟數據常見的是季資料與年資料。另外企業根據規定需要公布的月營收是月資料、季財報就是季資料、年報就是年資料。 這些因為記錄時有時間因素在其中的資料,可以使用折線圖展示出時間與數據的關係。如此一來就形成了走勢。 閱讀完整內容
[掃雷]大數據分析是什麼 取得連結 Facebook X Pinterest 以電子郵件傳送 其他應用程式 6月 16, 2020 在網上和書上皆對大數據有所定義,特別是3V最為常見。也是如此,這是對數據量的定義。但大數據當中卻有包含分析。而這樣的數據量定義卻無法說明分析法。於是分析法演變成使用電腦的程式語言做分析。而這樣的分析卻是非常基礎的分析法。而對於學習商科或管理專業的人來說,寫程式不是主軸,而是分析、解讀、決策。如果分析法有錯誤,或不適用,那麼分析結果是否真的適合用於決策呢?恐怕不如預期,這也讓決策後的執行結果需要在事前就先打些折扣。 閱讀完整內容
[掃雷]當統計量沒有代表性怎辦 取得連結 Facebook X Pinterest 以電子郵件傳送 其他應用程式 6月 16, 2020 當樣本不具代表性,這也代表統計量不具代表性,那麼該怎辦呢? 首先,我們得先確定統計量不具代表性的意思。對所有的統計量,可以是樣本的平均數、變異數、中位數、絕對離差、相關係數、變異係數、峰態係數、偏態係數、分位數等。而統計學則是主要針對樣本的平均數做為理論說明,因此樣本所得到的統計量需要具有充分、不偏、效率、一致性。 閱讀完整內容
你做不到對沖基金的數據分析,至少還有簡易且有效版的方法 取得連結 Facebook X Pinterest 以電子郵件傳送 其他應用程式 6月 15, 2020 當我們看著全球最賺錢的對沖基金經理James Simons說他的公司運用數學的知識破解了股票市場,令他1年內賺到120億的利潤時,他所提到的那些資料來源,以及數據,讓我不禁懷疑:不同衡量時間的數據如何放在一起? 閱讀完整內容
為什麼數據分析總是不準確? 取得連結 Facebook X Pinterest 以電子郵件傳送 其他應用程式 6月 15, 2020 我們常看到很多數據分析的結果都是不準確的,甚至在事前的分析結果後,很常聽到有人說我不信。其實真的不準確嗎?讓我來說說情況吧。 為什麼我要寫掃雷的文章就是想讓朋友們了解,你使用的分析法和數據蒐集是會影響分析結果的。如果你對這兩者都不熟悉,就使用它們,那很可能就是會有不準確的情況發生。另外還有兩種情況就是誤打誤撞,以及全部都跑一次比對後,挑最佳的做代表。最後那兩種就是 難以被複製 的方法,我就不討論這類的情況。 閱讀完整內容
[掃雷]樣本與母體不得不說的二三事 取得連結 Facebook X Pinterest 以電子郵件傳送 其他應用程式 6月 14, 2020 在大多數的網站和書籍上,提到大數據分析,總是說統計學是其分析方法。但是真是如此嗎?大數據的數據量已經超過統計學是用的樣本個數,對於樣本與母體的情況,讓我在這邊跟朋友們分享其二三事吧。 既然要說說兩者的差異,就得從統計學開始說。統計學的基礎是來自於機率、事件的樣本空間。而一個理論的存在就如同柏拉圖提出的哲學觀點一樣:人有其原型。他的弟子亞里斯多德則運用歸納法,從歸納出世間萬物的規律後,從而獲得原型。這兩個觀點就像在說機率的機率空間和樣本空間。讓我們先了解樣本空間和機率空間。 樣本空間則是所有元素的集合(宇集合)以及子集合的集合。所有元素的子集合的集合相當於統計學抽取樣本。這須從宇集合先確定(基礎),再發展出所有元素的子集合的集合。這樣的子集合的集合是種另一種層次的運作。如此才被稱為「樣本空間」。 機率空間是以樣本空間為基礎,而且樣本空間內的「所有元素的子集合的集合」以事件表示,形成事件的所有可能集合,最後再加上事件的機率後就是「機率空間」。這樣的定義(或是符號表是順序)就代表著每次操作時的動作或確認順序。 有時候很多人會將樣本空間與機率空間搞混,甚至牽扯上母體和樣本的關係。無論是母體或樣本都是具有隨機性的。在隨機情況下仍有其規律,所以對其根本的描述要清楚且可區分。我們可以透過機率空間(運作方法為機率公設)協助完成確定討論的範圍與描述。 母體與樣本的差異 在了解樣本空間與母體空間後,對於母體與樣本的差異也可以從集合角度來看。其實樣本來自母體,所以 樣本就是母體的子集合 。另外,我們可將樣本當作是事件的實驗(有時候稱為試驗,此為翻譯問題)。所以統計學在一開始的學習內容中就是先討論機率、事件、隨機變數等的關係。 其次, 樣本可以反映母體的參數特性 。因為這樣的觀點,所以統計學又稱為推論統計,特別針對樣本的數學組合能否代表母體參數進行推估。這才會出現點估計要滿足充分、不偏、效率與一致性。而驗證點估計量是否具有這些特性就需要使用各種的點估計方法,例如迴歸分析愛用的BLUE,或是UMVUE法、MME法、MLE法等。 第三,要滿足第二點還需要一個條件,那就是樣本數(或稱為樣本規模)愈大,愈接近母體個數時就愈容易反映母體特性。雖然是如此說,但這有個問題就是樣本數到底要多大去反映母體特性。請注意所謂的母體特性都只是母體參數。所以大數據分析就是特別喜歡用這樣的角度去說母體分析。但實際上沒... 閱讀完整內容