發表文章

目前顯示的是 8月, 2019的文章

醫療數據的意向大數據分析應用 - 醫療實驗有效嗎?

圖片
我使用醫療數據說明了如何 建立樹狀圖與貝氏定理的機率 ,這篇網誌則是我們想知道 醫療實驗中,總膽固醇的前後變化是如何,實驗有效嗎? 所以,我們有實驗組與對照組。所謂實驗組是有進行醫療實驗的,而對照組則是沒有進行醫療實驗的。 因為有樹狀圖的每個路徑的機率,同樣也可以計算出所有條件下的條件機率,再加上這都是文字類型的數據,所以,我從機率當中排序找出中位數、眾數還有最小機率對應的數據,討論實驗後的總膽固醇反推實驗前的總膽固醇為何。 我設定的流程是先確定是否在實驗組→在實驗前測量總膽固醇→實驗後再測量總膽固醇。所以,在所有的數據分析後,實驗組在實驗前的總膽固醇是正常,同樣對照組也是。也就是說實驗體都是正常的。 如果使用最小機率法,則是實驗前的總膽固醇為動脈硬化高危險群。 如果在實驗類別與實驗前總膽固醇分類條件下,分析實驗後總膽固醇狀況是否改善。從中位數法與眾數法可以發現,實驗組的實驗前總膽固醇過高會在實驗後便正常,而一開始正常,實驗後仍是正常。至於對照組,同樣也發生實驗後有改善現象。 至於最小機率法則是實驗組的總膽固醇變化很極端,同樣對照組也一樣。 -------------- 接著,我想知道實驗後的總膽固醇結果下,他們在實驗前的總膽固醇是如何。這是一個貝氏定理的概念。甚至我也想知道總膽固醇的前後面化是來自哪種實驗類型。 下表顯示無論實驗後膽固醇是正常、過高或過低,都對應實驗前是正常。甚至實驗後的總膽固醇是動脈硬化高危險群,但實際上實驗前是過高而已。至於若使用最小機率法來判斷,則實驗後的總膽固醇正常或過高,都會反推為實驗前是動脈硬化高危險群。若實驗後是過低的總膽固醇,則實驗前是過高的總膽固醇。至於實驗後是動脈硬化高危險群,在實驗前則是正常。 如果從三個層次來看,更能看出怪異的情況。從實驗前後的總膽固醇條件下,是來自哪種實驗類型的結果可以看出, 由中位數與眾數得到 當實驗後是正常,實驗前是過高的情況是來自於對照組 當實驗後是過低,實驗前是過高的情況是來自於對照組 當實驗後是正常,實驗前是正常的情況是來自於實驗組 上面的三個現象是我希望看到的,代表實驗確實能夠改善總膽固醇。但是,三個結果,兩個來自對照組,一個來自實驗組,實驗組還是前後都是正常。換句話說這個實驗是無效的。 當實驗後是過高,實驗前是過高的情況是來自於實驗組 當實驗後是過高,實驗前是正常的情況是來自於對照組 當時實驗...

醫療數據的意向大數據分析應用 - 樹狀圖與貝氏定理

圖片
【前言】 醫療數據可以透過檢驗後得到數據紀錄,我們可以取得醫療數據後進行意向大數據分析。現在的文明病之一就是膽固醇太高,導致心血管疾病,以及引發出其他的疾病。不過,所有的膽固醇都是有其重要性(參考1)。 【數據分類說明】 本次範例為膽固醇狀況。透過抽血檢驗後,我們可以根據膽固醇標準為檢測值做分類。根據的原則來自 高密度膽固醇(HDL) / 膽固醇 < 2 => 低密度膽固醇越大顆 低密度脂蛋白膽固醇(LDL) < 130mg/dl  該指標可以預測低密度膽固醇不是細細小小顆。如果三酸甘油酯越高且高密度膽固醇越低,指標值就會高於2,此時相對的低密度膽固醇會越小顆 。(參考自 https://www.commonhealth.com.tw/article/article.action?nid=75538 ) 總膽固醇(CHOL)正常值介於為130--200mg/dl,平均約190mg/dl 總膽固醇的臨界值為 200~239mg/dl,容易發生 高膽固醇血症 總膽固醇超過 250mg/dl時,可能會形成動脈硬化 HDL膽固醇的正常值,男性為40-60mg/dl,女性為50-70mg/dl HDL 若低於40mg/dl,最好注意心肌梗塞,腦血栓,高血脂症等疾病 (參考自  http://tpfile.tcavs.tc.edu.tw/teacher/20305/教學資源/膽固醇連結.htm ) LDL-C 超過 130 mg/dl,或 LDL-C / HDL-C 的比值超過 3.5,都是發生心血管疾病 (冠心症、中風等) 的高危險群 HDL-C 小於 30 mg/dl ,或 「總膽固醇 / HDL-C」 的比值大於 5.0,都代表有較高的機率發生動脈粥狀硬化 (參考自 http://www.kgh.com.tw/health/15-226.html ) 【意向大數據分析】 這裡的範例將顯示製作樹狀圖與意向大數據分析的貝氏定理的機率計算。對於意向大數據分析,最重要的就是「意向」。所以本例設定的是第一層次為總膽固醇值、第二層次為LDL / HDL、第三層次為CHOL / HDL。 樹狀圖 經過計算後,我們可以得到樹狀圖。樹狀圖的機率為聯合機率,所以總和為1。 意向大數據分析結果 根據貝氏定理的計算,下表的第二與三欄為條件事件,第一欄為我們的問...

意向大數據分析介紹

圖片
在大數據分析當中,我們會遇到很多的資料是同時有文字或是數字,有時候全部都是文字。於是,出現了結構性與非結構性分析。而文字探勘成為大數據分析當中很重要的一個學習與應用功能。然而,在文字的資料分析中,多是基於挖礦與敘述性統計與圖像分析。 然而,若要進一步使用統計分析卻沒有辦法。過去有貝氏定理簡易版的馬可夫鏈,讓樹狀圖可以發揮作用,產生前後關係的關聯性計算。 什麼是意向大數據分析 如果數據當中同時有文字跟數字,或都是文字,想用統計分析是不容易的。意向大數據分析是個非常好用的方式協助我們同時分析文字、文字+數字的資料類型。而所謂的意向是指決策者或使用者的意向為主,也就是先決定問題,然後再根據問題從數據當中找尋證據。尋找證據的方法就稱為意向大數據分析。 基礎概念 既然有文字或文字+數字,那麼,讓我們回到統計學最基礎的概念,那就是事件(event)。 事件可以以文字或數字表示,所以我們可以根據事件得到機率。如果將事件轉換成以數字表示,就會形成隨機變數。由隨機變數與對應的機率就可形成機率分配。有了機率分配就能夠了解分配特性(參數)。若數據為樣本,則可進行統計分析,包含區間估計和假設檢定。 想要了解相關性,可以使用迴歸分析,除此之外,還有就是下面要介紹的貝氏定理的樹狀圖。 樹狀圖可以讓分類產生層次,只要分類足夠多就能一直增加層次。而且所有的分類並非固定的。你可以選擇讓A在第一層,也可以讓B在第一層(如下圖)。 例如,只考慮性別跟婚姻狀況,樹狀圖就如同下圖所示。 至於上圖內的機率,第一層為邊際機率,第二層與更多層的機率為條件機率(相關觀念可以參考維基百科或是任一本的統計學教科書)。 但是想要有更多層次的樹狀圖機率計算就得依賴電腦運算,我們手算是非常困難計算出的。所以,想要超過五層的樹狀圖計算都是不容易的。另外,貝氏定理提供我們可以在後面的層次去算前面的層次發生機率。甚至跳躍選擇層次計算發生機率。例如,現在有A到E的層次,並且層次為A - C - E - B - D。貝氏定理可以讓我們找出 P( E | D)、P(C | B & E)或是 P( A | E & B & D)等。當然,直接照著層次計算機率也是可以的,例如,P( E | A & C)。 不過,貝氏定理的運用為什麼會那麼困難呢?由於貝氏定理是以樹狀圖的基礎,所以只要層次越多就會讓整個樹狀圖越大...