四成頭部CT恐白做嗎?健保署發展智慧審查工具之研討 2019-09-30 16:37醫病平台 劉玠暘(醫師、Johns Hopkins公衛碩士)、劉玠晏(醫師) 編者按:這星期的三篇文章是探討人工智慧與醫療的問題。非常高興我們醫病平台發起人之一的劉玠暘醫師在畢業後赴美專攻公共衛生,與其弟劉玠晏醫師共同寫出這篇有關健保署發展智慧審查工具之看法,並指出媒體的聳動標題可能引起社會大眾的誤會。一位醫學院教授溫陵也應邀以「臨床流行病學」、「病人照顧」、「衛生政策」三個不同層次幫忙一般讀者解讀數據對醫學與政策的影響。而台灣受試者保護協會林綠紅理事長也適時地提出她對人工智慧、大數據可能影響病人隱私權的隱憂。報載「健保署運用AI科技,發展智慧審查工具」,並優先運用於分析頭部電腦斷層(CT)之檢查報告。健保署採用資訊科技輔助甚或取代繁瑣冗長的人工作業,應為各界所樂見。對我們這一輩學習資料科學與公共衛生的年輕醫師、研究者而言,更是令人欣喜的進展。然而從健保署所發佈之訊息,以及相關媒體報導,我們認為有一些值得商榷之處。
健保署目前僅達初步分析成果 查健保署新聞稿,此處所謂之自然語言處理(NLP)與機器學習(Machine Learning),其實就是訓練電腦判讀檢查結果(意即從「人讀報告」變成「電腦讀報告」);而其實「影像醫學報告」這種具一定結構的文本,要讓電腦讀懂病灶在哪裡、是什麼,坦白而言並不十分困難,但能夠達致99%正確率,仍為可喜。至於健保署文稿中唯一提到的由此技術計算出的數據,「四成左右的檢查結果是與疾病無直接相關」,只是基本的敘述統計(descriptive statistics),無法據此作出深入的推論(inference),這點需要先行釐清。
「四成檢查結果與疾病無直接相關」不見得是個問題 同樣是頭部CT,當檢查的目標不同(疾病不同)時,其「陰性/陽性率」會有很大差異,因此單單一個「四成」的意義其實難以解讀。然若暫且忽略掉此異質性(heterogeneity),當作是檢查同一種疾病,根據統計學上的貝氏定理(Bayes' theorem),一項檢測工具能發揮最大效果的情形,一般而言是在「檢測前機率」接近0.5的時候,即「是否有這個疾病」之機會相當的時候,所以「四成」的「陰性率」就專業人士而言,並不令人感到意外。當然,CT對於許多疾病之檢測具有高敏感度(sensitivity)與特異度(specificity),且並不僅有「陰性/陽性」之二元(binary)結果,尤其當有所發現(finding)的時候往往可以提供相當豐富的資訊,協助臨床照護者之判斷與處置(如:手術所需之精準病灶定位),故而適用性會更廣。而許多報告結果,雖然乍看之下「與疾病無直接相關」,但卻是有助於診斷治療的進行的,所以顯然不會是「白做」。誠如署長所言,最常見的情況大概有兩種:一是其檢查目的本就是要「排除(rule-out)」某種問題時,例如急性中風需排除顱內出血時,失智症需排除水腦症、硬膜下血腫或腦瘤等時;二是疾病治療後的「追蹤(follow-up)」,例如手術移除腦瘤後要確認腦部狀況。此外在實務上,影像的文字報告其實未必包含了該影像的所有資訊與意義:主要照護的臨床團隊(primary team)常常需要自行判讀「影像」本身,並綜合病人的病史、臨床表徵(clinical presentation)、實驗室檢驗、其他檢查等資訊,才能解讀該影像檢查的意義,而這些就不一定會出現在影像科醫師繕打出來的報告中了(各醫院、各醫師的作業習慣與溝通默契有很大的風格差異,在此不予贅述)。
健保署負有民眾教育宣導之責任 筆者詳閱健保署的新聞稿與署長接受媒體採訪時之發言,確實對成果之解釋有所保留,並未對這「四成」輕下論斷。然而經過媒體渲染,遂變成「健保利用AI揪異常頭部電腦斷層,竟四成與疾病無關」、「健保AI審查揪浪費,十四萬筆頭部CT竟有四成恐白做」、「健保運用AI輔助分析四成CT頭部檢查恐浪費」之類的聳動標題,嚴重誤導大眾認知,也使得眾多醫療人員擔心招致病人與家屬的誤會。健保署作為重要的醫療行政機關,理應借助其媒體公關經驗,判斷可能的新聞效應。對於此類初步的研究成果,在發表時還是應該更為精確與審慎,主動澄清避免誤會。本文也期待在此有所助益。
健保審查的重點在於「適應症」而非檢查結果 回歸「健保審查」目的,若要探討一項檢查是否必要,應該分析其是否有合理的原因,這在醫學上稱之為適應症(indication),而實務上醫師所採用之適應症的準則(criteria)通常是出自專科學會的臨床指引與建議(clinical guidelines and recommendations),或者是保險之給付規定。而這些規則的制訂,都是立基於流行病學、臨床研究與專家共識,並考量醫療實務上之花費與可行性。從臨床流行病學的角度觀之,當醫師參考這些規則開立檢查,背後的意義就是在考量潛在病況的嚴重性與檢測前機率(pretest probability)下,判斷其風險已經高到一定程度,認為此時進行檢查,在醫療專業(健康風險、人道關懷)或成本效益(cost-effectiveness)考量上是合理的。況且,一般而言在醫師開立CT等較重大的檢查時,除非是緊急情況,都已經與病人或家屬討論做檢查的原因、替代方案、以及相應的風險,並達成共識,即醫學倫理上強調的「知情同意(informed consent)」。因此,健保署既已引入先進的資料分析技術(即上述NLP、機器學習等),理應結合CT報告以外的資訊(包括病史、神經學檢查、其他檢驗檢查等),訓練電腦去判斷在醫師開立CT檢查當下,病人病情是否符合健保規範之適應症。
智慧醫療的想望 由以上可知,臨床醫師開立檢查,其實有一定方法與規則可循,而這些是基於過往累積的研究與經驗。因此,以我國全民健保所擁有的豐富數據,大可利用此技術做進一步之分析,研究在何種情況下,檢查結果幾乎是篤定的,且該檢查不會影響後續臨床處置,故可以不用開立;並進而根據此研究成果,設計實務上可行的新臨床指引與建議。同時,也可以研究在什麼樣的情況下,醫師容易開立不必要的檢查,回饋予醫療機構,避免踩入誤區、浪費醫療資源。健保署目前之初步成果,在於訓練電腦判讀檢查結果,並將其中之病灶種類與位置,轉化為結構性的資訊。我們的拙見是,未來如果能搭配目前已臻完善之3D影像重組(reconstruction)技術加以標定,能方便醫師的臨床作業,並輔助醫學生學習如何判讀影像及文字報告。此種結構性的資訊,亦能標準化地自動生成中文翻譯,對醫療工作中護理師等各職類間,以及醫師與病人家屬的溝通理解都會有所幫助。文中所舉的各項技術皆已發展成熟,只要政府能善用此資料庫,並與醫療、公衛、資訊界跨領域合作,不僅能推動臨床研究、改善醫療作業,更將有助於醫學教育、臨床分工合作、與醫病互動。不難想像,很快的未來,醫師能夠指著一個3D圖像,向病人及家屬說明大腦的這個位置有這樣的病灶,圖像旁還標註有中文翻譯,一目瞭然;增進醫病關係與互信。這就是資訊化時代所帶來的智慧醫療的醫院情景側寫。