「大數據」的潛力
2009年時,全球出現新型流感病毒H1N1,由於結合禽流感和豬流感的特性,所以在幾星期內,所有的衛生機構都擔心,即將爆發大規模流感疫病,有些人甚至認為,情況與1918年西班牙流感類近,可引致五億人染病,幾千萬人死亡!
傳統上,美國疾病管制局(CDC),會要求醫生每確診一宗新型流感病例,就必須立即通報,但這個通報機制,存在明顯缺陷,首先是市民通常會先有幾天不舒服,才會去看醫生,然後醫生又要經過層層通報,才會到達疾管局,最糟糕是疾管局要每星期才更新一次通報來的資料,整個過程費事失事,面對迅速傳播的疫情,完全掌握不到實際情況。
在H1N1爆發前,有幾位谷歌(Google)的工程師於科學期刊,發表了一篇論文,預測當年冬天將爆發流感,甚至精確定位到爆發的州份。谷歌預測的秘訣,就是使用新興的「大數據」(Big Data)技術。
首先谷歌會找出美國人最常用的五千萬個搜尋字,與美國疾病管制局2003年2008年間的流感傳播資料,作相關性分析(Correlation Analysis),系統沒有作任何因果關係分析,純粹從數據出發,結果得出四十五組搜尋字眼,如「止咳退燒」,與早前官方公佈的數據,有強烈相關性。由於疾管局的資料會延遲一至兩星期才收到,而谷歌可實時更新搜索情況,其效率比傳統方法高出極多。
舊系統還需要投入人力,進行數據採集,谷歌只需要寫一套軟件,實時從互聯網上採集樣本,就能做到,不過「大數據」雖然快而準,使用條件亦非常嚴格,首先需要採集大量用戶的數據樣本,目前只有谷歌、面書(Facebook)等大型互聯網公司,才可輕易做到,普通人單是在採集數據上,已要花費極大精力;其次,是需要有儲存和分析海量數據的硬體支援,加上一套分析軟件,才能完成。
通過大數據,幫助有關當局在疫病控制上,能更有效率應變,加上其他措施,H1N1至今的總感染人數約一百三十萬人,死亡病例近一萬六千宗,大數據除了可用在疾病控制,亦可應用在其他商業領域,幫助大家作出更明智的決定。