知識圖譜: 數據挖礦的探照燈

文:黃正傑 2020-09-08

大數據分析 人工智慧 知識圖譜


22-7.jpg


複雜的疾病與藥物治療關係如何尋找? 模糊的老師傅維修經驗怎麼萃取? 除了機器學習、深度學習技術外,知識圖譜是新興的人工智慧方法。在知識圖譜的協助下,可事先指引大數據挖掘出的複雜關係、協助歸納模糊的語意關係等,與機器學習/深度學習方法相互合作。那麼,知識圖譜的概念是什麼呢? 如何協助大數據分析與人工智慧? 又有什麼企業應用呢? 本文介紹知識圖譜源起、概念與商業應用。




繼深度學習之後,知識圖譜(Knowledge Graph;KG)又成為熱搜的名詞。知識圖譜究竟是什麼? 與深度學習有何不同? 有何種應用呢? 以下初步地探索知識圖譜的概念與應用。


知識圖譜的源起

知識是人類獨有的產物。人類藉由知識得以傳承,讓世世代代可以累積方法與經驗,進而促進社會進步與技術發展。人工智慧學者亦嘗試利用電腦科學協助模擬人類知識。


1970年代,學者發展專家系統,認為模擬專家具備的知識或經驗,可以發展人工智慧專家系統。而專家知識要形成什麼樣結構呢? 又要如何萃取呢? 於是學者發展一系列知識表示法(knowledge representations),包含: IF THEN產生規則式方法、情境式框架語言等,並利用各種知識工程(knowledge engineering)方法進行專家知識萃取。但由於專家知識表示複雜,且有許多例外、模糊情況無法表達,使得專家系統無法滿足人類對於人工智慧的期望。於是,1980年代人工智慧研究因而沒落。


2000年代,人們透過各種網際網路服務的運用,儲存了許多事實描述知識庫;如: Google、百度藉由搜尋引擎不斷地累積百萬級知識庫;ConceptNet則透過網路眾包、遊戲及專家創建,建構了百萬級知識庫。這些百萬級知識庫不但成了Siri等各項新興人工智慧服務進行機器學習、深度學習基礎,亦是知識圖譜發展的基礎。


知識圖譜的概念

知識圖譜(KG, Kowledge Graph)於2012年由Google Amit Singhal提出,是一種用圖模型(Graph) 來描述真實世界萬物之間的關係的技術方法。Google 運用KG發展知識圖譜搜尋引擎服務,提供使用者進行搜尋並發現相關資訊;Google 具有5億個物件、35億物件間的事實或關係。


知識圖譜利用圖模型來表示知識,相較於傳統專家系統常用的產生規則式、框架語言等,能夠建立更多樣與複雜關係,以容納大數據、深度學習等方法進行知識挖掘。例如:傳統產生規則式系統,運用IF THEN 的因果關係來表示知識;知識圖譜則可以彈性的表示萬物之間多元關係,包含:屬性關係、從屬類別關係、因果關係、語意關係等。


此外,傳統產生規則式系統建構專家「理想」規則式知識;知識圖譜則是建構各種物件實例間關係的「事實」建構。因此,我們常聽到知識圖譜是上百萬或億萬規模、規則式系統則是數萬或數千條等級規則。如下圖所示,該知識圖譜建立蒙娜麗莎微笑畫作與達文西、羅浮宮、巴黎以及LILY、JAMES各種實例物件間的各種關係的事實,包括:畫家、朋友、喜歡、居住、位置等。如果同樣建立其他數萬個文藝復興時期的畫作「實例」間知識圖譜事實關係,即可以進行類比或推論等。


22-3.jpg

圖、知識圖譜描述實例間的關係(資料來源: yashu seth, WordPress.com)


知識圖譜的商業應用

知識圖譜最常用於Google、Wikipedia、Yahoo、百度、阿里(參閱下圖)等搜索或電商服務大量數據累積,進而優化既有服務並延伸至新的領域服務。近來,有愈來愈多的垂直企業領域利用知識圖譜,如:醫療業、金融業、製造業等,以下說明幾個知識圖譜在企業領域的應用方向:


1.協助搜索:協助搜索是知識圖譜最基礎的運用。Google、阿里雲均建構數億萬級的物件、概念間關係,進而協助用戶進行搜索。在工業上,新進工程師可運用知識圖譜搜索老師傅過去解決設備、生產問題實際案例中問題與解決方法間關係;採購人員搜索供應商的物料供應及對映生產品質數據關係,以尋找合適供應商等。


22-4.jpg

圖、阿里巴巴建構電商知識圖譜(資料來源: 阿里巴巴)


2.協助問答:知識圖譜可以建構概念、語意間關係,協助人機交互問答,如: Siri、IBM Watson。IBM Watson for Ontology為全球首套AI癌症輔助治療系統,利用語音問答方式,協助醫生判斷病患罹患癌症風險與治療建議。IBM Watson for Ontology從電子病歷、醫療期刊及與專家合作建立的治療方案知識圖譜,以容易理解醫生問題與病患病徵關係,提出治療建議。


3.協助大數據:知識圖譜可作為一種結構化知識或先驗知識,輔助大數據進行學習與推理。例如:企業商情網站事先建構上司公司、董事長、股東、股權結構、借款、銷售等關係表示結構 (知識圖譜領域常稱為Schema),透過企業年報、招標文件、新聞、專利等大數據擷取數萬個公司關係事實,以進行企業風險、信貸風險分析與預測。


知識圖譜與大數據

知識圖譜發展與機器學習、深度學習同樣來自大數據累積產生。機器學習、深度學習從大數據中發現關係、知識圖譜儲存大數據關係。故知識圖譜與機器學習/深度學習相輔相成,可達成更有效率的人工智慧系統。


如以擷取與搜索老師傅在工廠解決設備問題的經驗應用為例。首先,可從維修紀錄、設備操作手冊等,透過人工智慧自然語言及機器學習技術,辨識與萃取問題與解決方法初步關係;再來,透過知識圖譜手法建立與儲存各項設備問題與解決方法的邏輯關係;之後,透過機器學習或深度學習的方法來協助推論實際發生問題與可能解決方法機率與優先排序,提供新進工程師進行搜索。此外,系統也可將新進工程師實際問題解決結果,透過機器學習、深度學習方法,不斷地累積與學習以優化系統。


小結

知識圖譜雖來自於早期建構知識表示的概念,但卻融入了現今數據驅動的思維,並結合機器學習/深度學習方法,以解決複雜關係、語意模糊、大數據挖掘關係不確定的問題。因此,如果說機器學習/深度學習是數據挖礦的圓鍬;那麼,知識圖譜就是最佳的探照燈。




9.jpg黃正傑

你喜歡挑戰不斷隆起的技術高原、探索無限寬廣的創新領域嗎? 那麼我們是同路人。黃正傑,台大資管博士,協助鼎新進行前瞻技術研究與應用發展。歷經IT架構技術顧問、供應鏈管理顧問、軟體產業分析師等多項職務,並兼任文化大學助理教授。讓我們一起從創新與變革角度,探索新興技術!



6.jpg

更多案例

x