——來(lái)自2020人工智能與電力大數(shù)據(jù)論壇的智慧共享
11月11—12日,由中國(guó)電力發(fā)展促進(jìn)會(huì)(以下簡(jiǎn)稱“電促會(huì)”)和國(guó)家電網(wǎng)有限公司大數(shù)據(jù)中心聯(lián)合舉辦的“2020人工智能與電力大數(shù)據(jù)論壇”在京召開(kāi)。
11日上午,百度知識(shí)圖譜部的主任研發(fā)架構(gòu)師宋勛超就《知識(shí)圖譜及其在電力業(yè)務(wù)中的應(yīng)用》在論壇現(xiàn)場(chǎng)做了精彩的主題演講。
百度知識(shí)圖譜部的主任研發(fā)架構(gòu)師宋勛
演講實(shí)錄全文如下:
各位專家,各位領(lǐng)導(dǎo),各位電力行業(yè)的同仁,大家早上好。我是來(lái)自百度知識(shí)圖譜部的主任研發(fā)架構(gòu)師宋勛超,很榮幸能夠在今天代表百度參加我們?nèi)斯ぶ悄芘c電力大數(shù)據(jù)論壇。我今天匯報(bào)演講的題目是從數(shù)據(jù)到知識(shí),數(shù)據(jù)智能化的升級(jí)之路。
我們?nèi)祟惏l(fā)展到現(xiàn)在,已經(jīng)經(jīng)歷了三次科技革命。第一次科技革命將人類帶入了機(jī)械化時(shí)代,第二次科技革命將我們帶入了電氣化時(shí)代,第三次科技革命是信息化時(shí)代的科學(xué)革命。
目前,我們正處在第4次科技革命正在興起的時(shí)候,第4次科技革命其實(shí)就是人工智能的科技革命,人工智能的高速發(fā)展,已經(jīng)為新一輪的產(chǎn)業(yè)變革提供了重要的驅(qū)動(dòng)力量。人工智能技術(shù)包括以語(yǔ)音、圖像、視頻、ARVR等為核心組成的感知層技術(shù),以及以語(yǔ)言和知識(shí)為核心的認(rèn)知技術(shù)。語(yǔ)言和知識(shí)技術(shù)是人工智能的核心,它能夠像讓機(jī)器像人類一樣去掌握知識(shí),理解語(yǔ)言,對(duì)于人工智能的發(fā)展至為重要,同時(shí)也是我們未來(lái)要實(shí)現(xiàn)通用人工智能所必須要具備的一個(gè)必要條件。
為什么這么說(shuō)呢?讓我們的讓我們來(lái)簡(jiǎn)單的回顧一下人工智能的發(fā)展和歷程。在人工智能接近60年的發(fā)展歷程里,我們一共經(jīng)歷了兩代的發(fā)展,目前正處在第三代的一個(gè)發(fā)展期。
第一代的人工智能,我們稱之為符號(hào)主義的人工智能。我們知道人工智能的三駕馬車分別是數(shù)據(jù)、算力和算法,在這個(gè)階段,人工智能依賴的是專家的經(jīng)驗(yàn)和知識(shí)來(lái)去進(jìn)行顯示的符號(hào)表示和邏輯推理,取出來(lái)模擬人類的一些智能行為,去解決一些推理規(guī)劃和決策類的問(wèn)題。
一個(gè)具有代表意義的系統(tǒng)是IBM的國(guó)際象棋程序深藍(lán),那么這個(gè)國(guó)際象棋程序在1997年打敗了國(guó)際象棋大師卡斯帕羅夫,然后我們認(rèn)為第一代人工智能存在著一些質(zhì)的缺陷,例如專家知識(shí)稀缺昂貴,因?yàn)檫@一代人工智能系統(tǒng),它系統(tǒng)里面所承載的各種各樣的知識(shí)往往是需要去用專家的能力去人工構(gòu)建的。另外,這一代人工智能它所涵蓋的這個(gè)知識(shí)形態(tài)非常局限,如語(yǔ)言類的知識(shí)以及一些模糊類的知識(shí),很難被這一代的人工智能系統(tǒng)所消化,因此它的應(yīng)用范圍非常有限。
第二代人工智能,也就是大家目前所廣泛接觸到的基于深度學(xué)習(xí)的人工智能,這一代人工智能的特點(diǎn)最主要的特點(diǎn)就是數(shù)據(jù)驅(qū)動(dòng)。在這一代人工智能系統(tǒng)里,往往不需要具備大量的領(lǐng)域知識(shí),只要我們標(biāo)注了足夠多的樣本數(shù)據(jù),人工智能就能夠被低成本的啟動(dòng),再加上目前我們的神經(jīng)網(wǎng)絡(luò)的規(guī)模越來(lái)越大,上一級(jí)的參數(shù)都是非常常見(jiàn)的,以及我們GPU算力的極大增強(qiáng),使得這一代的人工智能技術(shù)呢能夠非常輕易的處理大數(shù)據(jù)。
但是,這一代人工智能技術(shù)依然有一些非常嚴(yán)重的局限性。首先基于神經(jīng)網(wǎng)絡(luò)的人工智能,它往往具有一個(gè)不可解釋性的這樣的一個(gè)特點(diǎn)。另外,我們知道數(shù)據(jù)驅(qū)動(dòng)往往需要一些非常大規(guī)模的樣本來(lái)去支撐我們的模型訓(xùn)練。
雖然現(xiàn)在有一些研究方向,比如說(shuō)遷移學(xué)習(xí)、小樣本學(xué)習(xí),能夠從一定程度上去解決這樣的行業(yè)大樣本,大量的標(biāo)注樣本缺失的問(wèn)題,但是他依然沒(méi)有能夠從本質(zhì)上解決這一代人工智能的一些本質(zhì)的缺陷,因此它依然是不易推廣的。
從第一代人工智能和第二代人工智能的成就看,我們aI經(jīng)濟(jì)進(jìn)入了一個(gè)高速的發(fā)展期,我們現(xiàn)在稱之為第三代的人工智能,就是把第一代的知識(shí)驅(qū)動(dòng)和第二代的數(shù)據(jù)驅(qū)動(dòng)結(jié)合起來(lái)的新一代的人工智能。
在這個(gè)階段,人工智能的三要素除了數(shù)據(jù)算法和算例,還必須具備更為重要的第4大要素,也就是知識(shí)。目前,知識(shí)增強(qiáng)驅(qū)動(dòng)的人工智能技術(shù)在非常多的領(lǐng)域已經(jīng)取得了一些比較好的成果,運(yùn)用前景也非常廣泛,比如基于知識(shí)增強(qiáng)的多模態(tài)語(yǔ)音理解,基于知識(shí)增強(qiáng)的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型等等。
第三代人工智能的一個(gè)終極目標(biāo),就是去真正的模擬人類的行為,讓人工智能系統(tǒng)不僅能夠接受數(shù)學(xué),還要能夠掌握知識(shí),可解釋督辦,安全可信可靠可擴(kuò)展,以及基于人工智能去實(shí)現(xiàn)真正的推力與決策,是這一代人工智能的最主要的特點(diǎn)。
接下來(lái),讓我們把目光從人工智能發(fā)展史聚焦到百度的人工智能技術(shù)。今年是百度搜索誕生的第20個(gè)年頭,百度發(fā)展人工智能技術(shù)也已經(jīng)有10年了,在過(guò)去的十年中,百度搜索引擎一直是各類人工技術(shù)凈化與落地的主戰(zhàn)場(chǎng),而百度人工智能技術(shù)的發(fā)展和基礎(chǔ),就是中國(guó)規(guī)模最大的互聯(lián)網(wǎng)大數(shù)據(jù)。
目前,百度已經(jīng)擁有萬(wàn)億互聯(lián)網(wǎng)的網(wǎng)頁(yè)內(nèi)容,其中包括百億級(jí)的視頻、音頻圖像和定位數(shù)據(jù),我們匯聚了海量用戶的互聯(lián)網(wǎng)行為數(shù)據(jù),深度挖掘了30余個(gè)垂直行業(yè),360度的去刻畫用戶的屬性,積累了10億級(jí)的用戶的精準(zhǔn)畫像,讓我們每天響應(yīng)數(shù)10億次的網(wǎng)民訴訟請(qǐng)求。
在數(shù)據(jù)總量層面,整個(gè)百度擁有數(shù)十萬(wàn)臺(tái)的服務(wù)器和一b加級(jí)的這個(gè)數(shù)據(jù)存儲(chǔ),在我們服務(wù)于中國(guó)10億級(jí)網(wǎng)民的搜索引擎這個(gè)產(chǎn)品中,我們已經(jīng)初步實(shí)現(xiàn)了數(shù)據(jù)到知識(shí)的轉(zhuǎn)化,以及基于大數(shù)據(jù)的智能化應(yīng)用,基于這個(gè)規(guī)模最大的互聯(lián)網(wǎng)大數(shù)據(jù),我們構(gòu)建了世界上規(guī)模最大的中文知識(shí)圖譜,除了通用的實(shí)體圖譜,我們還針對(duì)不同的應(yīng)用場(chǎng)景,以及不同的知識(shí)形態(tài),構(gòu)建了關(guān)注點(diǎn)圖,并且實(shí)現(xiàn)了多元的異構(gòu)互聯(lián)。
同時(shí)通過(guò)持續(xù)的獲取知識(shí)和積累知識(shí),百度大腦的理解能力和智能化水平也在不斷的升級(jí),從而更好的支撐不同的應(yīng)用場(chǎng)景。那么我們是依靠什么技術(shù)來(lái)去驅(qū)動(dòng)百度大數(shù)據(jù)的智能化升級(jí)呢?這里我想簡(jiǎn)要的介紹一下百度知識(shí)中臺(tái),百度指數(shù)中臺(tái)源于知識(shí)圖譜,這個(gè)曲線呢展示了知識(shí)圖譜,從2012年百度開(kāi)始研究到現(xiàn)在的一個(gè)發(fā)展的歷程。那么截止到目前,我們百度的知識(shí)圖譜已經(jīng)積累了50億的實(shí)體,5500億的事實(shí),日均響應(yīng)400億次的請(qǐng)求。
那么行業(yè)客戶為什么需要知識(shí)中臺(tái),或者說(shuō)數(shù)據(jù)到知識(shí)的轉(zhuǎn)換,能夠給行業(yè)客戶帶來(lái)一些什么樣的價(jià)值。其實(shí)知識(shí)中臺(tái)的提出是基于一個(gè)各行各業(yè),在大數(shù)據(jù)的智能化應(yīng)用中普遍面臨的一個(gè)挑戰(zhàn),就是要就是高如何高效的沉淀與利用知識(shí)。
這些挑戰(zhàn)主要體現(xiàn)在以下4個(gè)層面,第一個(gè)層面是知識(shí)生產(chǎn),行業(yè)大數(shù)據(jù)中往往蘊(yùn)含著非常多的海量的隱性知識(shí),這些隱性知識(shí)非結(jié)構(gòu)化率非常高,從數(shù)據(jù)中去用人工梳理出這些知識(shí)成本高效率低。
第二個(gè)層面是知識(shí)組織,行業(yè)大數(shù)據(jù)往往面臨著系統(tǒng)分制、碎片化和孤島化的一些現(xiàn)狀,數(shù)據(jù)的形態(tài)單一,難以直接的去表達(dá)業(yè)務(wù)的邏輯。
第三個(gè)層面是知識(shí)獲取,我們直接的從數(shù)據(jù)出發(fā),內(nèi)容缺乏理解,信息的獲取效率往往是非常低下的。
最后的層面是智能化應(yīng)用,簡(jiǎn)單的依賴傳統(tǒng)的大數(shù)據(jù)技術(shù),已經(jīng)在很多的智能化的應(yīng)用方向遇到了一些瓶頸,它的本質(zhì)原因其實(shí)是數(shù)據(jù)的深層表達(dá)能力的缺失,因此行業(yè)急需一套面向企業(yè)全生命周期的解決方案。
百度知識(shí)中臺(tái)就是這樣一款覆蓋企業(yè)支持全生命周期的解決方案。所謂的知識(shí)全生命周期就是指知識(shí)生產(chǎn)、知識(shí)組織、知識(shí)獲取和知識(shí)應(yīng)用,它涵蓋了企業(yè)內(nèi)多種模態(tài)的數(shù)據(jù),包括了用戶數(shù)據(jù)、內(nèi)容數(shù)據(jù)和數(shù)值數(shù)據(jù)。這些類型的數(shù)據(jù)涵蓋了我們傳統(tǒng)大數(shù)據(jù)類型的各個(gè)方面,同時(shí)它提供多場(chǎng)景層次的知識(shí)應(yīng)用能力,比如搜索能力,分析能力和更為高級(jí)的決策能力,最終助力企業(yè)去匯聚數(shù)據(jù)凝練知識(shí)復(fù)能業(yè)務(wù),提升企業(yè)的核心競(jìng)爭(zhēng)力。
百度知識(shí)中臺(tái)從技術(shù)層面可以下接企業(yè)的數(shù)據(jù)中臺(tái),能夠接入企業(yè)數(shù)據(jù)中臺(tái)中所蘊(yùn)含的海量結(jié)構(gòu)化、半結(jié)構(gòu)化和無(wú)結(jié)構(gòu)化數(shù)據(jù)。在基礎(chǔ)技術(shù)層面,能獲得百度在人工智能的多項(xiàng)核心積累,包括了知識(shí)圖譜技術(shù),自然語(yǔ)言處理技術(shù),語(yǔ)音技術(shù)、圖像技術(shù),然后以及和傳統(tǒng)大數(shù)據(jù)息息相關(guān)的數(shù)據(jù)科學(xué)技術(shù)。在產(chǎn)品舉證層面,能夠直接向企業(yè)客戶提供三個(gè)標(biāo)準(zhǔn)化的產(chǎn)品,分別是企業(yè)搜索智能知識(shí)庫(kù)和知識(shí)圖譜決策引擎。
這三個(gè)標(biāo)準(zhǔn)化產(chǎn)品可以由淺入深的滿足企業(yè)不同場(chǎng)景,不同層次的知識(shí)體系構(gòu)建與智能化的應(yīng)用需求。從2018年到2020年,,兩年來(lái)我們已經(jīng)賦能了眾多的行業(yè),比如說(shuō)在金融行業(yè),我們?nèi)プ鲋悄芸头L(fēng)控管理,在醫(yī)療行業(yè),我們基于知識(shí)中臺(tái)去做醫(yī)療臨床輔助決策和病案指控,在媒體行業(yè)我們基于知識(shí)中臺(tái)去做輔助創(chuàng)作和內(nèi)容生產(chǎn),還有政務(wù)、教育、司法、辦公,其中自然包括最近一年我們重點(diǎn)投入的能源和電力行業(yè)。
目前,能源和電力行業(yè)正處在一個(gè)大數(shù)據(jù)智能應(yīng)用化的一個(gè)轉(zhuǎn)型的一個(gè)變革期。我們認(rèn)為,相比于其他行業(yè),能源和電力行業(yè)在沉淀知識(shí)這個(gè)層面面臨著更艱巨的挑戰(zhàn)。
首先,是能源行業(yè)數(shù)據(jù)體驗(yàn),單系統(tǒng)Pb級(jí)的數(shù)據(jù)非常常見(jiàn),以南方電網(wǎng)為例,就是Pb級(jí)的數(shù)據(jù)系統(tǒng)有10余個(gè),在和百度共建的這個(gè)非結(jié)構(gòu)化數(shù)據(jù)平臺(tái)中,我們已經(jīng)目前承載了百Pb級(jí)的這個(gè)數(shù)據(jù)。
其次,是數(shù)據(jù)種類非常多,能源行業(yè)的這個(gè)業(yè)務(wù)形態(tài)非常專業(yè),而且知識(shí)形態(tài)會(huì)更加復(fù)雜,數(shù)據(jù)形態(tài)有各種邊緣設(shè)備所產(chǎn)生出的這個(gè)數(shù)據(jù)數(shù)據(jù),還有各種業(yè)務(wù)文檔,長(zhǎng)期積累的這個(gè)海量的文本數(shù)據(jù),還有企業(yè)在用戶和管理經(jīng)營(yíng)的過(guò)程中所產(chǎn)生的運(yùn)營(yíng)數(shù)據(jù),最后還有非常多的音頻圖片和視頻等多模態(tài)數(shù)據(jù),而這些體量大種類多的數(shù)據(jù)利用率是非常低的,因?yàn)槠浔举|(zhì)原因就是行業(yè)尤其是能源電力行業(yè),缺乏一套知識(shí)體系建設(shè)和智能化應(yīng)用的解決方案。
目前,我國(guó)大數(shù)據(jù)的整體利用率只有0.4%,大數(shù)據(jù)的價(jià)值急需被知識(shí)化的沉淀和利用。有電網(wǎng)專家分析稱,每當(dāng)大數(shù)據(jù)的利用率提高10%,我們就能夠使電網(wǎng)的利潤(rùn)率提高20%~50%。因此,數(shù)據(jù)知識(shí)化的潛在經(jīng)濟(jì)效益是非常大的。
能源電力行業(yè)的應(yīng)用范圍業(yè)務(wù)范圍非常廣,我們覆蓋到了電力的發(fā)輸電配用這5大環(huán)節(jié),因此對(duì)于知識(shí)應(yīng)用的能力層級(jí)和覆蓋度也提出了更高的要求。我們認(rèn)為,與能源電力行業(yè)相比,其他行業(yè)更需要在數(shù)據(jù)中臺(tái)之上去建立知識(shí)中臺(tái),來(lái)助力企業(yè)實(shí)現(xiàn)大數(shù)據(jù)智能化應(yīng)用的一個(gè)轉(zhuǎn)型,實(shí)現(xiàn)由淺入深三個(gè)層次的智慧化電力能源應(yīng)用。
基于智能知識(shí)庫(kù),我們可以解決業(yè)務(wù)檢索咨詢、電力問(wèn)答機(jī)器人、電力資產(chǎn)管理等類型的業(yè)務(wù)應(yīng)用,以及基于更加高級(jí)的圖譜決策引擎,我們可以深入到電力業(yè)務(wù)的本質(zhì)去解決故障,我們現(xiàn)在不在公司啊電力智能調(diào)度等等形態(tài)的這個(gè)業(yè)務(wù)應(yīng)用。
總結(jié)起來(lái),能源電力知識(shí)中臺(tái)的業(yè)務(wù)價(jià)值主要體現(xiàn)在以下4個(gè)層面,提煉知識(shí)價(jià)值,打破數(shù)據(jù)孤島,降低維護(hù)成本和提升運(yùn)營(yíng)效率。
下面,我和大家分享三個(gè)過(guò)去一年中我們?cè)谀茉措娏π袠I(yè)的一些實(shí)踐案例,這三個(gè)案例分別體現(xiàn)了知識(shí)中臺(tái)的三個(gè)標(biāo)準(zhǔn)化產(chǎn)品,在企業(yè)知識(shí)體系建設(shè)與智能化應(yīng)用中發(fā)揮的重要價(jià)值。同時(shí),它也印證了從數(shù)據(jù)到知識(shí)的轉(zhuǎn)化,能夠給我們企業(yè)所帶來(lái)的效益的三個(gè)非常經(jīng)典的案例。
第一個(gè)案例是依托企業(yè)搜索,打造南方電網(wǎng)的自搜。依托知識(shí)中臺(tái)的核心能力,我們助力南網(wǎng)集團(tuán)公司實(shí)現(xiàn)了全業(yè)務(wù)全類型和是探全時(shí)態(tài)數(shù)據(jù)和信息的精準(zhǔn)查詢便捷獲取,這已經(jīng)在今年7月成功上線。
在這個(gè)項(xiàng)目中,通過(guò)系統(tǒng)性的資源建設(shè)中,引入了包括業(yè)務(wù)數(shù)據(jù)、辦公信息、資產(chǎn)信息、材料協(xié)同、行業(yè)資訊、內(nèi)容運(yùn)營(yíng)等6大數(shù)據(jù)源的數(shù)據(jù),并且對(duì)這引入的6大數(shù)據(jù)源的數(shù)據(jù)進(jìn)行了非常系統(tǒng)的知識(shí)生產(chǎn),知識(shí)構(gòu)建和知識(shí)應(yīng)用,服務(wù)的人群滿足了全集團(tuán)員工辦公和業(yè)務(wù)搜索的需求。截止到目前,全系統(tǒng)的知識(shí)化數(shù)據(jù)量已經(jīng)達(dá)到4億家,然后集團(tuán)內(nèi)累計(jì)用戶搜索次數(shù)1616萬(wàn)。
第二個(gè)案例,是借助智能知識(shí)庫(kù)來(lái)去實(shí)現(xiàn)電力投資項(xiàng)目管理分析。智能知識(shí)庫(kù)體現(xiàn)了一個(gè)超越搜索的直接知識(shí)滿足能力。這背后依托的基礎(chǔ)就是這種知識(shí)平臺(tái)的技術(shù),能夠在智能問(wèn)答的層面給大家提供更加便利的搜索體驗(yàn)。
目前百度在搜索產(chǎn)品中,所謂的直接滿足率已經(jīng)達(dá)到百分之五十七,在這個(gè)項(xiàng)目中,我們就是將這一系列技術(shù),運(yùn)用到了企業(yè)的電力投資項(xiàng)目管理分析的應(yīng)用過(guò)程中。基于這個(gè)產(chǎn)品,我們將集團(tuán)內(nèi)發(fā)電、環(huán)保、金融等10余個(gè)核心的業(yè)務(wù)系統(tǒng)來(lái)去進(jìn)行一個(gè)知識(shí)互聯(lián)化,打破數(shù)據(jù)的隔離壁壘,大幅度的提升了集團(tuán)投資管理效率,降低了這個(gè)項(xiàng)目的系統(tǒng)性風(fēng)險(xiǎn)。
具體而言,在這個(gè)項(xiàng)目中,基于支持中臺(tái)的電力管理投資知識(shí)庫(kù)呢對(duì)接集團(tuán)的大數(shù)據(jù)平臺(tái),融合了集團(tuán)50%以上的這個(gè)業(yè)務(wù)系統(tǒng),提供了投資風(fēng)險(xiǎn)分析、項(xiàng)目運(yùn)營(yíng)提報(bào)、電力客戶營(yíng)銷和可視化關(guān)聯(lián)統(tǒng)計(jì)等等知識(shí)應(yīng)用能力,全系統(tǒng)的知識(shí)問(wèn)答覆蓋率達(dá)到80%以上,知識(shí)問(wèn)答的準(zhǔn)確率在98%以上。
最后一個(gè)案例,是基于圖譜決策引擎來(lái)去實(shí)現(xiàn)核電設(shè)備的故障分析,這是基于知識(shí)直接去進(jìn)行業(yè)務(wù)的輔助決策的一種形態(tài)。在這個(gè)項(xiàng)目中初步?jīng)Q策引擎,將數(shù)據(jù)運(yùn)營(yíng)中心中的多種數(shù)據(jù),包括了結(jié)構(gòu)化的數(shù)據(jù)和無(wú)結(jié)構(gòu)化的數(shù)據(jù),去進(jìn)行一個(gè)系統(tǒng)化的知識(shí)圖譜的構(gòu)建,形成了千萬(wàn)級(jí)別的設(shè)備知識(shí)圖譜,能夠支持上百種的故障分析和診斷模式,為一線操作人員去秒級(jí)別的提供故障根因分析與操作步驟建立,從而達(dá)成沉淀與傳承一線操作人員的經(jīng)驗(yàn)知識(shí),顯著的降低設(shè)備誤診率與處理時(shí)長(zhǎng),大幅提升現(xiàn)場(chǎng)運(yùn)維處理效能的目標(biāo)。
最后,結(jié)合人工智能最新的發(fā)展趨勢(shì),以及我們對(duì)行業(yè)需求的洞察,我們認(rèn)為深度挖掘大數(shù)據(jù)的價(jià)值,將數(shù)據(jù)到知識(shí)的信息的轉(zhuǎn)化,進(jìn)一步的沉淀為人工智能系統(tǒng)所能消費(fèi)的知識(shí),是普世性的支持各類人工智能應(yīng)用目前所最需要攻克的一個(gè)難題。
以上就是我今天分享的全部?jī)?nèi)容,未來(lái)百度知識(shí)中臺(tái)愿意攜手更多的能源電力客戶與伙伴,用知識(shí)來(lái)助力電力行業(yè)實(shí)現(xiàn)智能化的轉(zhuǎn)型,謝謝大家。
(根據(jù)速記整理,未經(jīng)嘉賓審核)
評(píng)論