懂行業(yè)AI:以KG訓(xùn)練智能體(Agent)
1 認(rèn)識(shí)懂行業(yè)AI
懂行業(yè)AI的目標(biāo)是將企業(yè)中寶貴的專家智能,以結(jié)構(gòu)化知識(shí)形式沉淀下來(lái),使AI 不僅具備聊天或分類能力,更能在具體情境中進(jìn)行決策。于是,企業(yè)得以將人的經(jīng)驗(yàn)轉(zhuǎn)化為可復(fù)制、可稽核、可優(yōu)化的資產(chǎn),進(jìn)一步降低風(fēng)險(xiǎn)、提升效率,并實(shí)現(xiàn)個(gè)人化與長(zhǎng)期優(yōu)化,形成企業(yè)的護(hù)城河。
懂行業(yè)AI建置的途徑有很多,本文采取的途徑是一套由可解釋性的KG(知識(shí)圖),結(jié)合可學(xué)習(xí)模型(如GNN/RL),還可以連接到可互動(dòng)環(huán)境DT(數(shù)字孿生),形成一個(gè)死循環(huán)系統(tǒng)。如下圖所示:

這途徑不僅提升AI 決策能力,更能促進(jìn)人類專家反思與知識(shí)演化,形成AI 與人類專家共同進(jìn)化的良性循環(huán)。它扮演一個(gè)行業(yè)智慧決策平臺(tái)。其核心元素是:
1.1 知識(shí)圖譜(KG):提供語(yǔ)意理解與推理基礎(chǔ)
● 建立行業(yè)性KG,表達(dá)行業(yè)數(shù)據(jù)(如中醫(yī)、建筑、醫(yī)療記錄)。
● 基于三層KG 架構(gòu),轉(zhuǎn)換成任務(wù)型KG,針對(duì)特定目標(biāo)擷取語(yǔ)意。
1.2 圖神經(jīng)網(wǎng)絡(luò)(GNN):將圖數(shù)據(jù)轉(zhuǎn)為可學(xué)習(xí)嵌入向量
● GCN / GAT 處理節(jié)點(diǎn)關(guān)系與特征融合。
● 可進(jìn)一步進(jìn)行相似性分析、連結(jié)預(yù)測(cè)、反事實(shí)連結(jié)等。
1.3 強(qiáng)化學(xué)習(xí)(RL)–為智能體(Agent)學(xué)習(xí)策略與決策
● 定義環(huán)境、狀態(tài)、行動(dòng)、獎(jiǎng)勵(lì)??山Y(jié)合DQN 進(jìn)行訓(xùn)練。
● KG作為背景知識(shí),提升策略合理性與人類可接受性
1.4 數(shù)字孿生(DT)–與真實(shí)世界連結(jié),實(shí)現(xiàn)模擬與互動(dòng)
● 將環(huán)境模型化為具反饋機(jī)制的DT(Digital Twin),融入實(shí)體設(shè)備、傳感器數(shù)據(jù)或歷史操作紀(jì)錄。
● DT 可成為智能體的學(xué)習(xí)平臺(tái),也可接收AI 決策反饋。
2 以KG表達(dá)領(lǐng)域?qū)<业闹腔?/strong>
知識(shí)是人類理解和進(jìn)步的基石。隨著世界不斷推動(dòng)數(shù)字轉(zhuǎn)型,互聯(lián)互通日益加深,信息量和復(fù)雜性呈指數(shù)級(jí)增長(zhǎng)。在這個(gè)信息豐富的環(huán)境中,組織、鏈接和理解數(shù)據(jù)的需求已變得非常重要。這就是知識(shí)圖(KG:Knowledge Graph)發(fā)揮功效之處。
例如,中華文化里的五行知識(shí)里,五行中的每一種元素都具有獨(dú)特的屬性。元素之間的關(guān)系會(huì)增強(qiáng)或抑制我們生存發(fā)展的能力。五行之間有兩種相互作用的循環(huán):相生與相克。此外,還可以連結(jié)到十二生肖,如下圖所示:

這些領(lǐng)域知識(shí)形成一套獨(dú)特的生肖文化,不僅用于紀(jì)年,還融入了婚姻擇配、本命年、祈福、春聯(lián)、繪畫等各種民間信仰和藝術(shù)創(chuàng)作中。而且,KG 恰好適合于表達(dá)這種網(wǎng)狀結(jié)構(gòu)的知識(shí)。
3 把KG納入RL強(qiáng)化學(xué)習(xí)的環(huán)境中
強(qiáng)化學(xué)習(xí)(RL: Reinforcement Learning)是一種機(jī)器學(xué)習(xí)方法,其中智能體(Agent)透過(guò)與環(huán)境(Environment)互動(dòng)來(lái)學(xué)習(xí)最優(yōu)決策,并因其行為獲得獎(jiǎng)勵(lì)(正向)或懲罰(負(fù)向),從而模擬人類的試誤學(xué)習(xí)過(guò)程,以最大化長(zhǎng)期收益。
強(qiáng)化學(xué)習(xí)環(huán)境扮演著Agent 與其試圖掌握的世界之間的橋梁。每一步,Agent 選擇一個(gè)動(dòng)作(Action),而環(huán)境則會(huì)以新的狀態(tài)(State)和獎(jiǎng)勵(lì)(Reward)作為響應(yīng)。如下圖所示:

(圖引自:https://datatonic.com/insights/reinforcementlearning-identifying-opportunities-use-cases)
此時(shí)專家們發(fā)現(xiàn)到,KG透過(guò)提供上下文信息、提高預(yù)測(cè)準(zhǔn)確性和促進(jìn)數(shù)據(jù)沿襲跟蹤,對(duì)RL強(qiáng)化學(xué)習(xí)具有很大的優(yōu)化效果。例如,可以把< 五行+ 生肖> 的KG融入到RL學(xué)習(xí)環(huán)境中。如下圖:

這種結(jié)合KG 的RL 學(xué)習(xí)環(huán)境,就具有下述優(yōu)點(diǎn):
● 語(yǔ)意感知:狀態(tài)空間包含來(lái)自KG 的五行語(yǔ)意。
● 策略導(dǎo)向:獎(jiǎng)勵(lì)函數(shù)引導(dǎo)Agent 偏好合理、合宜的配對(duì)。
● 學(xué)習(xí)解釋性:可以解釋Agent 為什么推薦這對(duì)配對(duì)。
于是,讓Agent 學(xué)習(xí)領(lǐng)域知識(shí),而極可能成為的< 懂婚姻配對(duì)> 專家了。
4 實(shí)踐范例
茲以「護(hù)理夜間巡房」機(jī)器人為例,演練如何建立KG+RL 學(xué)習(xí)環(huán)境,來(lái)讓NurseAgent 學(xué)習(xí)「護(hù)理夜間巡房」基本流程和任務(wù)。夜間巡房是醫(yī)院大夜班護(hù)理人員在深夜對(duì)病房進(jìn)行定時(shí)或不定時(shí)的巡視、觀察與照護(hù),主要確保病人生命安全、處理緊急狀況、給予必要治療,并記錄病人狀況,以維護(hù)病人健康,也包括應(yīng)對(duì)病人需求與突發(fā)事件。
4.1 建立行業(yè)KG
首先,把「護(hù)理夜間巡房」的流程,整理成一張護(hù)理思考地圖:當(dāng)下處于哪個(gè)會(huì)話(state) →這一刻最重要的照護(hù)目的(intent)是什么→哪些行動(dòng)(action)可以達(dá)成這個(gè)目的。于是就可以定義KG 的節(jié)點(diǎn)型態(tài)(Node type),如下圖所示:

接著,繼續(xù)萃取專家知識(shí)里的三元組(Triple),即可定義出各節(jié)點(diǎn)的邊。如下圖所示:

除了< 結(jié)束班次> 之外,這KG 里每個(gè)狀態(tài)節(jié)點(diǎn)有其質(zhì)量鏈接,表示此階段(狀態(tài))本身的自然傾向或目的。在每一步執(zhí)行時(shí),環(huán)境會(huì)查該節(jié)點(diǎn)對(duì)NurseAgent所選的action 是否「符合目的」,并給予相應(yīng)獎(jiǎng)勵(lì)。這讓每個(gè)「狀態(tài)」不只是流程位置,更具有知識(shí)意義。
于是,這些知識(shí)透過(guò)KG 形式建立后,NurseAgent將從KG 中抽取關(guān)系、形成狀態(tài)轉(zhuǎn)移的邏輯,然后透過(guò)RL學(xué)習(xí)來(lái)提升其決策能力。這樣將專家的KG(結(jié)構(gòu)化知識(shí)) + RL 強(qiáng)化學(xué)習(xí)(動(dòng)態(tài)決策)結(jié)合,打造出可自我學(xué)習(xí)與進(jìn)化的NurseAgent,成為「護(hù)理夜間巡房」的好幫手。
4.2 與LLM一起建立RL學(xué)習(xí)環(huán)境
一旦建立好了KG,不論KG 的格式是*.json、*.bin或.png 等,一般的LLM(如ChatGPT、Gemini)都可以看懂,然后迅速幫忙撰寫Python 程序代碼,來(lái)建立一個(gè)RL 學(xué)習(xí)環(huán)境:

基于這個(gè)KG+RL 學(xué)習(xí)環(huán)境,就能展開(kāi)NurseAgent的學(xué)習(xí)流程了。夜間巡房不是一串動(dòng)作而已,而是每個(gè)時(shí)刻都有一個(gè)優(yōu)先照護(hù)目的,而所做的每個(gè)行為(動(dòng)作)都必須能完成那個(gè)目的。
在這學(xué)習(xí)過(guò)程中,其反復(fù)練習(xí)「在每個(gè)巡房階段,做什么最合理」。亦即,讓護(hù)理NurseAgent 在一個(gè)可控的夜間巡房模擬情境里,反復(fù)演練很多次,最后把最有質(zhì)量的巡房流程學(xué)出來(lái)并存成一份可用的“經(jīng)驗(yàn)表”(如Q-table)。當(dāng)學(xué)習(xí)完成了,就檢測(cè)看看其學(xué)習(xí)成果,如下:

從這輸出可以看到NurseAgent 已經(jīng)學(xué)會(huì)了一個(gè)簡(jiǎn)單的夜班巡房流程:
● 交班開(kāi)始:先做準(zhǔn)備(備物、確認(rèn)設(shè)備)。
● 巡房:以安全為主。
● 量測(cè)生命征象:以評(píng)估為主。
● 紀(jì)錄:撰寫護(hù)理紀(jì)錄。
● 下班結(jié)束。
5 結(jié)束語(yǔ)
在本范例的懂行業(yè)AI 系統(tǒng)建置中,KG 成為可學(xué)習(xí)的專家規(guī)則,而且讓AI 決策邏輯具有可解釋性。在學(xué)習(xí)過(guò)程中可逐步觀察,每一步執(zhí)行的結(jié)果和獎(jiǎng)勵(lì)信息也都明顯可查,于是讓夜間巡房任務(wù)流程具體貼近實(shí)務(wù)應(yīng)用。
(本文來(lái)源于《EEPW》202601)


評(píng)論