如何使用LLM建立行業(yè)KG（知識圖）

作者：高煥堂時間：2025-04-09 來源：EEPW

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

本文引用地址：http://www.ljygm.com/article/202504/469230.htm

1 KG與LLM完美結(jié)合

大語言模型（LLM）在各種應用領域中已經(jīng)取得了顯著的成功，但是它常常無法捕捉和掌握最新的事實知識。而另一方面，知識圖（Knowledge Graph，簡稱：KG）則擁有豐富的專家知識和事實知識，但它很難以構(gòu)建，又又不足以處理現(xiàn)實世界知識圖譜的動態(tài)變化性質(zhì)和因果推論功能等。因此，自然而然地將KG 和LLM結(jié)合起來，各自發(fā)揮優(yōu)勢，相輔相成，締造完美組合。

2 KG協(xié)助LLM：降低LLM幻覺

大家都知道，LLM 常有幻覺（Hallucination）現(xiàn)象，這是源于LLM 缺乏：準確性、可解釋性和可控性。那么，如何才能有效降低LLM 的幻覺風險呢？其中，知識圖（Knowledge Graph，簡稱：KG）與LLM 的結(jié)合，藉由KG 來建立的行業(yè)或企業(yè)的數(shù)據(jù)地圖，來將各數(shù)據(jù)與其涵意（Semantics）連結(jié)起來，化解上述LLM 的三項缺點，因而有效減少LLM 的幻覺現(xiàn)象。

LLM 天生非常善解文句和人意，可以簡化知識圖中的復雜數(shù)據(jù)的查詢或檢索。由于知識圖是實體（Entity）相互關聯(lián)的描述的集合，提供了有關知識圖中數(shù)據(jù)的重要上下文（Context）和內(nèi)容涵意，以便增強其響應速度和準確性。因而讓LLM 產(chǎn)生更精確、準確且與上下文相關的輸出，同時防止偏見和幻覺。

其典型的途徑是：使用RAG（檢索增強生成）技術。亦即，LLM 使用RAG 先檢索KG 來找到與用戶查詢最相關的知識。也可透過基于圖的搜索（Graph Traversal）或基于圖的嵌入檢索（Graph Embedding Retrieval）來檢索KG內(nèi)的信息。然后，把檢索到的KG知識作為上下文，反饋給LLM，于是LLM 就實現(xiàn)基于企業(yè)（或行業(yè)）內(nèi)知識而生成響應了，有效降LLM幻覺，提高AI在企業(yè)應用的可信度。

3 LLM 協(xié)助KG：加速建構(gòu)KG

剛才提到了，KG 是明確儲存豐富事實知識的數(shù)據(jù)結(jié)構(gòu)，然而KG 的構(gòu)建是費力又耗時的工作。于是，利用AI 模型（含LLM 等）來協(xié)助和加速建立KG，是一項高效的策略。例如，使用BERTopic 模型來從自由文本（Text）中萃取主題（Topic）作為候選實體（Entity）；接著，使用 LLM（如ChatGPT）來抽取實體之間的關系（Links）。這種策略是充分利用LLM 的強大上下文理解能力來識別實體之間的語義關系，尤其在無監(jiān)督式學習或少量標注數(shù)據(jù)的情況下，其效果特別好。

4 LLM加速建構(gòu)KG的范例

典型的KG建構(gòu)流程如下：

Step-1：識別實體（Entity）利用預訓練的AI 模型（例如BERTopic 等）從文本中識別出實體，例如食材、菜品、供貨商、烹飪方法等。尤其在缺乏充足的標注數(shù)據(jù)的應用情境中，BERTopic這種無監(jiān)督式學習的模型能夠自動從文本中發(fā)掘隱含的語義結(jié)構(gòu)。而且BERTopic 結(jié)合了Transformer 編碼器和聚類算法，更有利于捕捉文本中的語義關系，來生成較具可解釋性的主題，其更能夠映像到業(yè)務中具有代表性的概念或?qū)嶓w。經(jīng)由AI 模型萃取出的候選實體只需要少許的人工審核，來確保候選實體符合業(yè)務需求，讓KG的建構(gòu)更容易、更高效。簡而言之，此步驟的任務是，使用BERTopic 預訓練模型來提取種子實體列表，以指導KG 最相關的實體。這些種子實體保證了實體提取的高相關性，并為后續(xù)的三元組提取提供了較高精確度。

Step-2：抽取關系（Link）

LLM（如ChatGPT）具有強大上下文理解能力，可以精準識別出實體之間的語義關系。所以，LLM 很擅長基于上下文，而抽取實體之間的關系。例如：< 菜品包含某種食材> 或< 供貨商供應特定食材> 等。所以，使用LLM 來抽取實體之間的關系是可行且有效的，但為了提升準確度，可以設計提示詞（Prompt）限定關系類別，來提升準確性。還可以使用LoRA 等微調(diào)技術來讓LLM 更適合于企業(yè)（或行業(yè)）應用情境。此策略特別適合應用于企業(yè)KG 的構(gòu)建，例如餐飲業(yè)的食材知識圖譜，能幫助企業(yè)從大量文本中自動化發(fā)掘菜品、食材、供貨商、烹飪方式等關系，從而提升數(shù)據(jù)結(jié)構(gòu)化與應用價值。簡而言之，此步驟的任務是，使用LLM 進行候選三元組擷取。

Step-3：建構(gòu)KG

接著，將抽取出的實體和關系轉(zhuǎn)化為知識圖譜的節(jié)點（Node）與邊（Edge），形成初步的KG。也可以考慮使用圖數(shù)據(jù)庫（如Neo4j）來存儲和查詢它。簡而言之，此步驟的任務是，進一步整理并存儲萃取的三元組，并且運用圖數(shù)據(jù)庫（如 Neo4j）來查詢和可視化。

Step-4：KG融合

接著，將抽取出的實體和關系轉(zhuǎn)化為知識圖譜的節(jié)點（Node）與邊（Edge），形成初步的KG。也可以考慮使用圖數(shù)據(jù)庫（如Neo4j）來存儲和查詢它。最后，針對不同數(shù)據(jù)來源中同一實體的重復或歧義問題，需要利用實體對齊技術進行融合，確保知識圖譜的準確性和一致性。兩個實體之間提取的關系可能是沖突的、多樣化的或不正確的，這需要透過融合步驟來解決的。融合方法有助于調(diào)和沖突關系，有效地整合不同或不正確的關系，例如針對相同實體的不同表達進行融合和標準化，例如「西紅柿」和「西紅柿」歸為同一食材。并且可考慮與外部知識庫（如企業(yè)內(nèi)部庫）連接，進行實體消歧或補全。簡而言之，此步驟的任務是，設計了新穎的融合模塊，該模塊提供了提取的知識的全局視圖，優(yōu)化三元組、提升KG 質(zhì)量。

5 結(jié)語

本文說明運用LLM 來協(xié)助建構(gòu)KG 的目的及其典型的流程。例如，從自由文本（如食譜）中自動構(gòu)建KG，包含：

● 實體（Entities）：使用 BERTopic 萃取候選實體（Entities）。自動從文本中發(fā)現(xiàn)核心概念，例如食材、菜品名稱、烹飪方法等。

● 關系（Links）：使用LLM 萃取關系（Links）?；谖谋旧舷挛模孡LM自動識別實體間的關系。例如，食材與菜品的關系、烹飪方式與食材的關系等。

● 三元組（Triples）：整理并存儲萃取的三元組（實體1，關系，實體2），構(gòu)建KG，并運用圖數(shù)據(jù)庫來查詢和可視化。

綜上所述，使用BERTopic 來從無標注的文本自動提取主題，作為候選實體，能大幅減少人工成本。接著，LLM 來透過上下文理解來自動抽取關系，也減少手動標注需求。這種AI 模型的組合策略，能適用于建構(gòu)不同領域的KG，如餐飲、醫(yī)療、供應鏈等。也具有可擴展性，若需要增添新類型的實體或關系，只需調(diào)整LLM 的提示詞或進行微調(diào)即可，也可以節(jié)省模型的訓練成本。所以，這是一種頗具有成本效益的AI 模型組合策略。

（本文來源于《EEPW》202503）

国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

新聞中心

如何使用LLM建立行業(yè)KG（知識圖）

評論

相關推薦

技術專區(qū)