陳根：ChatDB提升LLM的復(fù)雜推理能力-今日熱訊

2023-06-30 13:31:59 來(lái)源：維科號(hào)

(資料圖)

文/陳根

自去年11月份，ChatGPT面世以來(lái)，大語(yǔ)言模型（Large Language Models，即LLM）瘋狂升級(jí)，不斷爆火。而如何讓大語(yǔ)言模型更好的應(yīng)對(duì)有很長(zhǎng)的上下文信息（超出其最大處理長(zhǎng)度）的場(chǎng)景，并利用相關(guān)歷史信息做復(fù)雜的推理，也就成了各國(guó)科學(xué)家們競(jìng)相攻堅(jiān)的熱點(diǎn)研究話題。

日前，清華大學(xué)和北京智源人工智能研究院的研究者們提出了一種新型的符號(hào)性（symbolic）記憶模塊，即用數(shù)據(jù)庫(kù)作為符號(hào)性記憶模塊來(lái)增強(qiáng)大語(yǔ)言模型。該符號(hào)性記憶框架由一個(gè)大語(yǔ)言模型和一個(gè)數(shù)據(jù)庫(kù)組成，稱(chēng)為ChatDB，其框架包含三個(gè)主要階段：輸入處理、記憶鏈和總結(jié)回復(fù)。其中，記憶鏈?zhǔn)且粋€(gè)新提出的方法，以更有效地操作符號(hào)性記憶模塊，從而進(jìn)一步增強(qiáng) LLMs 的推理能力。

在 ChatDB 中，大語(yǔ)言模型通過(guò)生成 SQL 指令來(lái)操縱數(shù)據(jù)庫(kù)，從而實(shí)現(xiàn)對(duì)記憶模塊中歷史信息精確的增刪改查，并在需要時(shí)為大語(yǔ)言模型提供信息，以幫助其回應(yīng)用戶(hù)的輸入。這樣可以讓大語(yǔ)言模型勝任需要對(duì)歷史信息進(jìn)行長(zhǎng)期且精確的記錄、處理和分析的場(chǎng)景，例如各種管理和分析系統(tǒng)，以后甚至有望替代管理者，直接讓大語(yǔ)言模型根據(jù)精確的歷史數(shù)據(jù)做分析和決策。

相比較于ChatDB，之前的記憶模塊設(shè)計(jì)，要么需要依靠文本的 vector embedding 之間的相似度，要么將歷史信息隱式地存儲(chǔ)在神經(jīng)網(wǎng)絡(luò)的權(quán)重中，都涉及神經(jīng)性的操作，無(wú)法像符號(hào)性操作那樣精確操縱記憶模塊中的歷史信息。所以，這些設(shè)計(jì)存在著沒(méi)有以結(jié)構(gòu)化的形式存儲(chǔ)歷史信息和對(duì)存儲(chǔ)在記憶模塊中的信息的操作不夠精確的問(wèn)題。

ChatDB 則是利用支持 SQL 指令的數(shù)據(jù)庫(kù)作為符號(hào)性記憶模塊，來(lái)支持對(duì)歷史信息抽象的、可拓展的和精確的操作。而且，符號(hào)性記憶模塊還可以跟之前的記憶模塊同時(shí)使用，起到相輔相成的作用，這無(wú)疑是極具優(yōu)勢(shì)的。

關(guān)鍵詞：