當前位置：前瞻產業研究院 ? 經濟學人 ? 研究員專欄

大語言模型發展現狀及中外大語言模型發展狀況對比中國大語言模型正處于追趕階段【組圖】

分享到：

黃皓月 ? 2024-06-14 14:08:41 　來源：前瞻產業研究院　E17961G0

行業主要上市公司：百川智能(A04400.SH)、昆侖萬維(300418.SZ)、拓維信息(002261.SZ)、浪潮信息(000977.SZ)、科大訊飛(002230.SZ)等

本文核心數據：國內外主要大語言模型數據;中外代碼預訓練模型對比表;大語言模型研發技術國內外主要研究機構及代表性成果等

國內外主要大語言模型數據集

得益于開源共創的互聯網生態，海外已有大量優質、結構化的開源數據庫，文本來源既包含嚴謹的學術寫作、百科知識，也包含文學作品、新聞媒體、社交網站、流行內容等，更加豐富的語料數據能夠提高模型在不同情景下的對話能力。而受制于搭建數據集較高的成本以及尚未成熟的開源生態，國內開源數據集在數據規模和語料質量上相比海外仍有較大差距，數據來源較為單一，且更新頻率較低，從而導致模型的訓練效果受限。因此，大模型廠商的自有數據和處理能力構成模型訓練效果差異化的核心。受益于移動互聯網時代積累的海量用戶、應用和數據，互聯網企業在自有數據上更具特色化和獨占性，疊加更強大的數據處理能力，從而能夠通過數據優勢帶來模型訓練成果的差異。例如，阿里在研發M6時，構建了最大的中文多模態預訓練數據集M6-Corpus，包含超過1.9TB圖像和292GB文本，涵蓋百科全書、網頁爬蟲、問答、論壇、產品說明等數據來源，并設計了完善的清潔程序以確保數據質量。百度ERNIE模型的訓練數據集中也運用了大量百度百科、百度搜索以及百度知識圖譜等生態內數據，通過更高質量的數據保障了模型的訓練效果。

圖表1：國內外主要大語言模型數據集

代碼預訓練模型正成為新的熱點

同樣，預訓練語言模型就是預訓練方法在自然語言處理領域中的應用，本質上是對自然語言的表示學習，是將自然語言轉化為讓機器可以處理的數據表達形式。預訓練語言模型先通過大量的語料(通常是無標注的數據)進行訓練，得到一個通用的語言表征模型，然后再使用面向具體任務的少量語料，就可以完成下游任務的訓練。近年來，代碼預訓練模型正在成為一個新的熱點，并且與語言大模型的發展不可分割，這些模型在代碼相關任務上已經展示了出色的性能。

圖表2：截至2024年中外代碼預訓練模型對比表(單位：M，B，token，G)

注：該圖表數據截至2024年1月。

中國大語言模型研究已取得一定成果

語言大模型研發技術國內外情況差異較大，盡管國內大語言模型研究已取得了一定成果，但與美國仍然具有一定差距，尤其在端到端語言大模型研發技術，中國暫沒有比肩美國的成果。

圖表3：大語言模型研發技術國內外主要研究機構及代表性成果

國內外主要大語言模型研發路徑與技術對比

在大語言模型(LLMs)的全球競技場中，ChatGPT與Google的Gopher、LaMDA，以及Meta的Llama等構成了國際標桿，而國內則由百度的“文心一言”、360的大語言模型、阿里的“通義千問”和商湯的“商量”等引領潮流。從對話和文本生成能力的角度，ChatGPT暫居優勢，但這并非因為技術壁壘不可逾越。實際上，Google等國外企業因戰略和技術理念選擇了不同的發展路徑，這是其暫時落后的主因。隨著新技術的不斷涌現，趕超ChatGPT并非不可能。相對而言，百度等國內企業在數據集、計算能力和工程化方面存在短板，短期內難以實現對國外模型的迎頭趕上，這更多地需要國內AI產業全鏈條的協同進步。

在影響大語言模型性能的因素方面，訓練數據、模型規模(即參數數量)、生成算法和優化技術被認為是核心變量。然而，如何準確量化這些因素對模型性能的具體影響，目前還處于探索階段，沒有明確的結論。總體來看，世界頂級的大語言模型在技術層面上尚未拉開明顯的差距。

圖表4：截至2024年國內外主要大語言模型研發路徑與技術對比

注：該圖表數據截至2024年1月。

國內外大語言模型商業化路徑對比

在戰略業務拓展方面，ChatGPT已經形成了明確且差異化的商業路線，主要圍繞API、訂閱制和戰略合作(例如與微軟的Bing、Office等軟件的嵌入合作)三大營收模式，在用戶數據積累、產品布局和生態建設等方面已具備明顯的先發優勢。而Google由于其主營業務是搜索引擎，對于聊天機器人等產品的發展相對保守，更注重利用大模型能力來推動“模型即服務”范式，以拓展其在云服務市場的份額。作為國內大模型的標桿企業，百度的戰略更接近Google，主要針對B端市場，通過全棧優勢來構建全鏈能力

圖表5：國內外主要大語言模型商業化進展對比