專家漫談｜大語言模型MOSS

2023-09-17 11:12 作者：張樹仁、何宏亮來源：西安交通大學、澳門科技大學閱覽：

　　最近，我國第一個對話式大語言模型MOSS由上海復旦大學邱錫鵬教授領導的研究團隊發布至公開平台，一經發布便引起高度關注。它是一款為用戶而設計的工具，屬於類ChatGPT模型；它可以執行對話生成、編程、事實問答等一系列任務，打通了讓生成式語言模型理解人類意圖並具有對話能力的全部技術路徑。這條路徑的走通，為國內學術界和產業界提供了重要經驗，將助力大語言模型的進一步探索和應用。

　　MOSS開發的基本步驟與ChatGPT一樣，包括自然語言模型的基座訓練、理解人類意圖的對話能力訓練兩個階段。在對話能力訓練階段，美國人工智慧研究公司OpenAI收集了至少幾十萬條人類指令，讓各行各業的專業標註員寫出指令回復，再將牠們輸入模型基座，以幫助ChatGPT逐步理解各種指令。復旦團隊則採用不同的技術路線，通過讓MOSS和人類以及其他對話模型都進行交互，顯著提昇了學習效率和研發效率，短時間內就高效完成了對話能力訓練，以儘快賦能國內的人工智慧產業。
　　為了探索ChatGPT的技術路線，並獲得大語言模型研究的一手經驗，復旦團隊加快了MOSS開發。如今，MOSS成為國內首個公開亮相的類ChatGPT語言模型，「端到端」走通了大語言模型的開發全程。據悉，這款人工智慧助手已進入內測階段，內測將在用戶許可的情況下獲取數據，還將收集用戶的反饋意見，期待藉此大幅增強MOSS的對話能力。MOSS的回答語言流暢、邏輯清晰且觀點正確。但研究人員也坦誠指出，當前版本的MOSS表現不夠穩定，有些回答存在事實差錯或邏輯不順。
　　在邱錫鵬教授看來，開源是人工智慧發展如此快速的原因之一；他說：「從早期可能以10年為單位發展，到最近幾年可以看到，以大型預訓練模型、大型模型推動人工智慧發展，它的突破性模型發展時間大概已經縮短到以年為單位，人工智慧已經成為計算機學科裡發展最快的領域之一。背後的原因是什麼呢？離不開兩個字，就是開源。」這背後的邏輯在於，開源讓整個科研過程形成良性閉環。
　　在對話方面，MOSS的英文回答水準比中文高，因為它的模型基座學習了3000多億個英文單詞，中文詞語只學了約300億個。可見，MOSS的最大短板是中文水準不夠高，主要原因是互聯網上中文網頁干擾資訊如廣告很多，清洗難度很大。為此，復旦大學自然語言處理實驗室正在加緊推進中文語料的清洗工作，並將清洗後的高質量中文語料用於下一階段模型訓練。研究人員相信，這將有效提昇模型的中文對話能力。
　　日前，邱錫鵬教授談到了MOSS的研究進展。他說：「它是國內第一個發布的類ChatGPT模型，我們也是最早提出開源的插件增強版本，比OpenAI的發布都更早。」復旦團隊當時就意識到，語言模型不只是用來對話，最重要的是它作為使用工具和外部世界相連接時對人的賦能。邱教授還說：「我們現在也在不斷提高，會有些更新的結果，在原來的能力基礎上取得大幅提昇。」
　　語言模型由早期的專家系統到深度學習，再到現在參數量上千億或萬億的大模型，總體上進入參數量和訓練數據都大規模發展的狀態。但這些千億語言模型或百億語言模型不是最近才出現的，可能幾年前就有了。以前是把一個語言模型作為基座，運用到不同任務中，每個任務要微調一個自己的模型；而現在大語言模型有了新的內涵，即一個模型能夠解決所有問題，如MOSS的出現使大語言模型變得更加流行。
　　由上我們看到了MOSS是如何創建自己的語言模型的，以及它當前所面臨的問題。語言模型是自然語言處理的重要組成部分，可以用於許多自然語言處理任務。目前自然語言處理已經進入大語言模型時代，其發展前景十分可觀。正如我國著名學者周海中教授說的那樣，自然語言處理是極有吸引力的研究領域，它具有重大的理論意義和實用價值。
　　文/張樹仁、何宏亮（作者單位分別為西安交通大學、澳門科技大學）

專家漫談｜大語言模型MOSS

最近关注

臺灣李尚哲勇奪第九屆“華燦獎”最高獎項“

專家略談｜人工智能技術與預測學研究

专家略谈｜人工智能技术与预测学研究

人工智慧時代的到來，有哪些工作難以代替？

人工智能时代的到来，有哪些工作难以代替？

热点内容