專家漫談｜語言模型是什麼？它到底有何用途？

2023-06-07 09:03 作者：吳汶燕來源：同濟大學軟件學院閱覽：

　　語言模型(英文Language Model，簡稱LM)是一種單純的、統一的、抽象的形式系統，語言客觀事實經過語言模型的數學描述，比較適合於計算機進行自動處理，因而語言模型對於人工智慧（AI），尤其是自然語言處理(NLP)具有重大的意義。
　　語言模型是自然語言處理的重要組成部分，可以用於許多自然語言處理任務；它主要用於描述自然語言的分布規律，是一個非常基礎和重要的自然語言處理任務。利用語言模型，可以計算一個詞或者一句話的概率；也可以在給定上下文的條件下，對接下來可能出現的詞進行概率分布的估計。
　　語言模型主要有三種類型：生成性模型、分析性模型和辨識性模型。生成性模型從一個形式語言系統出發，生成語言的某一集合；分析性模型從語言的某一集合開始，根據對某一集閤中各個元素的性質的分析，闡明這些元素之間的關係，並在此基礎上用演繹的方法建立語言的規則系統；辨識性模型可以通過有限步驟的運算，確定某一集閤中各個元素是一堆亂七八糟的詞還是語言中合格的句子。
　　自然語言處理近年來發生了革命性的變化，特別預訓練語言模型的開發和使用，在許多應用方面都取得了顯著的成績。預訓練語言模型有兩個主要優點：一是可以顯著提高許多自然語言處理任務的準確性；另一是通用的語言處理工具。如果在傳統的自然語言處理中進行基於機器學習的任務，需要標記大量的數據來訓練模型。人們發現，訓練語言模型的本質就是進行統計分析。
　　概率的計算方式就是語言模型中的核心內容。語言模型可以應用到機器翻譯、文本生成和拼寫糾錯等諸多領域。語言模型最主要的作用是保證文本的文法結構，得到通順的語句。語言模型基於概率統計的方法，已經訓練好的語言模型可以對任何一個文本給出概率，概率越高說明文法上越通順。通過比較兩句話在同一個語言模型上的概率，就可以得出哪一句話更通順一些。
　　人們利用數學手段建立語言模型主要有兩種方法：一種是基於概率論，另一種是基於形式語言理論；而這兩種方法也可以結合使用。從基本框架的觀點來看，語言模型屬於第一類。在形式上，語言模型是一個定義在單詞序列(一個句子或一個段落)上的概率分布，是基於概率論、統計學、資訊論和機器學習的自然語言文本建模工具。
　　近年來，通過深度學習得到的神經語言模型，特別是最近開發的預訓練語言模型，已經成為自然語言處理的基礎技術。語言模型可以用來計算語言的概率(詞序列)或生成語言。在後一種情況下，自然語言的句子或文章可以從語言模型中隨機抽樣，從大量數據中學習的長短期記憶網路（LSTM）語言模型可以生成相當自然的句子。
　　神經語言建模似乎是迄今為止最成功的方法。語言建模的基本特徵沒有改變，也就是說，它依賴於在一個包含所有單詞序列的離散空間中定義的概率分布。學習過程就是找到最優模型，以便用交叉熵預測語言數據的最高準確性。神經語言模型的優勢在於，它可以利用複雜的模型、大數據和強大的計算能力非常精確地模擬人類語言行為。
　　人們發現，只有語言模型規模足夠大，機器才可能具備推理能力。而大型語言模型(LLM)代表著人工智慧領域的重大進步，並有望通過習得的知識改變該領域。在過去幾年中，大型語言模型的規模每年增加10倍，而且隨著這些模型的複雜程度和規模的增加，其性能也在不斷發展。
　　大型語言模型階段從2023年起，目的是讓機器能聽懂人的命令、遵循人的價值觀。其特性是在第一個階段把過去的兩個階段縮成一個預訓練階段，第二階段轉換成與人的價值觀對齊，而不是向領域遷移。這個階段的突變性是很高的，已經從專用任務轉向通用任務，或是以自然語言人機接口的方式呈現。
　　最近，由美國人工智慧研究公司OpenAI開發的全新「聊天機器人」ChatGPT火了。作為一款人工智慧語言模型，它不僅能與人展開互動，還可以寫文章、制定方案、創作詩歌，甚至編寫代碼、檢查漏洞樣樣精通，上線僅兩個月全球活躍用戶破億。ChatGPT屬於大型語言模型，它是一個備受關注的研究課題。
　　目前，在大型語言模型方面主要有兩個優勢：一是技術，另一是數據。由於大型語言模型在全球正掀起熱潮，人工智慧技術的發展獲得里程碑式的突破，併產生了廣泛的影響。正如我國著名學者周海中先生在20世紀90年代初所預言的那樣：「人工智慧技術將廣泛應用到各學科領域，會產生意想不到的效果。」可以說，人工智慧技術將會對語言學和統計學產生深遠的影響。
　　文/吳汶燕(作者單位：同濟大學軟件學院)

專家漫談｜語言模型是什麼？它到底有何用途？

最近关注

臺灣李尚哲勇奪第九屆“華燦獎”最高獎項“

專家略談｜人工智能技術與預測學研究

专家略谈｜人工智能技术与预测学研究

人工智慧時代的到來，有哪些工作難以代替？

人工智能时代的到来，有哪些工作难以代替？

热点内容