【關注】自然語言處理：人工智慧技術的王冠

2022-04-06 09:19 作者：唐越來源：美國Google公司閱覽：

　　人工智慧（AI）作為新一輪科技革命和產業變革的重要驅動力量，正在深刻改變世界，並引起了人們極大的關注。而自然語言處理(NLP)是人工智慧技術的王冠，它推動著當代科技的持續發展和重大突破，並越來越多地應用於各行各業；它有著十分重要的實用價值，也有著革命性的理論意義。正如中國著名學者周海中先生曾經所言：「自然語言處理是極有吸引力的研究領域，它具有重大的理論意義和實用價值。」

　　自然語言處理是一門融計算機科學、語言學、數學等於一體的前沿交叉科學，也是計算機科學領域尤其人工智慧技術中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。實現人機間自然語言通信意味著要使計算機既能理解自然語言文本的意義，也能以自然語言文本來表達給定的意圖、思想等；前者稱為自然語言理解，後者稱為自然語言生成。因為處理自然語言的關鍵是要讓計算機「理解」自然語言，所以通常把自然語言理解視為自然語言處理，也稱為計算語言學（computational linguistics）。
　　作為前沿交叉科學，自然語言處理涉及到自然語言，即人們日常使用的語言，所以它與語言學的研究有著密切的聯繫，但又有重要的區別。自然語言處理並不是一般地研究自然語言，而在於研製能有效地實現自然語言通信的計算機系統，特別是其中的軟體系統，因而它是計算機科學的一部分。另外，自然語言處理與語言智能有著十分密切的關係，因而它也是人工智慧技術的一個重要，甚至核心部分。可以說，自然語言處理是計算機科學、人工智慧、語言學關注計算機和人類語言之間的相互作用的領域。
　　自然語言處理的目的就是利用計算機對自然語言進行智能化處理。基礎的自然語言處理主要圍繞語言的不同層級展開，包括音位（語言的發音模式）、形態（字、字母如何構成單詞、單詞的形態變化）、詞彙（單詞之間的關係）、句法（單詞如何形成句子）、語義（語言表述對應的意思）、語用（不同語境中的語義解釋）、篇章（句子如何組合成段落）七個層級。這些基本的自然語言處理技術經常被運用到下游的多種自然語言處理任務中，如機器翻譯、摘要、對話、問答和文本分類等。
　　美國微軟公司創始人比爾•蓋茨先生曾經表示，「語言理解是人工智慧領域皇冠上的明珠」。前微軟公司全球執行副總裁沈向洋先生也在公開演講時說：「懂語言者得天下……下一個十年，人工智慧的突破在自然語言的理解……人工智慧對人類影響最為深刻的就是自然語言方面」。由於理解自然語言需要關於外在世界的廣泛知識以及運用操作這些知識的能力，所以自然語言處理也被視為解決人工智慧完備(AI-complete)的核心問題之一。可以說，自然語言處理目前是人工智慧領域中的關鍵技術，對它的研究也是充滿魅力和挑戰的。
　　最早的自然語言處理研究工作是機器翻譯。1949年，美國著名學者沃倫•韋弗先生提出了機器翻譯設計方案。20世紀60年代，許多科學家對機器翻譯曾有大規模的研究工作，但他們顯然是低估了自然語言的複雜性，加上語言處理的理論和技術均不成熟，所以進展不大。當時的主要做法是存儲兩種語言的單詞、短語對應譯法的大辭典，翻譯時一一對應，技術上只是調整語言的同條順序。但日常生活中語言的翻譯遠不是如此簡單，很多時候還要參考某句話前後的意思。
　　大約90年代開始，自然語言處理領域發生了巨大的變化。這種變化的兩個明顯的特徵是：(1)對系統的輸入，要求研製的自然語言處理系統能處理大規模的真實文本，而不是如以前的研究性系統那樣，只能處理很少的詞條和典型句子。只有這樣，研製的系統才有真正的實用價值。(2)對系統的輸出，鑑於真實地理解自然語言是十分困難的，對系統並不要求能對自然語言文本進行深層的理解，但要能從中抽取有用的資訊。例如，對自然語言文本進行自動地提取索引詞，過濾，檢索，自動提取重要資訊，進行自動摘要等等。
　　同時，由於強調了「大規模」和「真實文本」，因此兩方面的基礎性工作也得到了重視和加強：(1)大規模真實語料庫的研製。大規模的經過不同深度加工的真實文本的語料庫，是研究自然語言統計性質的基礎；沒有牠們，統計方法只能是無源之水。(2)大規模、資訊豐富的詞典的編制工作。因此規模為幾萬、十幾萬，甚至幾十萬詞，含有豐富的資訊(如包含詞的搭配資訊)的計算機可用詞典對自然語言處理的重要性是很明顯的。
　　系統的輸入與輸出這兩個特徵在自然語言處理的諸多領域都有所體現, 其發展直接促進了計算機自動檢索技術的出現和興起。實際上，隨著計算機技術的不斷發展, 以海量計算為基礎的機器學習、數據挖掘等技術的表現也愈發優異。自然語言處理之所以能夠度過「寒冬」, 再次發展, 也是因為計算機科學與統計科學的不斷結合,才讓人類甚至機器能夠不斷從大量數據中發現「特徵」並加以學習。不過要實現對自然語言真正意義上的理解，僅僅從原始文本中進行學習是不夠的，我們需要新的方法和模型。
　　目前存在的問題主要有兩個方面：一方面，迄今為止的文法都限於分析一個孤立的句子，上下文關係和談話環境對本句的約束和影響還缺乏系統的研究，因此分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題，尚無明確規律可循，需要加強語義學和語用學的研究才能逐步解決。另一方面，人理解一個句子不是單憑文法，還運用了大量的有關知識，包括日常生活知識和專門知識，這些知識無法全部貯存在計算機里。因此一個書面理解系統只能建立在有限的詞彙、句型和特定的主題範圍內；計算機的貯存量和運轉速度大大提高之後，才有可能適當擴大範圍。
　　由於語言工程、認知科學等主要局限於實驗室，目前來看數據處理可能是自然語言處理應用場景最多的一個發展方向。實際上, 自從進入大數據時代, 各大平台就沒有停止過對用戶數據的深度挖掘。要想提取出有用的資訊, 僅提取關鍵詞、統計詞頻等是遠遠不夠的, 必須對用戶數據 (尤其是發言、評論等)進行語義上的理解。如果說自然語言處理是人工智慧的王冠，那麼語義表示和理解技術就是王冠上的明珠。目前人工智慧領域的發展態勢，在語義這一塊已經到了重兵集結的程度。另外，利用離線大數據統計分析的方法進行自然語言處理任務的研究是目前非常有潛力的一種研究範式。
　　自然語言處理是為各類企業及開發者提供的用於文本分析及挖掘的核心工具，已經廣泛應用在電商、金融、物流、文化娛樂等行業客戶的多項業務中。它可幫助用戶搭建內容搜索、內容推薦、輿情識別及分析、文本結構化、對話機器人等智能產品，也能夠通過合作，定製個性化的解決方案。由於理解自然語言，需要關於外在世界的廣泛知識以及運用操作這些知識的能力，所以自然語言處理也被視為解決強人工智慧的核心問題之一，其未來一般也因此密切結合人工智慧發展，尤其是設計一個模仿人腦的神經網路。
　　訓練自然語言處理文本解析人工智慧系統需要採集大量多源頭數據集，對科學家來說是一項持續的挑戰：需要使用最新的深度學習模型，模仿人類大腦中神經元的行為，在數百萬甚至數十億的註釋示例中進行訓練來持續改進。當下一種流行的自然語言處理解決方案是預訓練，它改進了對未標記文本進行訓練的通用語言模型，以執行特定任務；它的思想就是，該模型的參數不再是隨機初始化，而是先有一個任務進行訓練得到一套模型參數，然後用這套參數對模型進行初始化，再進行訓練，以獲得更好的預測性見解。
　　目前我們已經進入了以互聯網為主要標誌的海量資訊時代，這些海量資訊大部分是以自然語言表示的。一方面，海量資訊也為計算機學習人類語言提供了更多的「素材」；另一方面，這也為自然語言處理提供了更加寬廣的應用舞臺。例如，作為自然語言處理的重要應用，搜索引擎逐漸成為人們獲取資訊的重要工具，出現了以美國Google、中國百度等為代表的搜索引擎巨頭；機器翻譯也從實驗室走入尋常百姓家；基於自然語言處理的輸入法（如Google、微軟、搜狗等輸入法）成為計算機用戶的必備工具；帶有語音識別的計算機和手機也正大行其道，協助用戶更有效地工作和學習。
　　現在，自然語言處理領域已經有了大量的人工標註知識，而深度學習可以通過有監督學習得到相關的語義知識，這種知識和人類總結的知識應該存在某種對應關係，尤其是在一些淺層語義方面。因為人工標註，本質上已經給深度學習提供了學習的目標；只是深度學習可以不眠不休地學習，這種逐步靠攏學習目標的過程,可能遠比人類總結過程來得更快。這一點，從Google公司旗下DeepMind研究團隊開發的圍棋軟體AlphaGo短時間內連勝兩位人類圍棋高手的事實，似乎能夠得到驗證。
　　深度學習在自然語言處理中的應用非常廣泛，可以說橫掃自然語言處理的各個應用；從底層的分詞、語言模型、句法分析等到高層的語義理解、對話管理、知識問答等方面都幾乎都有深度學習的模型，並且取得了不錯的效果。深度學習的興起離不開兩個學科——腦科學和計算機科學的融合，當前深度學習的有關研究已從傳統的機器學習算法轉變成更有表現力的深度學習模型，如卷積神經網路和回歸神經網路。不過，目前的深度學習技術還不具備理解和使用自然語言所必需的概念抽象和邏輯推理能力，還有待今後進一步的研究。
　　互聯網搜索引擎已經有一段時間讓人們使用會話語言和術語來線上搜索事物。現在，Google公司的雲端硬碟用戶已經可以使用這一功能。用戶可以搜索存儲在Google雲端硬碟中的文件和內容，就像使用Google搜索提供的對雲端硬碟內置自然語言處理的新支持一樣。該功能使用戶可以使用通常用詞組表達的查詢以及在實際對話中將要使用的查詢來更輕鬆地找到所需的內容。Google公司在線上和移動搜索、移動應用程式以及Google Translate等服務中廣泛使用自然語言處理；該公司在這一領域的研究是為提高機器閱讀和理解人類語言能力所做的更廣泛努力的一部分。隨著Google調整其算法，自然語言處理應該會隨著時間的推移變得更好。
　　美國哈佛大學醫學院的研究人員藉助自然語言處理技術在前不久開發出一種工具，可以用於評估新冠肺炎（COVID-19）患者的病例、社交媒體和健康衛生數據。他們率先努力通過使用機器學習技術查看來自各種來源的數據和資訊(包括患者記錄、社交媒體和公共衛生數據)來尋找新冠肺炎病毒的解決方案。藉助自然語言處理工具，他們還可以搜索有關新冠肺炎病毒的線上資訊，並瞭解疫情爆發的當前位置。另外，研究人員還利用自然語言處理技術對新冠病毒、藥物和疫苗等密集展開研究，同時包括臨床診斷與治療以及流行病學研究等。
　　中國阿里達摩院的自然語言處理研究團隊前不久提出優化模型StructBERT，能讓機器更好地掌握人類文法，加深對自然語言的理解。使用該模型好比給機器內置一個「文法識別器」，使機器在面對語序錯亂或不符合文法習慣的詞句時，仍能準確理解並給出正確的表達和回應，大大提高機器對詞語、句子以及語言整體的理解力。這一技術已廣泛使用於阿里旗下阿里小蜜、螞蟻金服、優酷等業務。阿里達摩院的語言模型和閱讀理解技術也被用於行業賦能，推進人工智慧技術在醫療、電力、金融等行業的落地。據悉，StructBERT模型最近被評為全球性能最強的自然語言處理系統。
　　英國劍橋量子計算公司（CQC）最近宣布，他們利用自然語言的「固有量子」結構，開闢了一個全新的可能應用領域。其通過將文法句子翻譯成量子線路，然後在量子計算機上實現生成的程式，並實際執行問答。這是第一次在量子計算機上執行自然語言處理。通過使用CQC的一流的、平台無關的可重定目標編譯器t|ket?™，這些程式在IBM量子計算機上成功執行，從而朝著實現「意義感知」和「文法資訊」的自然語言處理邁出了一大步——這是計算機時代早期以來計算機科學家及計算語言學家的夢想。
　　總而言之，隨著互聯網的普及和海量資訊的湧現，作為人工智慧技術王冠的自然語言處理正在人們的工作、學習、生活中扮演著至關重要的角色，並將在科技創新的過程中發揮著越來越重要的作用。
　　文/唐越（作者為美國Google公司高級研究員）

【關注】自然語言處理：人工智慧技術的王冠

最近关注

臺灣李尚哲勇奪第九屆“華燦獎”最高獎項“

專家略談｜人工智能技術與預測學研究

专家略谈｜人工智能技术与预测学研究

人工智慧時代的到來，有哪些工作難以代替？

人工智能时代的到来，有哪些工作难以代替？

热点内容