當前位置:首頁 > 新聞 > 科技 > 正文

面對人工智慧的發展,中文和英文孰優孰劣?

2020-09-16 19:00 作者:許小蘭      閱覽:


人工智慧與人類語言(圖片源自網路)

人工智慧是當前最熱門的技術,各國都在投入資金和人力進行研究。誰錯過了人工智慧,誰就丟掉了未來。人類語言在人工智慧中佔有非常重要的地位,它是人類與人工智慧交互的工具,人工智慧只有準確理解語言文字才能做出準確應對,才能表現出高智商和高情商。下面以中文和英文這兩大語種為例,簡要地談談牠們在人工智慧技術中的「優劣」問題。

一、在語音識別方面

英文由26個字母構成,邏輯結構較簡單,發音以字母為基礎,音標和音標區之間區分比較明顯,只要說的不是很快,人工智慧能比較容易、準確識別每一個字母,加上同音單詞比較少,所以英文的語音識別效率領先中文許多。

中文是典型的意音文字,其發音十分複雜。它有23個聲母,6個單韻母,18個複韻母,還有16個整體認讀音節,整套方案共63個發音元素。除此之外,中文還有四種音調,加上種類繁多的方言,發音不準的話,非常影響人工智慧識別。

人工智慧在進行中文語音識別的時候,需要先進行發音識別,再根據單詞進行漢字判斷,識別效率低于英文,識別錯誤率也高于英文。另外,英文沒有中文那麼大的字元集,也沒有中文一大堆語言的聲調和分詞問題。

二、在文字識別方面

中文在文字識別方面的效率和準確度比英文更勝一籌。中文有幾個特點,讓人工智慧識別更高效:

1.漢字資訊密度高,更少的字數可以承載更多的資訊,中文文章永遠比英文文章短;綜合來看,漢字資訊密度比英文高37.5%。

2.中文以漢字為單位,可以靈活排列,橫豎都可以;而英文是線性文字,只能橫排,豎排、錯亂排列的識別效率會驟降。

3.漢字獨立表意能力強。比如「他去吃早餐」,你看一個字就能多明白一個字的意思。而英文「He went to have breakfast」,你即使看到「have」這個詞,你依然不明大概的意思,只有到「breakfast」你才知道原來「have」是「吃」,「went to」是「去」,整句是「去吃早餐」。英文表意比較依賴短語,甚至整句,不看完整句話,你往往不能知道句意。這就給人工智慧識別造成了難度,因為人工智慧跳躍識別能力較差。

三、在語段識別方面

讓人工智慧翻譯一個短句,一句話,其實沒多大意義,實用價值也不高,只有具備整段文字識別,才有實用價值。讓我們以中英文互譯來考察人工智慧對中文和英文的識別能力。

英文原文如下:

「Things that trend in these two countries are insanely different. For example: knowledge-based content is extremely popular in China, and less so in the U.S. Also, this was wild to me: those creators that did the most dance videos in China are users born in the 60s (!!), whereas in the US, it seems that it's mostly teenagers who are creating the dances,」 she wrote.

中文譯文如下:

她寫道:「這兩個國家的趨勢截然不同,比如:知識性內容在中國很流行,但在美國稍差一些。而且,這一點對我來說很瘋狂:中國最喜歡拍舞蹈視訊的是60後(!!),但在美國,好像是年輕人最喜歡拍舞蹈視訊。」

人工智慧將「英文原文」翻譯成中文如下:

「這兩個國家的趨勢截然不同。例如:以知識為基礎的內容在中國非常受歡迎,而在美國卻很少。此外,這對我來說很瘋狂:在中國製作舞蹈視訊最多的創作者是她出生於60年代(!!)的用戶,而在美國,似乎是大多數年輕人在創作舞蹈。」她寫道。

有一句失真比較嚴重:「在中國製作舞蹈視訊最多的創作者是她出生於60年代(!!)的用戶。」這句話的英文原文是:「those creators that did the most dance videos in China are users born in the 60s 」。這是一句英語長句,詞序及句法比較複雜,導致人工智慧無法準確識別。

人工智慧將「中文譯文」翻譯成英文如下:

「The trends in these two countries are quite different. For example, intellectual content is very popular in China, but a bit worse in the United States. Moreover, this is crazy to me: China’s favorite dance video is born in the 60s (! !), but in the United States, it seems that young people like to shoot dance videos the most, 」 she wrote.

中文翻譯非常精準,和原文在表意上幾乎沒有任何差別,如實還原了原文的意思。可見,在整段話、整篇文章的識別上,中文比英文更有優勢。中文是由一個個漢字構成,長句很少,詞序簡單,句法也簡單,在語句結構上比線性的英文簡單的多,更有利於人工智慧識別。

四、在同音字詞方面

中文在人工智慧技術,尤其是自然語言處理中最大障礙就是同音字/詞現象。比如,他姓zhang,到底是「張」還是「章」呢?如果是口語的話,還要補一句弓長張,或立早章。中文裡有多少同音字/詞,很難準確的統計。同音字/詞也是英文使用者攻擊中文表意不清最大的借口。

英文雖然也有同音詞,如flower(花朵)、flour(麵粉);hole(洞穴)、whole(全部的);meet(遇見)、meat(肉類);right(正確的)、write(寫字)等,但英文同音詞數量遠比中文同音字/詞數量少。英文是通過造更多單詞的方法,來減少同音詞現象的。

人工智慧現在不能準確處理多音字/詞,因此出錯在所難免。難道為了人工智慧準確,人類只能通過語言文字改革消滅多音字/詞?這工程實在太大了,人類也很難適應這麼大的改革。

五、在多義字詞方面

一字/詞多義,是每種成熟語言都難免的,世間萬事萬物這麼多,情感這麼複雜,如果每個字/詞只表達一個準確的意思,那幾百萬字/詞都收不住。無論是中文還是英文,一個字/詞不會只表達一個意思,通常有很多意思,有時區別還很大,很容易產生歧義;這給中譯英或英譯中的機器翻譯工作造成了一定的困難。

比如中文「打」,其意思非常之多:撞擊、除去、汲取、射擊、製造、鬥毆、發出、定出、進攻、扎入、表示身體上的某些動作等。又如英文「close」,其意思也非常多:關閉、合攏、合上、結束、終結、接近、使靠近、親密的、密切的、不遠地、死胡同、大教堂所屬的周圍場地及建築物等。
現在人工智慧通過上下文識別字/詞意思的能力還比較弱,遇到多義詞的時候經常出錯,這也是人工智慧發展的難關。也許等到強人工智慧的出現,字/詞多義問題才會得到解決。

中文、英文作為當今世界兩大主要語言,各自在人工智慧技術中有其優點和缺點;牠們通常不會影響人們交流思想和資訊有效傳播。正如國際知名學者周海中先生曾經所言,「在資訊時代,任何語言都有優缺點,重要的不是孰優孰劣,而是如何發揮牠們在交際中的作用和功效。」

文/許小蘭(作者單位:加拿大麥吉爾大學人文社科學院)

最近关注

热点内容

更多