“自然語(yǔ)言處理” (Natural Language Processing,簡(jiǎn)稱(chēng)NLP) 是近年來(lái)科技界最熱門(mén)的詞語(yǔ)之一,也是當(dāng)下人工智能研究最熱門(mén)的領(lǐng)域之一。自然語(yǔ)言處理推動(dòng)著語(yǔ)言智能的持續(xù)發(fā)展和突破,并越來(lái)越多地應(yīng)用于各個(gè)行業(yè)。正如國(guó)際知名學(xué)者周海中先生曾經(jīng)所言:“自然語(yǔ)言處理是極有吸引力的研究領(lǐng)域,它具有重大的理論意義和實(shí)用價(jià)值。”
那么,自然語(yǔ)言處理究竟是什么? 它到底有什么用武之地?這些問(wèn)題值得人們探討和關(guān)注。所謂自然語(yǔ)言處理,是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向;它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理主要應(yīng)用于機(jī)器翻譯、語(yǔ)音識(shí)別、知識(shí)回答、自動(dòng)摘要、輿情監(jiān)測(cè)、觀(guān)點(diǎn)提取、知識(shí)庫(kù)構(gòu)建、文本語(yǔ)義對(duì)比、深度學(xué)習(xí)算法、語(yǔ)音識(shí)別與合成等方面。因此,自然語(yǔ)言處理有著革命性的理論意義,也有著十分重要的實(shí)用價(jià)值。
實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信意味著要使計(jì)算機(jī)既能理解自然語(yǔ)言文本的意義,也能以自然語(yǔ)言文本來(lái)表達(dá)給定的意圖、思想等;前者稱(chēng)為自然語(yǔ)言理解,后者稱(chēng)為自然語(yǔ)言生成。因此,自然語(yǔ)言處理大體包括了自然語(yǔ)言理解和自然語(yǔ)言生成兩個(gè)部分。因?yàn)樘幚碜匀徽Z(yǔ)言的關(guān)鍵是要讓計(jì)算機(jī)“理解”自然語(yǔ)言,所以通常把自然語(yǔ)言理解視為自然語(yǔ)言處理, 也稱(chēng)為計(jì)算語(yǔ)言學(xué)。它的終極目標(biāo)是用自然語(yǔ)言與計(jì)算機(jī)進(jìn)行通信,使人們可以用自己最習(xí)慣的語(yǔ)言來(lái)使用計(jì)算機(jī),而無(wú)需再花大量的時(shí)間和精力去學(xué)習(xí)不很自然和習(xí)慣的各種計(jì)算機(jī)語(yǔ)言。
自然語(yǔ)言處理是人工智能中最為困難的問(wèn)題之一。美國(guó)微軟公司創(chuàng)始人比爾·蓋茨先生曾經(jīng)表示,“語(yǔ)言理解是人工智能領(lǐng)域皇冠上的明珠”。前微軟公司全球執(zhí)行副總裁沈向洋先生也在公開(kāi)演講時(shí)說(shuō):“懂語(yǔ)言者得天下……下一個(gè)十年,人工智能的突破在自然語(yǔ)言的理解……人工智能對(duì)人類(lèi)影響最為深刻的就是自然語(yǔ)言方面”。由于理解自然語(yǔ)言需要關(guān)于外在世界的廣泛知識(shí)以及運(yùn)用操作這些知識(shí)的能力,所以自然語(yǔ)言處理也被視為解決人工智能完備(AI-complete)的核心問(wèn)題之一。可見(jiàn)自然語(yǔ)言處理是目前人工智能領(lǐng)域中的關(guān)鍵技術(shù),對(duì)它的研究也是充滿(mǎn)魅力和挑戰(zhàn)的。
自然語(yǔ)言處理的基本任務(wù)包括正則表達(dá)式、分詞、詞法分析、語(yǔ)音識(shí)別、文本分類(lèi)、信息檢索、問(wèn)答系統(tǒng)——如對(duì)一些問(wèn)題進(jìn)行回答或與用戶(hù)進(jìn)行交互——機(jī)器翻譯等;常用的模型則有馬科夫模型、樸素貝葉斯、循環(huán)神經(jīng)網(wǎng)絡(luò)等。自然語(yǔ)言處理要使用語(yǔ)言知識(shí),如UNIX的wc程序可以用來(lái)計(jì)算文本文件中的字節(jié)數(shù)、詞數(shù)或行數(shù);當(dāng)用它來(lái)計(jì)算字節(jié)數(shù)和行數(shù)時(shí),wc只用于進(jìn)行一般的數(shù)據(jù)處理,但當(dāng)用它來(lái)計(jì)算一個(gè)文件中詞的數(shù)目時(shí),就需要關(guān)于“什么是一個(gè)詞”的語(yǔ)言知識(shí),這時(shí)wc也就成為了一個(gè)自然語(yǔ)言處理系統(tǒng)。
目前存在的問(wèn)題主要有兩個(gè)方面:一方面,迄今為止的語(yǔ)法都限于分析一個(gè)孤立的句子,上下文關(guān)系和談話(huà)環(huán)境對(duì)本句的約束和影響還缺乏系統(tǒng)的研究,因此分析歧義、詞語(yǔ)省略、代詞所指、同一句話(huà)在不同場(chǎng)合或由不同的人說(shuō)出來(lái)所具有的不同含義等問(wèn)題,尚無(wú)明確規(guī)律可循,需要加強(qiáng)語(yǔ)用學(xué)的研究才能逐步解決。另一方面,人理解一個(gè)句子不是單憑語(yǔ)法,還運(yùn)用了大量的有關(guān)知識(shí),包括生活知識(shí)和專(zhuān)門(mén)知識(shí),這些知識(shí)無(wú)法全部貯存在計(jì)算機(jī)里。因此一個(gè)書(shū)面理解系統(tǒng)只能建立在有限的詞匯、句型和特定的主題范圍內(nèi);計(jì)算機(jī)的貯存量和運(yùn)轉(zhuǎn)速度大大提高之后,才有可能適當(dāng)擴(kuò)大范圍。
無(wú)論實(shí)現(xiàn)自然語(yǔ)言理解,還是自然語(yǔ)言生成,都遠(yuǎn)不如人們?cè)瓉?lái)想象的那么簡(jiǎn)單,而是十分困難的。從現(xiàn)有的理論和技術(shù)現(xiàn)狀看,通用的、高質(zhì)量的自然語(yǔ)言處理系統(tǒng),仍然是較長(zhǎng)期的努力目標(biāo),但是針對(duì)一定應(yīng)用,具有相當(dāng)自然語(yǔ)言處理能力的實(shí)用系統(tǒng)已經(jīng)出現(xiàn),有些已商品化,甚至開(kāi)始產(chǎn)業(yè)化。典型的例子有:多語(yǔ)種數(shù)據(jù)庫(kù)和專(zhuān)家系統(tǒng)的自然語(yǔ)言接口、各種機(jī)器翻譯系統(tǒng)、全文信息檢索系統(tǒng)、自動(dòng)文摘系統(tǒng)等。自然語(yǔ)言處理系統(tǒng)的算法是基于機(jī)器學(xué)習(xí),特別是統(tǒng)計(jì)機(jī)器學(xué)習(xí);許多不同類(lèi)的機(jī)器學(xué)習(xí)算法已應(yīng)用于自然語(yǔ)言處理任務(wù)。
深度學(xué)習(xí)在自然語(yǔ)言處理中的應(yīng)用非常廣泛,可以說(shuō)橫掃自然語(yǔ)言處理的各個(gè)方面,從底層的分詞、語(yǔ)言模型、句法分析等到高層的語(yǔ)義理解、對(duì)話(huà)管理、知識(shí)問(wèn)答等方面幾乎都有深度學(xué)習(xí)的模型,并且取得了不錯(cuò)的效果。有關(guān)研究已從傳統(tǒng)的機(jī)器學(xué)習(xí)算法轉(zhuǎn)變成更有表現(xiàn)力的深度學(xué)習(xí)模型,如卷積神經(jīng)網(wǎng)絡(luò)和回歸神經(jīng)網(wǎng)絡(luò)。不過(guò),目前的深度學(xué)習(xí)技術(shù)還不具備理解和使用自然語(yǔ)言所必需的概念抽象和邏輯推理能力,還有待今后進(jìn)一步的研究。
總而言之,隨著互聯(lián)網(wǎng)的普及和海量信息的涌現(xiàn),作為人工智能的核心技術(shù),自然語(yǔ)言處理有著極為廣闊的用武之地,并扮演著越來(lái)越重要的角色。毫無(wú)疑問(wèn),自然語(yǔ)言處理將在社會(huì)發(fā)展和科技進(jìn)步的過(guò)程中發(fā)揮越來(lái)越重要的作用。
文/馮蕓、潘蓉(作者單位分別為南京大學(xué)軟件學(xué)院、福州大學(xué)至誠(chéng)學(xué)院)