• <table id="iwim8"></table>
    <code id="iwim8"></code>
  • <li id="iwim8"></li>
    
    
    <rt id="iwim8"></rt>
  • 什么是自然語言處理?它到底有何用武之地?
    2021-04-29 中國智能產業網陳平

    “自然語言處理” (Natural Language Processing,簡稱NLP) 是近年來科技界最熱門的詞語之一,也是當下人工智能研究最熱門的領域之一。自然語言處理推動著語言智能的持續發展和突破,并越來越多地應用于各個行業。正如國際知名學者周海中先生曾經所言:“自然語言處理是極有吸引力的研究領域,它具有重大的理論意義和實用價值。”

    那么,自然語言處理究竟是什么? 它到底有什么用武之地?這些問題值得人們探討和關注。所謂自然語言處理,是計算機科學領域與人工智能領域中的一個重要方向;它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理主要應用于機器翻譯、語音識別、知識回答、自動摘要、輿情監測、觀點提取、知識庫構建、文本語義對比、深度學習算法、語音識別與合成等方面。因此,自然語言處理有著革命性的理論意義,也有著十分重要的實用價值。

    實現人機間自然語言通信意味著要使計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等;前者稱為自然語言理解,后者稱為自然語言生成。因此,自然語言處理大體包括了自然語言理解和自然語言生成兩個部分。因為處理自然語言的關鍵是要讓計算機“理解”自然語言,所以通常把自然語言理解視為自然語言處理, 也稱為計算語言學。它的終極目標是用自然語言與計算機進行通信,使人們可以用自己最習慣的語言來使用計算機,而無需再花大量的時間和精力去學習不很自然和習慣的各種計算機語言。

    自然語言處理是人工智能中最為困難的問題之一。美國微軟公司創始人比爾·蓋茨先生曾經表示,“語言理解是人工智能領域皇冠上的明珠”。前微軟公司全球執行副總裁沈向洋先生也在公開演講時說:“懂語言者得天下……下一個十年,人工智能的突破在自然語言的理解……人工智能對人類影響最為深刻的就是自然語言方面”。由于理解自然語言需要關于外在世界的廣泛知識以及運用操作這些知識的能力,所以自然語言處理也被視為解決人工智能完備(AI-complete)的核心問題之一。可見自然語言處理是目前人工智能領域中的關鍵技術,對它的研究也是充滿魅力和挑戰的。

    自然語言處理的基本任務包括正則表達式、分詞、詞法分析、語音識別、文本分類、信息檢索、問答系統——如對一些問題進行回答或與用戶進行交互——機器翻譯等;常用的模型則有馬科夫模型、樸素貝葉斯、循環神經網絡等。自然語言處理要使用語言知識,如UNIX的wc程序可以用來計算文本文件中的字節數、詞數或行數;當用它來計算字節數和行數時,wc只用于進行一般的數據處理,但當用它來計算一個文件中詞的數目時,就需要關于“什么是一個詞”的語言知識,這時wc也就成為了一個自然語言處理系統。

    目前存在的問題主要有兩個方面:一方面,迄今為止的語法都限于分析一個孤立的句子,上下文關系和談話環境對本句的約束和影響還缺乏系統的研究,因此分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規律可循,需要加強語用學的研究才能逐步解決。另一方面,人理解一個句子不是單憑語法,還運用了大量的有關知識,包括生活知識和專門知識,這些知識無法全部貯存在計算機里。因此一個書面理解系統只能建立在有限的詞匯、句型和特定的主題范圍內;計算機的貯存量和運轉速度大大提高之后,才有可能適當擴大范圍。

    無論實現自然語言理解,還是自然語言生成,都遠不如人們原來想象的那么簡單,而是十分困難的。從現有的理論和技術現狀看,通用的、高質量的自然語言處理系統,仍然是較長期的努力目標,但是針對一定應用,具有相當自然語言處理能力的實用系統已經出現,有些已商品化,甚至開始產業化。典型的例子有:多語種數據庫和專家系統的自然語言接口、各種機器翻譯系統、全文信息檢索系統、自動文摘系統等。自然語言處理系統的算法是基于機器學習,特別是統計機器學習;許多不同類的機器學習算法已應用于自然語言處理任務。

    深度學習在自然語言處理中的應用非常廣泛,可以說橫掃自然語言處理的各個方面,從底層的分詞、語言模型、句法分析等到高層的語義理解、對話管理、知識問答等方面幾乎都有深度學習的模型,并且取得了不錯的效果。有關研究已從傳統的機器學習算法轉變成更有表現力的深度學習模型,如卷積神經網絡和回歸神經網絡。不過,目前的深度學習技術還不具備理解和使用自然語言所必需的概念抽象和邏輯推理能力,還有待今后進一步的研究。

    總而言之,隨著互聯網的普及和海量信息的涌現,作為人工智能的核心技術,自然語言處理有著極為廣闊的用武之地,并扮演著越來越重要的角色。毫無疑問,自然語言處理將在社會發展和科技進步的過程中發揮越來越重要的作用。

    文/馮蕓、潘蓉(作者單位分別為南京大學軟件學院、福州大學至誠學院)

     
     
     
     
    主站蜘蛛池模板: 济源市| 上栗县| 桂阳县| 广水市| 同仁县| 宜兴市| 泰宁县| 伊川县| 霍邱县| 永新县| 文登市| 平顺县| 保亭| 宿州市| 墨竹工卡县| 宜兰县| 黑水县| 康平县| 重庆市| 秦安县| 昆山市| 黔南| 调兵山市| 呼伦贝尔市| 武邑县| 兴隆县| 兰溪市| 井陉县| 阳朔县| 光泽县| 竹溪县| 平罗县| 榆社县| 乌审旗| 图们市| 瓦房店市| 台北市| 邵阳市| 巨野县| 萍乡市| 廊坊市|