銷(xiāo)售pos機口語(yǔ),中文和英文語(yǔ)言差異和計算機處理的區別

 新聞資訊2  |   2023-06-24 11:12  |  投稿人:pos機之家

網(wǎng)上有很多關(guān)于銷(xiāo)售pos機口語(yǔ),中文和英文語(yǔ)言差異和計算機處理的區別的知識,也有很多人為大家解答關(guān)于銷(xiāo)售pos機口語(yǔ)的問(wèn)題,今天pos機之家(www.xjcwpx.cn)為大家整理了關(guān)于這方面的知識,讓我們一起來(lái)看下吧!

本文目錄一覽:

1、銷(xiāo)售pos機口語(yǔ)

銷(xiāo)售pos機口語(yǔ)

關(guān)于作者

陳運文:達觀(guān)數據創(chuàng )始人,復旦大學(xué)計算機博士,科技部“萬(wàn)人計劃”專(zhuān)家,國際計算機學(xué)會(huì )(ACM)、電子電器工程師學(xué)會(huì )(IEEE)、中國計算機學(xué)會(huì )(CCF)、中國人工智能學(xué)會(huì )(CAAI)高級會(huì )員;第九屆上海青年科技英才。在人工智能領(lǐng)域擁有豐富研究成果,是復旦大學(xué)、上海財經(jīng)大學(xué)聘任的校外研究生導師,在IEEE Transactions、SIGKDD等國際頂級學(xué)術(shù)期刊和會(huì )議上發(fā)表數十篇高水平科研成果論文,譯有人工智能經(jīng)典著(zhù)作《智能Web 算法》(第2 版),并參與撰寫(xiě)《數據實(shí)踐之美》等論著(zhù);曾多次摘取ACM KDD CUP、CIKM、EMI Hackathon等世界最頂尖的大數據競賽的冠亞軍榮譽(yù)。

人類(lèi)經(jīng)過(guò)漫長(cháng)的歷史發(fā)展,在世界各地形成了很多不同的語(yǔ)言分支,其中漢藏語(yǔ)系印歐語(yǔ)系是使用人數最多的兩支。英語(yǔ)是印歐語(yǔ)系的代表,而漢語(yǔ)則是漢藏語(yǔ)系的代表。中英文語(yǔ)言的差異十分鮮明,英語(yǔ)以表音(字音)構成,漢語(yǔ)以表義(字形)構成,印歐和漢藏兩大語(yǔ)系有很大的區別。

盡管全世界語(yǔ)言多達5600種,但大部數人類(lèi)使用的語(yǔ)言集中在圖中的前15種(覆蓋全球90%以上人群)。其中英語(yǔ)為母語(yǔ)和第二語(yǔ)的人數最多,近14億人,是事實(shí)上的世界通用語(yǔ)。其次是漢語(yǔ),約占世界人口的23%。英語(yǔ)和漢語(yǔ)相加的人數占世界總人數的近一半,因此處理中英文兩種語(yǔ)言非常關(guān)鍵。

人工智能時(shí)代,讓計算機自動(dòng)化進(jìn)行文字語(yǔ)義理解非常重要,廣泛應用于社會(huì )的方方面面,而語(yǔ)言本身的復雜性又給計算機技術(shù)帶來(lái)了很大的挑戰,攻克文本語(yǔ)義對實(shí)現AI全面應用有至關(guān)重要的意義。相應的自然語(yǔ)言處理(Natural Language Processing,NLP)技術(shù)因而被稱(chēng)為是“人工智能皇冠上的明珠”。

中國和美國作為AI應用的兩個(gè)世界大國,在各自語(yǔ)言的自動(dòng)化處理方面有一些獨特之處。接下來(lái)筆者對中文和英文語(yǔ)言特點(diǎn)的角度出發(fā),結合自己的從業(yè)經(jīng)驗來(lái)歸納下兩種語(yǔ)言下NLP的異同點(diǎn)。(達觀(guān)數據陳運文)

一、中英文分詞方式不同

分詞是中英文NLP差異最廣為人知的一點(diǎn)。我們都知道英文的單詞之間天然存在空格來(lái)分隔,因此在進(jìn)行英文文本處理時(shí),可以非常容易的通過(guò)空格來(lái)切分單詞。例如英文句子:

DataGrand is a Chinese company

可輕松切分為DataGrand / is / a / Chinese / company(文本用/表示詞匯分隔符)。

中文在每句話(huà)中間是不存在分隔符的,而是由一串連續的漢字順序連接構成了句子?,F代漢語(yǔ)里表達意思的基本語(yǔ)素是詞而不是字。例如“自然”,拆為“自”和“然”都不能單獨表意,兩個(gè)字合并組成的詞才能有準確的意義,對應英文單詞是Nature。因此在我們使用計算機技術(shù)對中文進(jìn)行自動(dòng)語(yǔ)義分析時(shí),通常首要操作就是中文分詞(Chinese Word Segmentation)。中文分詞是指按人理解漢語(yǔ)的方式,將連續的漢字串切分為能單獨表義的詞匯。例如中文句子:

“達觀(guān)數據是一家中國公司?!?/strong>

讓計算機來(lái)處理,第一步需要切分為“達觀(guān)數據/是/一家/中國/公司”這樣的詞串的形式,然后再進(jìn)行后續的理解和處理。

如何正確的根據語(yǔ)義完成中文切分是一個(gè)挑戰性的任務(wù),一旦切詞發(fā)生失誤,會(huì )導致后續的文本處理產(chǎn)生連鎖問(wèn)題,給正確理解語(yǔ)義帶來(lái)障礙。為了快速準確的切分好中文,學(xué)術(shù)界迄今有超過(guò)50年的研究,提出了很多方法。中文切詞常見(jiàn)方法里既有經(jīng)典的機械切分法(如正向/逆向最大匹配,雙向最大匹配等),也有效果更好一些的統計切分方法(如隱馬爾可夫HMM,條件隨機場(chǎng)CRF),以及近年來(lái)興起的采用深度神經(jīng)網(wǎng)絡(luò )的RNN,LSTM等方法。

由于漢語(yǔ)語(yǔ)法本身極為靈活,導致歧義語(yǔ)義時(shí)常發(fā)生,給正確完成中文分詞帶來(lái)了很多障礙。如例句“嚴守一把手機關(guān)了”所示,按照語(yǔ)義理解,正確切分方式為“嚴守一/把/手機/關(guān)了”,而算法有誤時(shí)容易切分為“嚴守/一把/手機/關(guān)了”。

更困難的是,有些時(shí)候兩種切詞方法意思都對,例如“乒乓球拍賣(mài)了”,切分為“乒乓/球拍/賣(mài)了”和“乒乓球/拍賣(mài)/了”本身都可行,必須要依賴(lài)更多上下文來(lái)選擇當前正確的切分方法。類(lèi)似的還有“南京市長(cháng)江大橋”、“吉林省長(cháng)春藥店”等等。如果把“市長(cháng)”“省長(cháng)”等切出來(lái),整句話(huà)的理解就偏差很多了。常見(jiàn)歧義類(lèi)型包括交叉歧義(Cross Ambiguity)和組合歧義(Combination Ambiguity)等,在語(yǔ)義消岐方面近年不斷有國內外學(xué)者提出新的解決思路,來(lái)解決漢藏語(yǔ)系的這個(gè)特定問(wèn)題。

此處順便一提,和中文類(lèi)似,日文句子內部同樣缺乏天然的分隔符,因此日文也同樣存在分詞需求。日文受漢語(yǔ)語(yǔ)法的影響很深,但同時(shí)又受表音語(yǔ)法的影響,明治時(shí)代還曾興起過(guò)廢漢字興拼音的運動(dòng),行文上漢字和假名混雜,好比中英文混血兒。業(yè)內比較知名的日文分詞器有MeCab,其算法內核是條件隨機場(chǎng)CRF。事實(shí)上,如果將MeCab的內部訓練語(yǔ)料由日文更換為中文后,也同樣可以用于切分中文。

隨著(zhù)深度學(xué)習技術(shù)近年來(lái)在NLP領(lǐng)域成功的應用,一些seq2seq學(xué)習過(guò)程可以不再使用分詞,而是直接將字作為輸入序列,讓神經(jīng)網(wǎng)絡(luò )自動(dòng)學(xué)習其中的特征,這在一些端到端的應用中(如自動(dòng)摘要、機器翻譯、文本分類(lèi)等)確實(shí)省略了中文分詞這一步驟,但是一方面還有很多的NLP應用離不開(kāi)分詞的結果,如關(guān)鍵詞提取、命名實(shí)體識別、搜索引擎等;另一方面切分所得的詞匯也可以和單字一起作為特征輸入,用以增強效果。因此分詞仍然是工程界進(jìn)行中文處理時(shí)的一項重要技術(shù)。

二、英文語(yǔ)素和中文偏旁的使用

英文單詞的提取雖然比中文簡(jiǎn)單的多,通過(guò)空格就能完整的獲取單詞,但英文特有的現象是單詞存在豐富的變形變換。為了應對這些復雜的變換,英文NLP相比中文存在一些獨特的處理步驟,我們稱(chēng)為詞形還原(Lemmatization)和詞干提?。⊿temming)。

詞形還原是因為英文單詞有豐富的單復數、主被動(dòng)、時(shí)態(tài)變換(共16種)等情況,在語(yǔ)義理解時(shí)需要將單詞“恢復”到原始的形態(tài)從而讓計算機更方便的進(jìn)行后續處理。例如“does,done,doing,do,did”這些單詞,需要通過(guò)詞性還原統一恢復為“do”這個(gè)詞,方便后續計算機進(jìn)行語(yǔ)義分析。類(lèi)似的:“potatoes,cities,children,teeth”這些名詞,需要通過(guò)Lemmatization轉為“potato,city,child,tooth”這些基本形態(tài);同樣“were,beginning,driven”等要轉為“are,begin,drive”。請注意詞形還原通常還需要配合詞性標注(pos-tag)一起來(lái)進(jìn)行,以確保還原準確度,避免歧義發(fā)生。因為英文中存在一些多義詞的情況,例如calves就是個(gè)多義詞,即可以作為calf(名詞,牛犢)的復數形式,也可以是calve(動(dòng)詞,生育小牛)的第三人稱(chēng)單數。所以詞形還原也有兩種選擇,需要按實(shí)際所表示的詞性來(lái)挑選合適的還原方法。

詞干提?。⊿temming)是英文中另一項獨有的處理技術(shù)。英文單詞雖然是句子中的基礎表義單元,但并非是不可再分的。英文單詞內部都是由若干個(gè)詞素構成的。詞素又分為詞根(roots)和詞綴(前綴prefix或后綴suffix),而詞根的原形稱(chēng)為詞干(stems)。例如單詞disability,dis-就是表示否定意思的常用前綴,-lity是名詞常用后綴,able是表示“能力”的詞干,這些詞素合并在一起就構成了單詞的含義。

英文的詞素種類(lèi)非常多(最常用的有300多個(gè)),很多源自拉丁語(yǔ)和希臘文。提取詞素對理解英文單詞的含義起著(zhù)非常重要的作用,例如semiannually這個(gè)單詞,可能有的朋友并不認識,如果通過(guò)詞素來(lái)看:前綴semi-表示“一半”的意思,詞干annul表示年,-ly是副詞后綴,semiannually這個(gè)單詞的含義是“每半年進(jìn)行一次的”。Ambidextrous,heterophobia,interplanetary,extraterritorial等這些看著(zhù)很復雜的詞匯,通過(guò)拆解詞干的方法能很方便的把握單詞含義,對人類(lèi)和對計算機來(lái)說(shuō)都是如此。常見(jiàn)Stemming方法包括Porter Stemming Algorithm, Lovins Algorithm和Lancaster(Paice/Husk) Algorithm。目前大部分英文NLP系統都包括詞形還原(Lemmatization)和詞干提?。⊿temming)模塊。(陳運文)

相比英文,中文里是沒(méi)有詞干的概念的,也無(wú)需進(jìn)行詞干提取,這是中文NLP中相對簡(jiǎn)便的一塊。但在中文里有一個(gè)相近的概念是偏旁部首。和英文中“單詞不懂看詞干”類(lèi)似,中文里“漢字不識看偏旁”。例如“猴、狗、豬、貓、狼”這些漢字,顯然都是動(dòng)物名詞。當出現漢字“狁”時(shí),即使不認識也能通過(guò)部首“犭”猜出這是一個(gè)動(dòng)物名稱(chēng),且發(fā)音類(lèi)似“允”字。再比如“木,林,森”這些字都和樹(shù)木相關(guān),數量還遞增?!版i、錫、銀、鏡、鐵、鍬”都和金屬有關(guān)?!安伞弊趾褪肿ブ参镉嘘P(guān)?!扒簟弊趾汀霸小弊志透庇^(guān)形象了。

借鑒英文中詞干提取的方法,很多人自然會(huì )立刻想到:是否我們拆分中文漢字的偏旁部首,作為特征輸入,也能更好的幫助計算機理解中文語(yǔ)義呢?學(xué)術(shù)界確實(shí)也有人做過(guò)此類(lèi)嘗試,但是整體收益都不像英文詞干分析那么明顯,這背后的原因是什么呢?筆者認為,其原因首先是常用漢字的數量遠比英文單詞要少,相比英文單詞數量動(dòng)輒數萬(wàn)計,加上各種前后綴和詞形變換數量更多,中文漢字最常用的才過(guò)千個(gè)。因為字少,每個(gè)漢字的意思多,這些漢字的含義通過(guò)上下文來(lái)獲取的語(yǔ)義描述信息足夠充分,拆分偏旁后額外再能添補的信息作用非常小。即便對罕見(jiàn)字來(lái)說(shuō)偏旁確實(shí)能額外補充特征,但因為它們在日常文本中出現頻次太少,對整體文本語(yǔ)義理解的作用很有限,只有在一些專(zhuān)業(yè)性文書(shū)的應用上可能起少量幫助。

其次是漢字經(jīng)過(guò)數千年的演化,再加上簡(jiǎn)化字的使用,很多字形和含義已經(jīng)發(fā)生了巨大變化,偏旁未必能準確表達字的意思,甚至使用偏旁可能還會(huì )引入一些噪聲特征。第三是現代漢語(yǔ)里表義的基本單元是多個(gè)漢字構成的詞,而不是單字。這和英文中表義單元是單詞完全不同。因此對單個(gè)漢字的偏旁處理對整個(gè)中文NLP起到的作用非常輕微,并未成為中文NLP里常用的做法。

三、詞性標注方法的差異

詞性是語(yǔ)言學(xué)的一個(gè)概念,根據上下文將每個(gè)詞根據性質(zhì)劃歸為特定的類(lèi)型,例如n.名詞 v.動(dòng)詞 adj.形容詞 adv.副詞等就是最常見(jiàn)的幾類(lèi)詞性。中英文的詞性盡管整體相似,例如表達一個(gè)物品(如蘋(píng)果Apple,火車(chē)Train)通常是名詞,而描述一個(gè)動(dòng)作(如跑步Run,打開(kāi)Open)一般是動(dòng)詞,但在很多細節上存在差異。如果計算機能夠對每個(gè)詞匯的詞性進(jìn)行正確的識別,無(wú)疑對增強語(yǔ)義分析的效果有幫助(注:同樣在seq2seq里詞性并不必須,但是對詞性的正確理解仍然有其特定價(jià)值)。

在NLP里有技術(shù)分支稱(chēng)為詞性標注(Part-Of-Speech tagging, POS tagging),中英文各自有其特點(diǎn)。

其一是英文中有一些中文所沒(méi)有的詞性。這些詞性大量存在,給語(yǔ)義理解帶來(lái)了很好的指引作用。其中最典型的就是英文特有的兩個(gè)詞性:一是冠詞,二是助動(dòng)詞。中文里沒(méi)有冠詞一說(shuō),在英文中冠詞(Article,一般簡(jiǎn)稱(chēng)art.)也是詞性最小的一類(lèi),只有三個(gè):不定冠詞(Indefinite art.)、定冠詞(Definite art.)和零冠詞(Zero art.)。如英文中無(wú)處不在的單詞“the”就是定冠詞,the后面通常會(huì )緊跟著(zhù)出現句子的關(guān)鍵名詞+介詞短語(yǔ)。例如“Show me the photo of your company”,通過(guò)定冠詞the的指示,很容易的定位本句話(huà)的關(guān)鍵實(shí)詞是photo。類(lèi)似的,前面例句“DataGrand is a Chinese company”里“a”這樣的不定冠詞也可以很好的指示出賓語(yǔ)“company”。這些大量出現的冠詞雖然是虛詞,本身并沒(méi)有明確含義,但在NLP中用于定位句子中的關(guān)鍵實(shí)詞,判斷實(shí)詞種類(lèi)(是否可數,是否專(zhuān)有名詞等),進(jìn)而識別出句法結構(后面還會(huì )詳細介紹)等,起到了很大的指示作用,也降低了計算機進(jìn)行語(yǔ)義理解的難度,因而這方面英文比中文有先天優(yōu)勢。

助動(dòng)詞(Auxiliary Verb)也是英文特有的現象,助動(dòng)詞的作用是協(xié)助主要動(dòng)詞構成謂語(yǔ)詞組,如am, is, have, do, are, will, shall, would,should, be going to等都是常見(jiàn)助動(dòng)詞,在英文句子中也大量存在,和冠詞用于指示主語(yǔ)賓語(yǔ)類(lèi)似,助動(dòng)詞對識別主要動(dòng)詞(Main Verb)和謂語(yǔ)會(huì )起幫助。

其次,英文在詞性方面的劃分和使用更嚴謹,詞匯在變換詞性的時(shí)候會(huì )在詞尾形成豐富的變化。例如-ing、-able、-ful、-ment、-ness等都對確認詞性給出具體的提示。名詞中還會(huì )進(jìn)一步區分可數名詞、不可數名詞,在詞尾用-s、-es來(lái)區分。動(dòng)詞也同樣會(huì )存在發(fā)生時(shí)態(tài)的指示,過(guò)去式,現在時(shí),未來(lái)時(shí)等非常明確,因此在英文語(yǔ)法中幾乎沒(méi)有詞性混淆不清的情況發(fā)生。

而中文的詞性則缺乏類(lèi)似英文這樣的明確規范。中國著(zhù)名的語(yǔ)言學(xué)家沈家煊先生在著(zhù)作《語(yǔ)法六講》中就曾提出“漢語(yǔ)動(dòng)詞和名詞不分立”的觀(guān)點(diǎn),將確認漢語(yǔ)詞性的問(wèn)題描述為“詞有定類(lèi)”則“類(lèi)無(wú)定職”,而“類(lèi)有定職”則“詞無(wú)定類(lèi)”。和英文中名詞、動(dòng)詞、形容詞三大類(lèi)詞匯相互獨立的“分立模式”不同,中文更類(lèi)似“包含模式”,即形容詞作為一個(gè)次類(lèi)包含在動(dòng)詞中,動(dòng)詞本身又作為次類(lèi)被名詞包含,而且這個(gè)詞性的轉換過(guò)程非常微妙,缺乏表音語(yǔ)言中的前后綴指示。例如“他吃飯去了”中“吃飯”是動(dòng)詞,只需要句式稍加變換為“他吃飯不好”,此時(shí)“吃飯”就搖身一變成名詞了?!盁釔?ài)編程”、“挖掘數據”中,“編程”、“挖掘”等詞,既可以是名詞也可以是動(dòng)詞。形容詞也有類(lèi)似的情況,如“活躍”是個(gè)常見(jiàn)的形容詞,常用句為“他表現非?;钴S”。但有時(shí)也可以變身為動(dòng)詞“他去活躍氣氛”,還能變?yōu)槊~“活躍是一種行為習慣”??梢?jiàn)漢語(yǔ)語(yǔ)境的變化給詞性帶來(lái)非常微妙的變化。(陳運文)

漢語(yǔ)沒(méi)有英文的屈折變化的特點(diǎn),不像英語(yǔ)能通過(guò)靈活的詞尾變化來(lái)指示詞性變化,漢語(yǔ)這種一詞多性且缺乏指示的特點(diǎn),給計算機詞性標注帶來(lái)了很大的困難,業(yè)界對詞性的標準以及標準測試集也很不完善。很多具體詞匯的詞性甚至讓人工來(lái)研讀都模棱兩可,讓算法自動(dòng)來(lái)識別就更難了。例如:“他很開(kāi)心”、“他逗她開(kāi)心”、“他開(kāi)心不起來(lái)”、“他開(kāi)心的很”、“開(kāi)心是他很重要的特點(diǎn)”,這里“開(kāi)心”的詞性讓人來(lái)判斷都很難搞明白,甚至存在爭議。而反觀(guān)英語(yǔ)里一個(gè)詞被標為動(dòng)詞還是名詞幾乎不存在爭議。對這些模糊的情況,一些中文語(yǔ)料標注庫里干脆用“動(dòng)名詞vn”、“形名詞an”等來(lái)標記,擱置爭議,模糊處理。

在目前中文NLP詞性標注中,“名動(dòng)形”糊在一起的特點(diǎn)仍然沒(méi)有找到特別好的處理手段,也給后面的句法結構分析,詞匯重要性判斷,核心關(guān)鍵詞提取等語(yǔ)義理解課題帶來(lái)了干擾。

四、標點(diǎn)符號和字體特征

在自然語(yǔ)言處理應用中,很容易被忽略的是標點(diǎn)和字體等信息的利用。尤其學(xué)術(shù)界研究核心算法時(shí)一般都會(huì )忽略這些“次要”信息,大部分學(xué)術(shù)測試集合干脆是沒(méi)有字體信息的,標點(diǎn)也不講究。但是在實(shí)際工程應用中,這些信息能起不小的作用。而英漢語(yǔ)在其使用方面也存在一些差異。標點(diǎn)(如??。骸?。等)和字體(字母大小寫(xiě),斜體,粗體等)雖然本身沒(méi)有具體語(yǔ)義,但在辨識內容時(shí)起重要的引導作用。不妨讓我們想像一下,如果把我這篇文章里所有標點(diǎn)、分段、標題字體等都去掉,讓人來(lái)閱讀理解本文內容,難度是不是立刻會(huì )加大很多?若是換成計算機來(lái)讀那就更麻煩了。

在英語(yǔ)中(尤其是書(shū)面語(yǔ)中),逗號和句號的使用有明確規范,一句話(huà)結尾要求必須用句號符“.”,并且下一句話(huà)的第一個(gè)單詞的首字母要求大寫(xiě)。英文中從句非常多,從句之間要求用逗號“,”連接,以表示語(yǔ)義貫通。不僅如此,當一句話(huà)的主謂賓完整出現后,如果下一句話(huà)也同樣是一個(gè)完整句子,則兩句話(huà)中間或者需要用連詞(如and, or, therefore, but, so, yet, for, either等)連接,或者必須用句號“.”分割,如果中間用“,”且沒(méi)有連接詞,則屬于正式文書(shū)中的用法錯誤。如:

The algorithms and programs,which used on the website, are owned by the company called DataGrand, and are well known in China.

這里出現的標點(diǎn)和大小寫(xiě)字體是良好的句子語(yǔ)義指示符,既分割不同句子,也在句子內部分割不同語(yǔ)義,這些規范給英文NLP處理創(chuàng )造了較好的環(huán)境。

中文標點(diǎn)的使用則沒(méi)有這么強的規范。事實(shí)上中文標點(diǎn)在中國古代官方文書(shū)中一直不被采用,僅扮演民間閱讀中的停頓輔助符的角色。直到1919年中華民國教育部在借鑒了西方各國標點(diǎn)規范后才第一次制定了漢語(yǔ)的12中符號和使用方法,建國后在1951年和1990年兩次修訂后逐步成型。因為歷史沿革的原因,這些對標點(diǎn)的使用規范更多偏向于指導意見(jiàn),而不是一套強制標準。例如對逗號和句號何時(shí)使用,并不像英語(yǔ)中有特別嚴格的界定。漢語(yǔ)的分句較為模糊,意思表達完以后雖通常用句號,但用逗號繼續承接后面的句子也并不算錯,只要整篇文章不是極端的“一逗到底”,即使語(yǔ)文老師在批閱作文時(shí)也都不會(huì )過(guò)分對標點(diǎn)較真,而日常文章中標點(diǎn)的使用更是隨心所欲了。

與此同時(shí),英文里專(zhuān)有名詞用大寫(xiě)或者斜體字體來(lái)區分,首字母大寫(xiě)等用法,在中文中也不存在。NLP處理中,中文標點(diǎn)和字體使用的相對隨意給句法分析也帶來(lái)了巨大的挑戰,尤其在句子級別的計算機語(yǔ)義理解方面中文比英文要困難很多。

除了上述不利因素,中文也有一些獨特的標點(diǎn)帶來(lái)有利的因素。例如書(shū)名號《》就是中文所獨有的符號,感謝這個(gè)符號!書(shū)名號能非常方便的讓計算機程序來(lái)自動(dòng)識別專(zhuān)有名詞(如書(shū)名、電影名、電視劇、表演節目名等),這些名詞往往都是未登錄詞,如果沒(méi)有書(shū)名號的指引,讓計算機程序自動(dòng)識別這些中文專(zhuān)名的難度將加大很多,而這些專(zhuān)名詞匯恰恰都體現了文章的關(guān)鍵語(yǔ)義。例如下面這段新聞如果讓計算機來(lái)閱讀:“由于流浪地球的內容很接近好萊塢大片,因此影評人比較后認為不僅達到了2012的水平,而且對比星際穿越也毫不遜色。

”。要求計算機自動(dòng)提取上面這句話(huà)的關(guān)鍵詞會(huì )非常困難,因為里面有很多未登錄詞,對“2012”的理解也會(huì )有歧義(時(shí)間詞?or電影名?)

而正因為我們中文有書(shū)名號,迎刃而解:“由于《流浪地球》的內容很接近好萊塢大片,因此影評人比較后認為不僅達到了《2012》的水平,而且對比《星際穿越》也毫不遜色?!?。除了書(shū)名號,漢語(yǔ)的頓號(、)也能很好的指示并列關(guān)系的內容,“達觀(guān)每天下午的水果餐很豐富,有桃子、葡萄、西瓜和梨”,這些并列的內容可以很方便的被計算機解讀。

英文則沒(méi)有書(shū)名號和頓號等,而是采用特殊字體(例如加粗、斜體、大寫(xiě),各不相同,沒(méi)有強制約定)等形式來(lái)標識出這些專(zhuān)有名詞。因此在處理英文時(shí),這些字體信息起很重要的作用,一旦丟失會(huì )帶來(lái)麻煩。

值得一提的是,在日常聊天文字中,標點(diǎn)符號和字母使用的含義產(chǎn)生了很多新的變化。例如對話(huà)文本中“。。。。?!蓖磉_出“無(wú)語(yǔ)”的情緒?!??”和“???”前者是疑問(wèn),后者更多表達震驚。還有 :) \\^o^/ ORZ等各類(lèi)的符號的變換使用,給開(kāi)發(fā)對話(huà)機器人的工程師們帶來(lái)了很多新的挑戰。

五、詞匯粒度的處理方法差異

詞匯粒度問(wèn)題雖然在NLP學(xué)界被討論的不多,但的的確確NLP實(shí)戰應用中的一個(gè)關(guān)鍵要點(diǎn),尤其在搜索引擎進(jìn)行結果召回和排序時(shí),詞匯粒度在其中扮演關(guān)鍵角色,如果對其處理不恰當,很容易導致搜索質(zhì)量低下的問(wèn)題。

我們先看中文,詞匯粒度和分詞機制有很大關(guān)系,先看個(gè)例子:“中華人民共和國”這樣一個(gè)詞,按不同粒度來(lái)切,既可大粒度切為:“中華人民,人民共和國”,也可進(jìn)一步切出“中華,人民,共和國”,而“共和國”還可以進(jìn)一步切為“共和,國”。一般我們把按最小粒度切分所得的詞稱(chēng)為“基本粒度詞”。在這個(gè)例子中,基本粒度詞為“中華,人民,共和,國”4個(gè)詞。甚至“中華”還能繼續切出“中/華”也有表義能力(這個(gè)后面還會(huì )詳細分析)

為什么分詞需要有不同的粒度呢?因為各有作用。大粒度詞的表義能力更強,例如“中華人民共和國”這樣的大粒度詞,能完整準確的表達一個(gè)概念,適合作為文章關(guān)鍵詞或標簽提取出來(lái)。在搜索引擎中直接用大粒度詞去構建倒排索引并搜索,一般可得到相關(guān)性(準確率)更好的結果。

但從事過(guò)信息檢索的朋友們想必清楚召回率(Recall)和準確率(Precision)永遠是天平兩端互相牽制的兩個(gè)因素。大粒度詞在搜索時(shí)會(huì )帶來(lái)召回不足的問(wèn)題。例如一篇寫(xiě)有“人民共和國在中華大地上誕生了起來(lái)”的文章,如果用“中華人民共和國”這個(gè)詞去倒排索引中搜索,是無(wú)法匹配召回的,但拆分為“中華人民共和國”三個(gè)詞進(jìn)行搜索就能找出來(lái)。所以一個(gè)成熟的分詞器,需要因地制宜的設置不同粒度的分詞策略,并且最好還能確保在檢索詞處理(Query Analysis)和索引構建(Index Building)兩端的切分策略保持一致(陳運文)。目前學(xué)術(shù)界公開(kāi)的分詞測試集合,往往都是只有一種粒度,而且粒度劃分標準也并不一致,導致很多評測結果的高低離實(shí)際使用效果好壞有一定距離。

在中文分詞粒度里,有一個(gè)非常令人頭疼的問(wèn)題是“基本粒度詞”是否可繼續拆分的問(wèn)題。就好比在化學(xué)中,通常約定原子(atom)是不可再分的基本微粒,由原子來(lái)構成各類(lèi)化學(xué)物質(zhì)。但如果進(jìn)一步考慮原子可分,那么整個(gè)化學(xué)的根基就會(huì )動(dòng)搖。同樣在中文NLP領(lǐng)域,雖然學(xué)術(shù)界通常都默認基本粒度詞不再可分,但在實(shí)際工程界,基本詞不可再分會(huì )導致很多召回不足的問(wèn)題,引入難以解決的bad case。不要小看這個(gè)問(wèn)題,這是目前限制中文語(yǔ)義理解的一個(gè)特別常見(jiàn)的難題。要解釋清楚來(lái)龍去脈,筆者還得從漢語(yǔ)的發(fā)展歷程說(shuō)起。

中國古代漢語(yǔ)的表義基本單位是字而不是詞。我從《論語(yǔ)》中拿一句話(huà)來(lái)舉例:“己所不欲,勿施于人”。古代漢語(yǔ)一字一詞,這句話(huà)拿來(lái)分詞的話(huà)結果應該是“己/所/不/欲,勿/施/于/人”,可見(jiàn)全部切散為單字了。如果用現代白話(huà)文把這句話(huà)翻譯過(guò)來(lái),則意思是“自己都不愿意的方式,不要拿來(lái)對待別人”?,F代漢語(yǔ)的特點(diǎn)是一般喜歡把單字都雙音節化,“己-->自己,欲-->愿意,勿-->不要,施-->對待,人-->別人”??梢钥闯鲞@些雙音節(或多音節)詞匯中部分蘊含著(zhù)來(lái)源單字的意義。這種現象在現代漢語(yǔ)詞匯中比比皆是,例如“獅子”,“老虎”,“花兒”,“圖釘”,“水果”,“紅色”等,對應“獅,虎,花,釘,果,紅”等有意義的單字。而如果把這些雙音節詞作為不可再切分的基本粒度詞的話(huà),當用戶(hù)搜“獅”的時(shí)候,即使文章中出現了詞匯“獅子”,也是無(wú)法被搜到的。

那么如果將這些基本粒度詞再進(jìn)一步切分呢?會(huì )切出“子,老,兒,圖,水,色”這樣存在轉義風(fēng)險的詞匯(即這些單字對應的含義并未體現在原文中),帶來(lái)很多“副作用”。例如用戶(hù)搜“老”的時(shí)候,當然不希望把介紹“老虎”的文章給找出來(lái)。

與此同時(shí),還有另一類(lèi)的情況是有一些詞匯切為單字后,兩個(gè)單字都分別有表義能力,如“北歐”切為“北/歐”,對應“北部,歐洲”兩方面的意思?!岸碚Z(yǔ)”切為“俄/語(yǔ)”,對應“俄國,語(yǔ)言”,“苦笑”,切為“苦/笑”,對應“痛苦,笑容”,以及“海洋”,“圖書(shū)”,“親友”,“時(shí)空”等都是可細分的。

還有第三類(lèi)情況是,詞匯切分后單字都不能體現原詞含義,例如“自然”,如果切分為“自/然”,兩個(gè)字都沒(méi)有意義。類(lèi)似的還有“蘿卜”,“點(diǎn)心”,“巧克力”等,外來(lái)語(yǔ)為多。

之所以前面提到如今中文語(yǔ)義分析時(shí),基本粒度問(wèn)題是一個(gè)關(guān)鍵難題,原因是在現代漢語(yǔ)寫(xiě)作時(shí),既有現代雙音節/多音節詞匯,也夾雜很多源于古代漢語(yǔ)的單字,半文半白的現象很常見(jiàn),這就一下給語(yǔ)義理解帶來(lái)很大的挑戰。不管是切分粒度的選擇,還是單字和詞匯間關(guān)聯(lián)關(guān)系的提取,標題和正文語(yǔ)義的匹配,當面臨文白間雜時(shí)都會(huì )遇到難關(guān)。常見(jiàn)的情況為:新聞標題為了精煉,經(jīng)常喜歡采用源自古漢語(yǔ)習慣的單字簡(jiǎn)稱(chēng)或縮略語(yǔ)。例如“中美援非模式差異帶來(lái)效果大相徑庭”,是選擇“中美/援非”這樣的基本切分粒度,還是按單字表義切分為“中/美/援/非”,對應“中國美國援助非洲”這樣的內容,是存在各自的利弊的。計算機提取文章關(guān)鍵詞時(shí),還需要把“援—>援助,非-->非洲”還原為詞并建立關(guān)聯(lián)才能很好的解讀處理。

目前業(yè)界并沒(méi)有一個(gè)公認的粒度標準,常見(jiàn)的幾個(gè)評測語(yǔ)料集合,如北大pku-test,微軟亞洲研究院msr-test,人民日報標注語(yǔ)料等,切分標準都有所不同。雖然一般普遍采用的雙音節詞為主的基本粒度標準,但是在應用于搜索引擎、問(wèn)答對話(huà)時(shí)都會(huì )出現大量召回不足的問(wèn)題。而大量采用單字作為基本粒度詞又會(huì )引入有轉義風(fēng)險的無(wú)效單字,并且還會(huì )出現運算性能等隱患。

為了解決基本粒度詞的問(wèn)題,筆者曾在百度設計開(kāi)發(fā)了亞粒度詞(subterm)補足的策略,緩解了召回不足的問(wèn)題,工業(yè)界還有一些其他的同義詞關(guān)聯(lián)等方法來(lái)應對,但到目前為止詞匯粒度問(wèn)題仍然是困擾中文NLP的一個(gè)“慢性病”。近年來(lái)興起的BERT模型,利用大量文本進(jìn)行Transform預訓練,填補各種粒度詞匯的語(yǔ)義信息,也是是一種緩解問(wèn)題的辦法。

英文因為不存在切分問(wèn)題,所以粒度問(wèn)題只需要考慮詞組(Phrase)切分的問(wèn)題。例如Harvard University,兩個(gè)單詞可以切為Phrase來(lái)表達一個(gè)具體機構。相比中文的從細到粗的多粒度切分要簡(jiǎn)單很多。

六、句法結構分析方法異同

自然語(yǔ)言處理在詞匯級別之上是語(yǔ)句級別,因為語(yǔ)句是由一系列的詞匯排列組合后生成的。通過(guò)學(xué)習語(yǔ)法我們知道句子結構是由“主謂賓定狀補”這樣的句法元素構成的。例句“陳運文去達觀(guān)數據上班,”主語(yǔ)是“陳運文”,謂語(yǔ)“上班”,“達觀(guān)數據”是狀語(yǔ),說(shuō)明動(dòng)作發(fā)生的地點(diǎn)。

在句子結構方面,“英語(yǔ)重形合,漢語(yǔ)重義合”的特點(diǎn)體現的非常明顯。英語(yǔ)為了充分體現句子中的各種承接、轉折、從屬、并列等關(guān)系,不厭其煩的準備了大量的連詞、助詞、介詞、冠詞等作為填充劑,來(lái)補充實(shí)詞之間的縫隙,構成了很多從句、引導句。這些包含各類(lèi)結構的結構,讓計算機來(lái)進(jìn)行語(yǔ)義角色標注(SemanticRole Labeling, SRL)和語(yǔ)義依存分析(SemanticDependency Parsing, SDP)相對比較容易。

因為這些形式指示詞的存在,一個(gè)大家能很直觀(guān)發(fā)現的現象就是英文寫(xiě)出來(lái)的句子往往都特別長(cháng),整篇文章篇幅多。而同樣的意思用中文寫(xiě)出來(lái),篇幅往往只需要英文的一半甚至更少,漢語(yǔ)的句子非常精煉,尤其詩(shī)歌用短短幾個(gè)字能描述出豐富的內涵——“孤帆遠影碧空盡,唯見(jiàn)長(cháng)江天際流”,多么洗練優(yōu)美有意境。

從計算機的視角來(lái)看,恰恰因為漢語(yǔ)講究意合而不重形式,句子結構都比較松散,并沒(méi)有英文中那么多的虛詞作為實(shí)詞間的語(yǔ)義粘合劑,而是依賴(lài)詞匯前后順序關(guān)系,隱含表達出句子結構,所以也給計算機處理帶來(lái)了挑戰。例如“中國人工智能創(chuàng )業(yè)企業(yè)獲獎名單公布”這句話(huà)里,“中國,人工智能,創(chuàng )業(yè),企業(yè),獲獎”這一連串的名詞均是主語(yǔ)“名單”的定語(yǔ),如果用英語(yǔ)來(lái)寫(xiě)這句話(huà),一定會(huì )出現形如“the…of…that…which…”這樣一系列的輔助詞來(lái)把這些名詞粘接到一起,而中文并沒(méi)有它們。所以當我們訓練算法去識別句子主語(yǔ)和定語(yǔ)的時(shí)候,必須要小心的判斷哪個(gè)名詞才是句子的真正主語(yǔ)所在。漢語(yǔ)中句子的重心往往后移,相反英語(yǔ)中句子主要部分前移,所以通常生成句法依存樹(shù)時(shí)中文都會(huì )自動(dòng)選擇靠后的名詞。

除了句子內部的輔助詞外,在句子間關(guān)系識別時(shí),中英文都會(huì )通過(guò)特定標識詞連接子句間關(guān)系,例如轉折關(guān)系(雖然…但是…),假設關(guān)系(如果….就…),遞進(jìn)關(guān)系(不僅…而且…),因果關(guān)系(因為….所以….),英文則是because…, Although…, If…, but also… 等。在中英文中這些標識詞經(jīng)常會(huì )被自動(dòng)省略,例如“車(chē)站人流量大,大家要照看好自己的行李”。這里隱含的語(yǔ)義為“[因為]車(chē)站人流量大,[所以]大家要照看好自己的行李”,[-]內的詞匯被自動(dòng)省略了。區別在于英文一般會(huì )省略其中一個(gè),例如“because…, so…,”這樣的句子會(huì )省掉其中一個(gè),中文則既可以全省掉,也可以全寫(xiě)出,實(shí)際進(jìn)行語(yǔ)義理解時(shí)需要額外補充處理。

目前句法依存分析在實(shí)際工程應用中并沒(méi)有發(fā)揮很大作用,其原因一方面是上述一些現象導致了很難抽取得到特別準確的句法關(guān)系結果,另一方面是大部分NLP應用選擇了直接從詞匯或篇章級別來(lái)獲得結果,省去了中間句子這層。目前業(yè)界針對長(cháng)程的語(yǔ)義上下文關(guān)系,逐步放棄傳統的RST方法,更多傾向于利用記憶網(wǎng)絡(luò )(如bi-LSTM)等技術(shù)完成提煉。在聊天對話(huà)等應用方面,用句法結構來(lái)把握語(yǔ)義仍然是會(huì )有價(jià)值的。

七、中文英文指代消解處理

計算機進(jìn)行文章內容解讀時(shí),經(jīng)常碰到指代消解(ReferenceResolution)的問(wèn)題。不論是在書(shū)面文本中進(jìn)行長(cháng)文章解讀,還是在對話(huà)文本中回溯前文問(wèn)題,指代消解都起到非常關(guān)鍵的作用。計算機需要能像人類(lèi)一樣建立起上下文間這些詞匯間的關(guān)聯(lián)關(guān)系,做到把概念串聯(lián)起來(lái)“讀懂”文章的意思。例如這句話(huà):

“達觀(guān)數據順利入駐浦東軟件園,公司創(chuàng )始人陳運文表示,達觀(guān)專(zhuān)注于為企業(yè)提供文本智能處理軟件系統和技術(shù)服務(wù)。說(shuō):‘文本理解任重道遠’”

這句話(huà)里“公司”、“達觀(guān)”、“他”這些都是指代詞,“達觀(guān)數據”、“陳運文”是真正的實(shí)體,稱(chēng)為先行語(yǔ)(antecedent),而“公司”、“達觀(guān)”、“他”是回指語(yǔ)(或稱(chēng)為照應語(yǔ),anaphor)?;刂刚Z(yǔ)有時(shí)是代詞(如“He”、“that”、“該公司”、“上述條款”、“前者”、“被告人”等等),有時(shí)是簡(jiǎn)稱(chēng)或縮寫(xiě)(如“達觀(guān)”、“CEO”、“NLP”、“WTO”),有時(shí)采用借代方法,如“白宮的態(tài)度非常堅決”,“范冰冰們的納稅情況逐步被公布”,“白宮”=“美國總統”,“范冰冰們”=“大陸影視演員”。人類(lèi)的閱讀能力非常強,各類(lèi)指代的情況人都能通暢理解,但對計算機來(lái)說(shuō)并不簡(jiǎn)單。在NLP領(lǐng)域為此專(zhuān)門(mén)存在技術(shù)分支稱(chēng)為指代消解。指代消解通常又細分為回指、預指、共指等情形,實(shí)踐中通常稱(chēng)為共指消解(CoreferenceResolution)

英文中常見(jiàn)指代語(yǔ)是專(zhuān)名首字母縮寫(xiě),也是表音文字特別之處。英文中專(zhuān)有名詞往往由多個(gè)單詞構成,篇幅長(cháng),從中抽取字母構成各類(lèi)縮寫(xiě)約定非常常見(jiàn)??s寫(xiě)一部分是行業(yè)內通用的(例如計算機領(lǐng)域常見(jiàn)的CV,DNS,CPU,NLP等),另一些則是在文中第一次出現專(zhuān)名時(shí)臨時(shí)約定的。例如一篇行業(yè)分析報告里的句子:“High Carbon Steel (HCS) is typically producedas low carbon steel. HCS export volume in YTD 2017 reached to 6.9 millionmetric tons(MMT).”。這里臨時(shí)性縮寫(xiě)(HCS,YTD,MMT等)大量出現。這些回指語(yǔ)是一個(gè)新的獨立單詞(例如例子中的HCS),和原詞匯的關(guān)聯(lián)處理通過(guò)共指消解來(lái)完成。另一類(lèi)回指語(yǔ)是“it、which、where、there、that”等這樣的指代詞,要通過(guò)上下文依賴(lài)關(guān)系去尋找實(shí)體。

中文的縮寫(xiě)通常是從實(shí)體中抽取若干漢字新構成的詞,例如北京大學(xué)簡(jiǎn)稱(chēng)北大,復旦大學(xué)簡(jiǎn)稱(chēng)復旦,XX銀行,通常簡(jiǎn)寫(xiě)為X行,XX局長(cháng),簡(jiǎn)寫(xiě)為X局。(陳運文)因為漢字里單字的表義能力比英文中單獨的字母要強的多。我們知道常用漢字有5000多個(gè),而英文字母只有26個(gè),所以中文縮寫(xiě)詞更容易能讓人“望文生義”,讀懂含義。例如“高碳鋼”這個(gè)縮寫(xiě)即使是外行也能猜出意思,但是HCS怕是很難直接讓人明白是啥,即漢語(yǔ)在縮略語(yǔ)的可讀性上優(yōu)于英文。

正因為英文縮略語(yǔ)可讀性弱,且重復歧義多,所以為了讓人能讀懂,英文里通常都會(huì )清楚標出先行語(yǔ)和縮寫(xiě)規則。而漢語(yǔ)里除非嚴格的法律文書(shū)會(huì )前置術(shù)語(yǔ)表,一般文本里用縮略語(yǔ)時(shí)比較隨意,很多時(shí)候約定俗成,并不“提前打招呼”。例如新聞:“北大學(xué)生在剛剛結束的奧數競賽中成功摘得兩枚金牌”。如果按縮略語(yǔ)習慣,應該寫(xiě)為:“北京大學(xué)(以下簡(jiǎn)稱(chēng)北大)學(xué)生在剛剛結束的國際奧林匹克數學(xué)邀請賽(以下簡(jiǎn)稱(chēng)奧數)中成功摘得兩枚金牌?!?/p>

在共指消解中還會(huì )遇到的一類(lèi)問(wèn)題是因為語(yǔ)法結構導致的指向歧義的問(wèn)題。例如“這張照片里有陳運文和高翔的同事”、“那邊坐著(zhù)三個(gè)公司的工程師”,這在前面句法結構解析時(shí)提到過(guò),也同樣會(huì )影響中英文在處理共指消解時(shí)的結果。

在實(shí)際工程應用中,共指消解最常用到的場(chǎng)景是對人名、機構名、地點(diǎn)、條款、具體事件、關(guān)系類(lèi)型等要素的指代處理。在超長(cháng)文書(shū)(如證券行業(yè)的上市公司重組公告、招股說(shuō)明書(shū)等)處理方面該技術(shù)也起了很大作用。日常中文的共指消解存在一定的行文規律,通過(guò)預先挖掘簡(jiǎn)寫(xiě)和指代詞表導入算法中可顯著(zhù)提升效果。業(yè)界常見(jiàn)的共指消解方法既有傳統的規則啟發(fā)法,也有經(jīng)典的統計學(xué)習、聚類(lèi)算法、概率圖模型等,此外深度強化學(xué)習、長(cháng)短時(shí)記憶網(wǎng)絡(luò )等新的Meural Mention-ranking方法也有良好的效果。

八、英漢語(yǔ)詞匯間關(guān)聯(lián)關(guān)系挖掘

詞匯間關(guān)系是構建語(yǔ)義網(wǎng)絡(luò )的一項基礎技術(shù),我們知道同義詞、近義詞、相關(guān)詞是特別常見(jiàn)的詞匯關(guān)系,此外詞匯的上下位(例如在生物知識網(wǎng)絡(luò )中Sparrow屬于Bird,Shanghai屬于China)和詞向量等在NLP處理中都很重要。和英文單詞相比,漢字的數量少得多,常用漢字數才2000-3000個(gè),其中最常用的1000個(gè)漢字已經(jīng)能覆蓋92%的書(shū)面資料了。這1000個(gè)漢字中去掉偏旁部首類(lèi)似的字,獨立語(yǔ)素更是不到500個(gè)。在表述事物時(shí)漢語(yǔ)中采用字組合的方式,可以非常方便的理解詞義并且研讀出詞匯之間的關(guān)聯(lián)關(guān)系。

而英文單詞動(dòng)輒2萬(wàn)-3萬(wàn)個(gè)(美國成年人平均單詞量),而且意思相似的詞匯間的字母構成差異很大,所以很多情況下如果沒(méi)見(jiàn)過(guò)某個(gè)單詞,很難像中文一樣大致能猜出詞匯所指的意思。請大家不查詞典猜猜limousine、roadster、saloon分別是什么意思,再看看對應的中文意思,就能理解為什么會(huì )有這么多英文單詞了。

我們再用下面的這樣一些例子給大家直觀(guān)的展示英文在表述相近事物時(shí)的差異性:Chick, Rooster, Hen, Egg彼此之間從字母分布上來(lái)看很難看出有什么關(guān)聯(lián),但是換成中文,對應的是小雞、公雞、母雞、雞蛋,很容易就能發(fā)現其中的規律。中文詞匯是由有意思的單字組合構成的,因此通過(guò)字就很容易觀(guān)察和理解詞匯間的關(guān)系。類(lèi)似的,小牛,公牛,母牛的英文單詞為Calf,Ox,Cow,甚至公牛在英文中還區分閹割后的steer和沒(méi)被閹割的bull。因此漢語(yǔ)NLP中只需要根據動(dòng)物名“雞”、“?!?、“豬”、“鴨”加上相應的形容詞就可以知道意思了,而在英文中由于單詞的差異無(wú)法直接通過(guò)單詞的語(yǔ)素關(guān)系直接計算獲得,所以為驗證語(yǔ)義關(guān)系時(shí)略為復雜一些。

知識圖譜(Knowledge Graph)是理解這些詞匯間關(guān)系一種好辦法。詞匯(或稱(chēng)為實(shí)體Entity)間的關(guān)系通過(guò)挖掘大量文本、Wiki等來(lái)構建。英文詞匯間的關(guān)系不像中文這樣能讓人能觀(guān)察到,因此構建知識圖譜對英文來(lái)說(shuō)非常有價(jià)值。例如spaghetti,penne,capellini,fusilli,lasagne,macaroni這些實(shí)體,通過(guò)構建出知識圖譜,才能讓計算機知道他們都屬于Pasta(意大利面)下面的某個(gè)品類(lèi)的名字。近幾年興起的基于Skip-gram或CBOW模型的Word2Vec方法一經(jīng)提出就得到了非常廣泛的應用,在實(shí)踐中好評如潮,就是因為embedding技術(shù)恰好彌補了英文中詞匯之間關(guān)系不直觀(guān)的問(wèn)題,對提高計算機英文語(yǔ)義理解的能力起到了很好的幫助作用。類(lèi)似的,中文詞向量、預訓練等技術(shù)構建好后,也帶來(lái)了整體語(yǔ)義分析效果的大幅度進(jìn)步。漢語(yǔ)和英語(yǔ)在詞匯間關(guān)系挖掘這個(gè)方面,目前整體的算法都是相同的,區別在于漢語(yǔ)的詞匯間關(guān)系可以更加顯式的被人觀(guān)察到。畢竟,讓人來(lái)判斷hepatitis和pneumonia,Grape和Raisin,January和March,Monday和Thursday間的關(guān)系,相比分析肝炎和肺炎,葡萄和葡萄干,一月和三月,周一和周三之間的關(guān)系,還是要困難很多的,對計算機來(lái)說(shuō)也是如此。

九、中英文省略和內容補足的處理

語(yǔ)境是一個(gè)微妙的概念,人類(lèi)在進(jìn)行文字閱讀時(shí),不只是看到文字內容本身,而是不自覺(jué)的會(huì )將語(yǔ)境相關(guān)的詞匯自動(dòng)補充進(jìn)入字里行間,輔助語(yǔ)義理解。反之,人類(lèi)在文字寫(xiě)作時(shí),會(huì )將一些重復內容省略掉,主語(yǔ)或賓語(yǔ)是最常被省略的對象。例如摘錄自合同文書(shū)的一段文字“本協(xié)議中約定了大橋建設工程的具體內容,其中乙方負責承接,丙方負責監督,以確保順利交付”。如果讓計算機來(lái)解讀,需要把指代語(yǔ)補齊(用[-]表示)為:“本協(xié)議中約定了大橋建設工程的具體內容,乙方負責承接[該工程],丙方負責監督[乙方的工作],確保[該工程]順利交付”。 書(shū)面文本還相對規范,如果是日常對話(huà)的口語(yǔ)文本,那么省略更加是無(wú)處不在,以一個(gè)電商客服問(wèn)答為例:“這雙賣(mài)多少?”,“58”?!吧冱c(diǎn)?”,“最低了”?!靶袉??”,“做不了哎”。如果補齊省略語(yǔ),應該為:“這雙[鞋子的價(jià)錢(qián)]賣(mài)多少?”“[價(jià)錢(qián)]少點(diǎn)[行嗎]?”“[價(jià)錢(qián)少點(diǎn)]行嗎?”

除了主謂語(yǔ)省略,一些非常重要的連詞也經(jīng)常被省略,例如“因為…所以…,雖然…但是…,盡管…然而…”,例如:“開(kāi)車(chē)不注意,親人淚兩行”,“股市有風(fēng)險,投資需謹慎”,補充邏輯連詞后為“[如果]開(kāi)車(chē)不注意,[那么]親人淚兩行”,“[因為]股市有風(fēng)險,[所以]投資需謹慎”。

英文的省略習慣也存在(全世界人民都愛(ài)偷懶),例如省略主語(yǔ)it:“Looks as if it will snow”,省略謂語(yǔ)comes:“Who next?”,省略賓語(yǔ)thedishes:“Let \' s do the dishes. I \' ll wash and you \' ll dry.”,省略連詞that“It \' s a pity[that] she \' s leaving”。當然英文中還有一類(lèi)約定俗成的獨特簡(jiǎn)稱(chēng)(很多來(lái)自拉丁語(yǔ))e.g., etc., al., i.e., viz.等。

區別在于英文書(shū)面文本中省略出現的較少,同時(shí)語(yǔ)義連接詞的省略有固定規范,例如“because…so…”要求只省其中一個(gè)。英文行文時(shí)單詞使用量比中文多,同樣的內容英文篇幅通常是中文的200%左右,也即中文1頁(yè)紙寫(xiě)完的內容,如果用英文寫(xiě)要2頁(yè)甚至更多。如果對比惜字如金的文言文,就更濃縮了。如“民為貴,社稷次之,君為輕”,10個(gè)字如果改用英文寫(xiě),沒(méi)有幾十個(gè)單詞怕是說(shuō)不清楚。那么放到省略環(huán)境下看時(shí),漢語(yǔ)就比較吃虧了,因為本來(lái)就濃縮,再加上語(yǔ)法約束不嚴導致時(shí)不時(shí)省略,對信息的損失比較大。從10個(gè)漢字的短句中省略2個(gè)字,和從一段20個(gè)單詞的英文句子中省略2個(gè)單詞,前者對計算機處理來(lái)說(shuō)要費力不少。達觀(guān)在進(jìn)行文本應用實(shí)踐中,也在想辦法主動(dòng)“腦補”出這些省略語(yǔ),加深對文字理解的深度(陳運文)。近年興起的文本預訓練(例如大名鼎鼎的BERT,MT-DNN等)技術(shù)通過(guò)海量文本的預訓練,對文本進(jìn)行表示學(xué)習,運用transform編碼器等把這些詞句中的隱語(yǔ)義信息嵌入(Embedding),結合Attention機制,填補省略?xún)热?,在自然語(yǔ)言理解(NLU)的很多應用(例如GLUE benchmark、斯坦福閱讀推理SQuAD、SNLI、MultiNLI、SciTail)能大幅度提升效果。

十、歧義問(wèn)題與子串轉義處理

雖然大部分NLP的算法都具備語(yǔ)言無(wú)關(guān)性(Language independent),但是在具體工程任務(wù)中還是有很多語(yǔ)言相關(guān)的問(wèn)題。在漢語(yǔ)中經(jīng)常發(fā)生的一類(lèi)情況是文字子串局部轉義的問(wèn)題。這個(gè)問(wèn)題因為是漢語(yǔ)所獨有的,在英文中幾乎不曾出現,所以在自然語(yǔ)言處理的學(xué)術(shù)界并不作為主流的課題被研究(因為學(xué)術(shù)界主流還是傾向于研究語(yǔ)言無(wú)關(guān)性的課題和方法)。但是筆者在多年從事NLP以及搜索和推薦系統技術(shù)研發(fā)工作時(shí),深深的感受到子串轉義是一個(gè)非常困難卻也非常重要的漢語(yǔ)NLP課題。對這個(gè)課題處理水平的高低直接影響著(zhù)大量的實(shí)際工程效果。下面具體闡述下該問(wèn)題的定義。

前文我曾提到過(guò)漢語(yǔ)中單字不多(3000個(gè)漢字可以覆蓋99%的中文文本了),所以漢語(yǔ)里的詞匯大多是由幾個(gè)漢字順序組合來(lái)形成的。這里潛伏著(zhù)一個(gè)巨大的隱患是,因為字的排列組合形式很多,所以會(huì )導致局部出現的一些組合所構成的意思,和整體詞的意思不同,出現歧義;或者說(shuō)一個(gè)詞匯中的子串和整個(gè)詞的意思會(huì )出現很大的差異,因而也稱(chēng)為子串轉義問(wèn)題。這里我用數學(xué)形式化的方法再來(lái)表述下:假設A、B、C分別表示三個(gè)漢字,那么子串轉義就是指詞匯ABC的含義,和AB或者BC的含義完全不相同。當然4個(gè)漢字或者更長(cháng)的短串也類(lèi)似。例如ABCD和ABC或BCD或AB、BC、CD的意思可能會(huì )完全不同,這種意思“突變”的情況稱(chēng)為子串轉義。

例如:“周杰倫”和其中的前兩個(gè)字構成的詞“周杰”顯然指的是完全不同的兩個(gè)人,“蕁麻疹”和“麻疹”是兩種病,“亞健康”和“健康”的意思截然相反。這會(huì )給計算機處理帶來(lái)很多困難,尤其在搜索引擎中,當用戶(hù)搜“周杰”或“麻疹”或“健康”時(shí),如果結果出“周杰倫上海粉絲見(jiàn)面會(huì )”、或“蕁麻疹治療方法”、“導致白領(lǐng)亞健康的主要原因”都是不太好的結果。我們在搜索引擎中遇到的大量結果不相關(guān)的問(wèn)題,很多都是由于漢語(yǔ)中局部轉義現象導致的。

同樣,在進(jìn)行關(guān)鍵詞提取、文本相似度計算、相關(guān)文章推薦等場(chǎng)景的時(shí)候,這些局部轉義的問(wèn)題同樣也會(huì )帶來(lái)很大麻煩。例如“周杰倫上海粉絲見(jiàn)面會(huì )”和“周杰倫現身上海電影節”兩篇文章的內容相關(guān)度,顯然遠大于“周杰上海粉絲見(jiàn)面會(huì )”。

很多朋友可能會(huì )覺(jué)得這些都可以視為命名實(shí)體識別(NER)問(wèn)題,將這些專(zhuān)名直接切為一個(gè)整體,就能解決上述局部轉義的問(wèn)題了。其實(shí)沒(méi)這么簡(jiǎn)單,因為其實(shí)大量的中文詞匯里,局部詞組合成的意思和整體詞匯是存在關(guān)聯(lián)的,如果不切開(kāi)會(huì )帶來(lái)召回不足的問(wèn)題。例如“消防隊”和“消防”,“上班族”和“上班”,“315晚會(huì )”和“315”等,甚至前面例子里“周杰倫”和“杰倫”也有緊密的語(yǔ)義關(guān)聯(lián)。當用戶(hù)搜索詞是“消防”、“杰倫”、“315”等query時(shí),相應的整體詞“周杰倫”、“315晚會(huì )”等所在的文章也理應被搜出來(lái)。因為明明文章里有這個(gè)詞且意思相關(guān),如果沒(méi)被找出來(lái)是不能被用戶(hù)接受的。通過(guò)這些例子可見(jiàn)正確處理漢語(yǔ)的字詞組合的確是一件很棘手的課題。再舉個(gè)例子:“不可以”這個(gè)常用詞,把“不可”單獨作為子串提取出來(lái)是非常有必要的,因為和原詞意思相同。但是把“可以”單獨提取出來(lái)就很危險,因為和原詞意思相反,單獨進(jìn)行搜索匹配會(huì )導致歧義。再如我們可以把“阿里巴巴”里的子串“阿里”切出來(lái),因為很多時(shí)候用戶(hù)稱(chēng)呼“阿里”就是指“阿里巴巴”,但是把“里巴”或“巴巴”切出來(lái)則是不合適的。

究竟哪些子串詞匯和原詞意思相同相近?哪些又會(huì )發(fā)生轉義?這需要計算機更智能的進(jìn)行判斷才行,目前我們已經(jīng)想了一些方法去解決,例如通過(guò)字的共現頻率等進(jìn)行處理,但離徹底解決漢語(yǔ)里子串轉義的問(wèn)題還有距離。

除了子串轉義外,漢語(yǔ)中其他歧義的情況也是比比皆是,例如“我去上課了”、“她看病去了”(主動(dòng)和被動(dòng)不明,導致無(wú)法區分老師還是學(xué)生,病人還是醫生)、“要多少有多少”(無(wú)法區分核心語(yǔ)義是多還是少)、“咬死了獵人的狗”、“喜歡山區的孩子”(無(wú)法區分狗或孩子是主語(yǔ)還是賓語(yǔ))。因為中文不是靠詞匯的變形變換來(lái)體現修飾、主被動(dòng)等關(guān)系,而是靠順序組合來(lái)體現,因此在中文NLP的各個(gè)環(huán)節,從分詞、詞性、句法、指代,到局部子串處理等,都會(huì )帶來(lái)歧義理解的問(wèn)題。

英文中也存在歧義問(wèn)題,最常見(jiàn)的情況是英文多義詞導致的。例如“He went to the bank”既可以理解為“他去了銀行”,也可以理解為“他去了河岸邊”,“The doctor saw the Indian dance”,單詞Indian 既可以視為形容詞“印第安人的舞蹈”,也可以是名詞“印第安人+跳舞”,還有英文中不定式導致的歧義,如“Not many books filled the shelves”,可以理解為“書(shū)架上沒(méi)有幾本書(shū)”或者“要放滿(mǎn)那些書(shū)架不用很多書(shū)”。

其實(shí)所有的人類(lèi)語(yǔ)言都存在著(zhù)各式各樣的歧義的問(wèn)題,我們看到各個(gè)民族所流傳的笑話(huà)里很多都是拿這些歧義語(yǔ)義來(lái)打趣的。不同語(yǔ)言處理歧義的具體方法不同,但整體思路都是將歧義句放到句子上下文里來(lái)解讀,引入更多語(yǔ)境信息來(lái)正確獲得意思。

可以說(shuō)計算機進(jìn)行語(yǔ)義理解的結果,某種程度上就是在和各種各樣的歧義做斗爭的過(guò)程。打個(gè)比方,自然語(yǔ)言處理的過(guò)程就像是讓計算機拿著(zhù)用上下文語(yǔ)境拼湊出的一張殘缺的地圖,撥開(kāi)云遮霧繞的文字迷霧,越過(guò)歧義所埋下的一個(gè)個(gè)大坑,逐步接近語(yǔ)義真相的過(guò)程。

中英文NLP差異總結

中文和英文這兩類(lèi)全球使用人數最多,影響力最大的語(yǔ)言,有各自鮮明的語(yǔ)言特色,在計算機進(jìn)行自然語(yǔ)言處理領(lǐng)域也有各自獨樹(shù)一幟的地方。本文從語(yǔ)言特點(diǎn)的角度出發(fā),從10個(gè)方面分析了中英文在自然語(yǔ)言處理上的差異。隨著(zhù)全球化的發(fā)展,中英文在不斷相互影響,相互滲透。例如中文中有大量的外來(lái)語(yǔ)來(lái)自英文,沙發(fā)、咖啡、巧克力、牛頓等這些頻繁出現的詞匯都源于英文,還有很多專(zhuān)業(yè)術(shù)語(yǔ)如NGO、WTO、CFO等,甚至NLP一詞本身也是源自英文。英文也在受中文影響,每年都有近千條外來(lái)詞匯新收錄入英文詞典,如Kungfu(功夫),tofu(豆腐)等。

無(wú)論是中英文各自的NLP應用,還是兩種語(yǔ)言之間的相互翻譯,都面臨著(zhù)非常巨大的技術(shù)挑戰,因為語(yǔ)言的產(chǎn)生和發(fā)展受人類(lèi)日常交流和使用的影響,雖然有一定的語(yǔ)法規律,但并不完全嚴格的,另外語(yǔ)義理解還受上下文語(yǔ)境、以及領(lǐng)域知識的影響非常大,這些都給計算機處理帶來(lái)了很多困難。

雖然整體上NLP的算法都是語(yǔ)言無(wú)關(guān)的,但是在細節處理上還是存在很多差異,尤其在實(shí)際工程應用中為了達到盡可能好的效果,往往要深入探究語(yǔ)言的特點(diǎn)。因此本文從兩種語(yǔ)言的特點(diǎn)出發(fā),結合作者在計算機文本處理方面的從業(yè)經(jīng)驗,分析了兩者NLP的異同點(diǎn),雖掛一漏萬(wàn),但期望對各位讀者有所啟發(fā),也期待未來(lái)中英文的語(yǔ)義理解技術(shù)都不斷創(chuàng )造新的突破。(陳運文 達觀(guān)數據)

達觀(guān)數據是一家專(zhuān)注于文本智能處理技術(shù)的國家高新技術(shù)企業(yè),獲得2018年度中國人工智能領(lǐng)域最高獎項 “吳文俊人工智能科技獎”,也是本年度上海市唯一獲獎企業(yè)。達觀(guān)數據利用先進(jìn)的自然語(yǔ)言理解、自然語(yǔ)言生成、知識圖譜等技術(shù),為大型企業(yè)和政府機構提供文本自動(dòng)抽取、審核、糾錯、搜索、推薦、寫(xiě)作等智能軟件系統,讓計算機代替人工完成業(yè)務(wù)流程自動(dòng)化,大幅度提高企業(yè)效率。

以上就是關(guān)于銷(xiāo)售pos機口語(yǔ),中文和英文語(yǔ)言差異和計算機處理的區別的知識,后面我們會(huì )繼續為大家整理關(guān)于銷(xiāo)售pos機口語(yǔ)的知識,希望能夠幫助到大家!

轉發(fā)請帶上網(wǎng)址:http://www.xjcwpx.cn/newsone/72602.html

你可能會(huì )喜歡:

版權聲明:本文內容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻,該文觀(guān)點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權,不承擔相關(guān)法律責任。如發(fā)現本站有涉嫌抄襲侵權/違法違規的內容, 請發(fā)送郵件至 babsan@163.com 舉報,一經(jīng)查實(shí),本站將立刻刪除。