中文分詞是百度和谷歌的核心技術(shù)之一,因此不會將細節(jié)公之于。中華論文聯(lián)盟只能利用黑盒方法進行推導(dǎo),也即通過輸入檢索提問,查看結(jié)果情況,并通過兩個搜索引擎都具備的網(wǎng)頁快照功能查看各自對檢索提問的分詞情況。
表1 檢索提問在百度和谷歌中的分詞情況*
第一,推導(dǎo)百度的中文分詞技術(shù)
第1個例子說明,如果對檢索提問用引號做精確檢索,百度對其不進行分詞運算。例2說明,如果輸入用空格進行分割的若干個子字符串,百度對其自動做分詞處理(如果用標點符號分割,也會做自動分詞處理)。例3、6、7、8、10等都說明百度對檢索詞會進行多種切分方式,并且首先是不進行切分,直接匹配,如果有結(jié)果則返回,并排在檢索結(jié)果最前面;然后再按照不同形式切分之后再去匹配。
例4對“比爾蓋茨”的檢索表明,百度有專有名詞庫,例5對“旭日陽剛”的檢索表明,百度對新詞收錄較快。例9“旭日陽剛才”的分詞結(jié)果為“旭日陽剛/才”也說明,百度對新詞能夠識別。
例11“大長今天天向上”,百度能夠識別出“大長今/天天向上”,“大長今”為一韓劇名,“天天向上”為一綜藝節(jié)目,百度均能正確地識別,表明其詞庫收詞范圍很廣,收詞量很多。例7、8說明,百度對在分詞時不會忽略“的”、“和”這些意義不大的字(即禁用詞),可以做更多的嘗試,百度對“了”、“嗎”等都不會忽略,仍作為檢索詞進行分詞。
再探討百度是正向最大匹配還是逆向最大匹配。例7中,對“走路和氣質(zhì)”可以分出“走路/和/氣質(zhì)”,這種結(jié)果像是逆向最大匹配法,再看例12,“分居民生活水平”,如果逆向最大匹配法的話應(yīng)該是應(yīng)該分為“分/居民/生活水平”,但事實上百度對這個檢索提問的分詞結(jié)果并不如此,在這個例子上看似為正向分詞。因此,百度的分詞不是單純的正向最大匹配或者逆向最大匹配,采用的應(yīng)該是雙向最大匹配法。
通過有多種劃分方式的例子(比如例8),可以看出,百度首先是不進行分詞,得到“朱德的母親”,然后再識別出專有名詞或新詞,剩余部分又按照先不切分的方式,得到“朱德/的母親”,然后用最少切分法原則,并且用到了3元交叉切分法得到了“朱德的/的母親”。
第二,推導(dǎo)谷歌的中文分詞技術(shù)
例1說明,對于引號中的檢索提問,谷歌不進行拆分;例2說明,用空格分開的子字符串,谷歌自動做分詞處理(如果用標點符號分割,效果也一樣)。
例3、4、5、6表明,谷歌對于專有名詞和新詞識別能力較差,對“比爾蓋茨”、“旭日陽剛”等都進行了分詞處理,甚至連“忐忑”都劃分為了“忐/忑”,“圖書館”劃分為“圖書/館”,“中醫(yī)藥”劃分為“中/醫(yī)藥”,說明谷歌的詞庫較小。
例7、8說明,谷歌在分詞時,會對檢索提問中意義不大的字如“的”、“和”忽略,當(dāng)作禁用詞,然后再進行分詞。
例9、10、11、12都印證了谷歌采取的是逆向最大匹配法,并印證了對專有名詞和新詞識別能力差。在12個例子中涉及的專有名詞和新詞中,只有“朱德”被正確識別。
長沙科聯(lián)環(huán)?萍加邢薰
長沙科聯(lián)環(huán)保科技有限公司坐落于國家級長沙經(jīng)濟技術(shù)開發(fā)區(qū),星沙工業(yè)園、我們以“科技創(chuàng)新,聯(lián)合共...南京尚上防腐木
南京尚上防腐木是一家專業(yè)致力于加工、制作、銷售戶外景觀防腐木,并為客戶設(shè)計安裝一站式服務(wù)的現(xiàn)...長沙昱霆機電有限公司
長沙昱霆機電有限公司是長沙空壓機_長沙空壓機保養(yǎng)_湖南空壓機維修_長沙空壓機機頭維修-長沙昱...湖南省土地學(xué)會,湖南土地學(xué)會,湖南土地學(xué)會官網(wǎng)
湖南省土地學(xué)會是全省土地科技工作者自愿組成,并依法登記的學(xué)術(shù)性、非盈利性、公益性的法人社會團...湖南為美環(huán)保技術(shù)有限公司,醫(yī)療污水凈化機組...
湖南為美環(huán)保技術(shù)有限公司應(yīng)“綠水青山就是金山銀山”之勢而生,秉持“為民環(huán)保,美麗干凈”理想信...長沙租車公司-長沙鑫晨租車
長沙鑫晨租車(長沙租車網(wǎng))于2008年,已精工細作多年,F(xiàn)以成為長沙地區(qū)較早的租車公司之一。...聯(lián)系方式
地址:湖南省長沙市天心區(qū)韶山南路248號南園503室
電話:13637482004 0731-88571521
網(wǎng)址:http://www.zhikedianqi.com/
郵箱:123@123007.com
微信咨詢
掃一掃進移動端