導(dǎo)讀:國(guó)外媒體撰文稱,微軟通過(guò)互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)開發(fā)了一款名為英庫(kù)的語(yǔ)言學(xué)習(xí)工具,并有望借此為必應(yīng)吸引更多用戶,獲得更多廣告收入。

  以下為文章全文:

  挖掘數(shù)據(jù)

  微軟位于北京的研究人員正在使用從互聯(lián)網(wǎng)中挖掘的數(shù)據(jù)來(lái)改進(jìn)在線漢英詞典以及語(yǔ)言練習(xí)服務(wù)。該技術(shù)有朝一日將被用在一些類似的工具上,使得所有語(yǔ)言學(xué)習(xí)者都能夠使用。

  英庫(kù)(www.engkoo.com)是“英語(yǔ)”和“倉(cāng)庫(kù)”的合成詞。該產(chǎn)品的核心是翻譯數(shù)據(jù)。這些數(shù)據(jù)是微軟在一些獲得出版商授權(quán)的詞典中提取出來(lái)的。除此之外,微軟還通過(guò)對(duì)同時(shí)具備中英文兩個(gè)版本的網(wǎng)站的掃描來(lái)充實(shí)數(shù)據(jù)庫(kù)。

  微軟的電腦會(huì)對(duì)這些網(wǎng)站的段落、語(yǔ)句和單詞進(jìn)行校正,然后計(jì)算出一個(gè)翻譯的質(zhì)量等級(jí)并存檔。

  當(dāng)用戶在英庫(kù)的輸入欄中輸入一個(gè)單詞或語(yǔ)句時(shí),無(wú)論是中文還是英文,該網(wǎng)站都可以從數(shù)據(jù)庫(kù)中提取數(shù)據(jù)對(duì)其進(jìn)行翻譯。英庫(kù)還可以顯示一些使用相似單詞的例句,很多情況下還會(huì)提供該例句的來(lái)源鏈接。

  英庫(kù)是今年“華爾街日?qǐng)?bào)亞洲創(chuàng)新獎(jiǎng)”(Asian Innovation Awards)終優(yōu)勝者。

  更多創(chuàng)新

  盡管谷歌翻譯(Google Translate)等翻譯工具也使用了一些類似的方法,但英庫(kù)的研究人員還通過(guò)其他一些技術(shù)拓展了語(yǔ)言練習(xí)工具的范圍。

  但與谷歌相比,英庫(kù)的觸角仍然很有限。谷歌號(hào)稱是全球大的免費(fèi)翻譯服務(wù),提供57個(gè)語(yǔ)種的翻譯。谷歌還將翻譯技術(shù)整合到了多款服務(wù)中,包括手機(jī)、搜索引擎以及Chrome瀏覽器。

  微軟也為用戶提供了必應(yīng)翻譯器,可以對(duì)文本和網(wǎng)站進(jìn)行翻譯,覆蓋32個(gè)語(yǔ)種。

  微軟的研究人員還計(jì)劃推出其他語(yǔ)言版本的英庫(kù),包括日語(yǔ)和英語(yǔ)。微軟亞洲研究院技術(shù)戰(zhàn)略總監(jiān)埃里克?常(Eric Chang)表示,幫助英語(yǔ)用戶學(xué)習(xí)漢語(yǔ)也將成為他們的目標(biāo)之一,但該公司的研究目前主要還是著眼于漢譯英。

  英庫(kù)上的多數(shù)英語(yǔ)例句都為用戶提供了語(yǔ)音版本,這些語(yǔ)音是利用英語(yǔ)的人朗讀的語(yǔ)音文件生成的。他們還試圖模仿真人的聲調(diào),盡管抑揚(yáng)頓挫的變化無(wú)法達(dá)到真人發(fā)聲的水平。

  谷歌翻譯也為用戶提供部分語(yǔ)種的語(yǔ)音版本,包括中文。