微軟借互聯(lián)網(wǎng)挖掘技術(shù)開發(fā)語(yǔ)言學(xué)習(xí)工具
作者:不詳 發(fā)布時(shí)間:[ 2010/8/6 11:58:23 ] 推薦標(biāo)簽:互聯(lián)網(wǎng)
導(dǎo)讀:國(guó)外媒體撰文稱,微軟通過(guò)互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)開發(fā)了一款名為英庫(kù)的語(yǔ)言學(xué)習(xí)工具,并有望借此為必應(yīng)吸引更多用戶,獲得更多廣告收入。
以下為文章全文:
挖掘數(shù)據(jù)
微軟位于北京的研究人員正在使用從互聯(lián)網(wǎng)中挖掘的數(shù)據(jù)來(lái)改進(jìn)在線漢英詞典以及語(yǔ)言練習(xí)服務(wù)。該技術(shù)有朝一日將被用在一些類似的工具上,使得所有語(yǔ)言學(xué)習(xí)者都能夠使用。
英庫(kù)(www.engkoo.com)是“英語(yǔ)”和“倉(cāng)庫(kù)”的合成詞。該產(chǎn)品的核心是翻譯數(shù)據(jù)。這些數(shù)據(jù)是微軟在一些獲得出版商授權(quán)的詞典中提取出來(lái)的。除此之外,微軟還通過(guò)對(duì)同時(shí)具備中英文兩個(gè)版本的網(wǎng)站的掃描來(lái)充實(shí)數(shù)據(jù)庫(kù)。
微軟的電腦會(huì)對(duì)這些網(wǎng)站的段落、語(yǔ)句和單詞進(jìn)行校正,然后計(jì)算出一個(gè)翻譯的質(zhì)量等級(jí)并存檔。
當(dāng)用戶在英庫(kù)的輸入欄中輸入一個(gè)單詞或語(yǔ)句時(shí),無(wú)論是中文還是英文,該網(wǎng)站都可以從數(shù)據(jù)庫(kù)中提取數(shù)據(jù)對(duì)其進(jìn)行翻譯。英庫(kù)還可以顯示一些使用相似單詞的例句,很多情況下還會(huì)提供該例句的來(lái)源鏈接。
英庫(kù)是今年“華爾街日?qǐng)?bào)亞洲創(chuàng)新獎(jiǎng)”(Asian Innovation Awards)終優(yōu)勝者。
更多創(chuàng)新
盡管谷歌翻譯(Google Translate)等翻譯工具也使用了一些類似的方法,但英庫(kù)的研究人員還通過(guò)其他一些技術(shù)拓展了語(yǔ)言練習(xí)工具的范圍。
但與谷歌相比,英庫(kù)的觸角仍然很有限。谷歌號(hào)稱是全球大的免費(fèi)翻譯服務(wù),提供57個(gè)語(yǔ)種的翻譯。谷歌還將翻譯技術(shù)整合到了多款服務(wù)中,包括手機(jī)、搜索引擎以及Chrome瀏覽器。
微軟也為用戶提供了必應(yīng)翻譯器,可以對(duì)文本和網(wǎng)站進(jìn)行翻譯,覆蓋32個(gè)語(yǔ)種。
微軟的研究人員還計(jì)劃推出其他語(yǔ)言版本的英庫(kù),包括日語(yǔ)和英語(yǔ)。微軟亞洲研究院技術(shù)戰(zhàn)略總監(jiān)埃里克?常(Eric Chang)表示,幫助英語(yǔ)用戶學(xué)習(xí)漢語(yǔ)也將成為他們的目標(biāo)之一,但該公司的研究目前主要還是著眼于漢譯英。
英庫(kù)上的多數(shù)英語(yǔ)例句都為用戶提供了語(yǔ)音版本,這些語(yǔ)音是利用英語(yǔ)的人朗讀的語(yǔ)音文件生成的。他們還試圖模仿真人的聲調(diào),盡管抑揚(yáng)頓挫的變化無(wú)法達(dá)到真人發(fā)聲的水平。
谷歌翻譯也為用戶提供部分語(yǔ)種的語(yǔ)音版本,包括中文。
相關(guān)推薦

最新發(fā)布
性能測(cè)試之測(cè)試環(huán)境搭建的方法
2020/7/21 15:39:32軟件測(cè)試是從什么時(shí)候開始被企業(yè)所重視的呢?
2020/7/17 9:09:11Android自動(dòng)化測(cè)試框架有哪些?有什么用途?
2020/7/17 9:03:50什么樣的項(xiàng)目適合做自動(dòng)化?自動(dòng)化測(cè)試人員應(yīng)具備怎樣的能力?
2020/7/17 8:57:06幾大市面主流性能測(cè)試工具測(cè)評(píng)
2020/7/17 8:52:11RPA機(jī)器人能夠快速響應(yīng)企業(yè)需求,是怎么做到的?
2020/7/17 8:48:05Bug可以真正消滅嗎?為什么?
2020/7/17 8:43:03軟件測(cè)試基本概念是怎么來(lái)的?軟件測(cè)試生命周期的形成歷經(jīng)了什么?
2020/7/16 9:11:10