2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

機(jī)器學(xué)習(xí)已能翻譯失傳已久的語(yǔ)言

來(lái)源:期刊VIP網(wǎng)所屬分類(lèi):業(yè)內(nèi)新聞時(shí)間:瀏覽:

  對(duì)失傳已久的語(yǔ)言進(jìn)行破譯,一直是考古學(xué)家和語(yǔ)言學(xué)家關(guān)注的焦點(diǎn)和難點(diǎn)。隨著大型注釋庫(kù)的應(yīng)用以及機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,人們開(kāi)始思考,機(jī)器能否幫助破譯失傳已久的語(yǔ)言。近日,美國(guó)麻省理工學(xué)院的羅家明和雷吉娜·巴茲雷以及加州山景城谷歌人工智能實(shí)驗(yàn)室的曹元團(tuán)隊(duì)發(fā)明了能夠破譯失傳語(yǔ)言的機(jī)器學(xué)習(xí)系統(tǒng),并用它破譯了線形文字B。

  1886年,英國(guó)考古學(xué)家阿瑟·埃文斯在地中海的克里特島發(fā)現(xiàn)了刻著奇特未知語(yǔ)言銘文的古老石頭。而石頭上所刻的正是線形文字A和線形文字B。

  線形文字A可追溯到公元前1800年至1400年間,當(dāng)時(shí)該島被青銅時(shí)代的米諾斯文明統(tǒng)治。線形文字B在公元前1400年后出現(xiàn),當(dāng)時(shí)該島被來(lái)自希臘大陸的邁錫尼人征服。多年來(lái),考古學(xué)家一直試圖破譯這些古老的文字,但都失敗了。直到1953年,業(yè)余語(yǔ)言學(xué)家邁克爾·文特里斯破譯了線形文字B。

  但破譯更古老的線形文字A至今仍是語(yǔ)言學(xué)中令人矚目的難題。

  羅家明等人發(fā)明的破譯失傳語(yǔ)言的機(jī)器學(xué)習(xí)系統(tǒng),通過(guò)破譯線形文字B證實(shí)了這一系統(tǒng)的有效性——這是首次機(jī)器完成自動(dòng)破譯,其實(shí)現(xiàn)方式與機(jī)器翻譯技術(shù)不同。

  機(jī)器在不知其意的情況下,是如何實(shí)現(xiàn)翻譯的呢?

  無(wú)論機(jī)器翻譯哪種語(yǔ)言,原理都是從目的語(yǔ)中尋找與源語(yǔ)詞匯相對(duì)應(yīng)的單詞,因而首先要將特定語(yǔ)言的對(duì)應(yīng)關(guān)系映射出來(lái)。這一過(guò)程需要龐大的文本數(shù)據(jù)庫(kù)。機(jī)器通過(guò)搜索該文本庫(kù),得出每個(gè)單詞和每個(gè)與它相鄰單詞出現(xiàn)的頻率。每個(gè)單詞可以看做多維參數(shù)空間中的一個(gè)向量,該向量作為約束條件,限制了對(duì)應(yīng)單詞出現(xiàn)在機(jī)器翻譯中的形式,并且這些向量會(huì)遵循一些簡(jiǎn)單的數(shù)學(xué)法則。

  機(jī)器翻譯的關(guān)鍵是,不同語(yǔ)言中的單詞在各自參數(shù)空間內(nèi)占據(jù)著相同的“點(diǎn)”。這使得從一種語(yǔ)言一對(duì)一映射到另一種語(yǔ)言成為可能。因此,翻譯句子的過(guò)程變成了在這些空間中尋找相似軌跡的過(guò)程。機(jī)器甚至無(wú)需“知道”這些句子的含義。

  羅家明等人研發(fā)的機(jī)器學(xué)習(xí)系統(tǒng),其約束條件與語(yǔ)言發(fā)展方式息息相關(guān)。該原理是任何語(yǔ)言只能以特定的方式改變——比如,對(duì)應(yīng)語(yǔ)言中的符號(hào)以相似的分布出現(xiàn),對(duì)應(yīng)單詞以相同的字符順序排列,以此類(lèi)推。有了這些規(guī)則約束機(jī)器,只要知道源語(yǔ)言,就可以輕松破譯。

  為了更好地測(cè)試該技術(shù),羅家明等人使用了兩種消失的語(yǔ)言——線形文字B和烏加里特語(yǔ)。線形文字B記錄了古希臘的早期形式,而發(fā)現(xiàn)于1929年的烏加里特語(yǔ)則是希伯來(lái)語(yǔ)的早期形式。

  試驗(yàn)證明,羅家明等人研究的機(jī)器學(xué)習(xí)系統(tǒng)能非常準(zhǔn)確地翻譯這兩種語(yǔ)言。“在破譯過(guò)程中,我們能準(zhǔn)確地將67.3%的線形文字B的同源詞翻譯成對(duì)應(yīng)的希臘語(yǔ)。”他們說(shuō),“我們的實(shí)驗(yàn)是機(jī)器自動(dòng)破譯線形文字B的首次嘗試。”

  然而他們卻沒(méi)有提到線形文字A的破譯,眾多語(yǔ)言學(xué)家都認(rèn)為線形文字A的研究意義重大。所以,在機(jī)器能夠破譯線形文字A之前,仍需取得重大的研究突破。

  雖然沒(méi)有源語(yǔ),新技術(shù)也行不通,但機(jī)器翻譯的最大優(yōu)點(diǎn)是,它可以不知疲倦地快速檢測(cè)一種又一種語(yǔ)言。因此,羅家明和他的團(tuán)隊(duì)很可能會(huì)使用粗略近似法破譯線形文字A,試圖把它破譯成機(jī)器翻譯已在使用的每種語(yǔ)言。

主站蜘蛛池模板: 辽阳市| 灵寿县| 阿瓦提县| 方城县| 台江县| 巴彦县| 镇江市| 比如县| 德钦县| 贞丰县| 桂林市| 原阳县| 剑河县| 淮北市| 社会| 余姚市| 和龙市| 普定县| 汕头市| 新乐市| 屯门区| 介休市| 山阳县| 祥云县| 信宜市| 蒙山县| 蒙自县| 翼城县| 泰宁县| 城市| 万全县| 丘北县| 尚义县| 咸阳市| 桐城市| 宽甸| 鞍山市| 巫山县| 秭归县| 耒阳市| 蓝山县|