正月的拜年,已經(jīng)從串門電話短信,轉(zhuǎn)向了微信語音留言。
你在彼岸,無論幾點(diǎn),都能收到祝福,勿忘心安。
是的,語音是新瓶裝舊酒,它不但可以操控手機(jī),還可以練達(dá)人情關(guān)系,所以Google、微軟和IBM都不遺余力動(dòng)手了,希冀在這個(gè)春天重新贏得下一塊陣地的主導(dǎo)權(quán)。其中,Google的神經(jīng)元系統(tǒng),無疑搶了個(gè)頭彩。
Google最新發(fā)布的Android系統(tǒng),改善了用戶的聲音控制部分。一套被命名為神經(jīng)元網(wǎng)絡(luò)的語音識(shí)別系統(tǒng),可以利用強(qiáng)大的計(jì)算量模擬人腦的行為模式。
Google研究人員Vincent Vanhoucke坦言,神經(jīng)元網(wǎng)絡(luò)是Google多年磨一劍的成果,為語音控制領(lǐng)域帶來了巨大驚喜。Vanhoucke說,在新版本果凍豆系統(tǒng)中,語音糾錯(cuò)率比前一個(gè)版本大幅降低了25%,這讓Android用戶可以更輕松地享受語音控制。你不必再像一個(gè)1甲的播音員,對(duì)著屏幕吼。你可以像調(diào)戲小黃雞一樣,隨意地聊天,這無疑將進(jìn)一步改善用戶體驗(yàn),甚至是他們的生活方式。
神經(jīng)元網(wǎng)絡(luò)的計(jì)算模式本身也是技術(shù)上的革命。這個(gè)研究領(lǐng)域經(jīng)歷了上世紀(jì)80年代的火熱之后曾經(jīng)被冰封了若干年,如今卷土重來,聲勢(shì)浩大。微軟和IBM也都加入了Google的團(tuán)隊(duì),力圖開發(fā)更多的接地氣應(yīng)用。
當(dāng)你對(duì)著Android手機(jī)話筒傾訴衷腸,語音識(shí)別系統(tǒng)可以將你的聲音頻譜打包,分發(fā)到Google八大全球化服務(wù)器進(jìn)行分析。瞬時(shí),Vanhoucke和他的團(tuán)隊(duì)所設(shè)計(jì)的神經(jīng)元系統(tǒng)火力全開。擁有多年大型數(shù)據(jù)處理經(jīng)驗(yàn)的Google可以迅速反應(yīng),將計(jì)算結(jié)果反饋回用戶手機(jī),這活脫就是超一流的現(xiàn)代數(shù)據(jù)中心。
在具體分析活動(dòng)中,Vanhoucke等研究人員可以有多重路徑來解析語音頻譜,將其導(dǎo)入預(yù)設(shè)的模式,利用生物學(xué)語法將其解構(gòu)為信號(hào)細(xì)胞,最終為系統(tǒng)所用。Google至少建立了7個(gè)語言模型。這種模擬人腦運(yùn)轉(zhuǎn)的系統(tǒng),利用了多樣化的特征層來建立更好的概念系統(tǒng),但是多倫多大學(xué)的計(jì)算科學(xué)教授Geoffrey Hinton還在質(zhì)疑系統(tǒng)的效率。
簡(jiǎn)單地說,Android獲得了語音控制頻譜圖,然后Google利用神經(jīng)元網(wǎng)絡(luò)進(jìn)行解析。Google軟件首次將母音與輔音進(jìn)行詳細(xì)分離,這是神經(jīng)元系統(tǒng)的一層。然后系統(tǒng)再進(jìn)行復(fù)雜的信息推斷,每一層都在不斷修正,直至精確結(jié)果。神經(jīng)元系統(tǒng)算法同樣可被用于分析圖片。將以像素為單位的圖片進(jìn)行分解,便可以建立特征識(shí)別層,獲取細(xì)節(jié)。
應(yīng)該說,神經(jīng)元網(wǎng)絡(luò)再度喚醒了上世紀(jì)80年代的語音識(shí)別風(fēng)潮,并且將多層分析描述導(dǎo)入了現(xiàn)實(shí)的軌道。2006年,Hinton和他的團(tuán)隊(duì)進(jìn)行了兩大改變,一方面是布局深度神經(jīng)元網(wǎng)絡(luò)——多層連接初戰(zhàn)告捷。另一方面,圖形運(yùn)算單元也隨著數(shù)以十億級(jí)的計(jì)算能力提升了性價(jià)比。這種改變相差30倍。
如今,神經(jīng)元網(wǎng)絡(luò)算法已經(jīng)讓語音識(shí)別與圖形識(shí)別納入到正常軌道,不過Hinton認(rèn)為這也僅僅是提升了預(yù)測(cè)能力。去年11月,多倫多大學(xué)團(tuán)隊(duì)利用神經(jīng)元網(wǎng)絡(luò)成功預(yù)測(cè)了現(xiàn)實(shí)世界的行為。
Jeff Dean認(rèn)為,Google目前掌握的神經(jīng)元網(wǎng)絡(luò)算法,其實(shí)包含了一系列試驗(yàn)性產(chǎn)品——果凍豆系統(tǒng)上的語音系統(tǒng)絕對(duì)是走得最遠(yuǎn)的。下一步,可能就輪上圖像搜索了。對(duì)于像素的綜合分析可能會(huì)繼續(xù)鞏固Google在搜索江湖的地位。甚至通過語音控制,系統(tǒng)可以自動(dòng)識(shí)別并且連上YouTube。
微軟和IBM也在研究神經(jīng)元網(wǎng)絡(luò)。去年十月,微軟的研究中心主任Rick Rashid在天津展示了語音處理軟件的最新研究成果,不僅能輕松進(jìn)行中英文切換,而且還能模仿Rashid的語音令人拍案叫絕。Rashid也預(yù)測(cè),語音控制系統(tǒng)遲早會(huì)讓用戶突破語言的圍欄,建立一個(gè)更好的美麗新世界。
版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載
關(guān)于CNMO | 聯(lián)系我們 | 站點(diǎn)地圖 | 精英招聘 | CNMO記事 | 家長(zhǎng)監(jiān)護(hù)工程 | 舉報(bào)不良信息
Copyright © 2007 -
北京沃德斯瑪特網(wǎng)絡(luò)科技有限責(zé)任公司.All rights reserved 發(fā)郵件給我們
京ICP證-070681號(hào) 京ICP備09081256號(hào) 京公網(wǎng)安備 11010502036320號(hào)