新浪科技訊 北京時(shí)間7月13日早間消息,研究人員開(kāi)發(fā)了一種機(jī)器學(xué)習(xí)算法,可以將聲音片段變成能口型一致的視頻內(nèi)容。
研究人員展示的這段視頻顯示了美國(guó)前總統(tǒng)巴拉克·奧巴馬(Barack Obama)談?wù)摽植乐髁x等多個(gè)話題的場(chǎng)景,但這實(shí)際上卻是使用現(xiàn)有的視頻演講人工生成的片段。
來(lái)自華盛頓大學(xué)的研究人員相信,該系統(tǒng)可以最終用于改進(jìn)視頻通話,甚至確定某段視頻的真?zhèn)巍?
該系統(tǒng)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使之學(xué)會(huì)觀看人類講話的視頻,然后將音頻文件轉(zhuǎn)化成真實(shí)的口型。之后再將其嫁接到視頻中的人臉上。為了實(shí)現(xiàn)這一目標(biāo),他們將該校圖形實(shí)驗(yàn)室之前的研究成果,與最新的口型合成技術(shù)結(jié)合起來(lái)。
該技術(shù)還可以實(shí)現(xiàn)小幅時(shí)移,從而讓神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)說(shuō)話者接下來(lái)所要表達(dá)的內(nèi)容。該團(tuán)隊(duì)之所以選擇奧巴馬,是因?yàn)檫@套系統(tǒng)需要14小時(shí)的視頻進(jìn)行學(xué)習(xí),而作為全世界上鏡率最高的人之一,奧巴馬顯然是最佳人選。
“Skype或Messenger這樣的視頻聊天工具未來(lái)可以讓任何人收集視頻,然后對(duì)電腦進(jìn)行訓(xùn)練。”華盛頓大學(xué)的伊拉·開(kāi)梅爾馬切-什利澤曼(Ira Kemelmacher-Shlizerman)說(shuō)。
由于通過(guò)互聯(lián)網(wǎng)傳輸音頻所需的帶寬遠(yuǎn)低于視頻,所以這套新系統(tǒng)或許可以終結(jié)故障頻頻的視頻聊天。
“當(dāng)你使用Skype或Google Hangouts聊天時(shí),會(huì)發(fā)現(xiàn)連接不太順暢,分辨率也很低,這令人很不高興,但音頻往往很好。”該論文的聯(lián)合作者、艾倫學(xué)院教授史蒂夫·賽茨(Steve Seitz)說(shuō),“所以,如果可以使用音頻生成更高質(zhì)量的視頻,那就太好了。”
之前的音頻轉(zhuǎn)視頻技術(shù)重點(diǎn)是錄制多個(gè)人反復(fù)說(shuō)同一句話的視頻,然后嘗試捕捉聲音與不同口型之間的相關(guān)性。但這一過(guò)程成本高昂,而且非常耗時(shí)。
通過(guò)將這一過(guò)程調(diào)轉(zhuǎn)過(guò)來(lái)——將視頻提供給網(wǎng)絡(luò),而不僅僅是音頻——該團(tuán)隊(duì)可能開(kāi)發(fā)各種算法來(lái)判斷一段視頻的真?zhèn)巍H欢@種神經(jīng)網(wǎng)絡(luò)目前只能一次學(xué)習(xí)一個(gè)人。
“你不能隨便找個(gè)人就把它的聲音轉(zhuǎn)化成奧巴馬的視頻。”賽茨說(shuō),“我們對(duì)此非常謹(jǐn)慎,不希望從某個(gè)人嘴里說(shuō)出其他人的話。我們只是把某人說(shuō)過(guò)的話變成此人的視頻。”
未來(lái),該算法或許只需要使用1個(gè)小時(shí)的視頻就能識(shí)別某人的聲音和說(shuō)話模式,而不必非要14小時(shí)的資料。(樵夫)