熱門:瘦小腿瘦小腿瘦小腿

  1. 首頁
  2. 大中國
  3. 文化

給出音訊AI就能生成對應演講,Udacity想把線上課程錄製自動化_視訊

  • 小白兔

  • 2019-07-09 16:10:12

大資料文摘出品

作者:易琬玉

線上課程已經成為了終生學習者們不可或缺的學習資源,而要完成一份高質量的視訊,需要耗費不少人力和資源。尤其是在包含視訊處理的時候。專業的講座視訊片段處理需要的不只是工作室和裝置,更重要的是轉化、編輯、上傳的每一節課程的原始視訊素材。

最近,為瞭解決這一問題,Udacity的研究團隊就嘗試將視訊生產這一過程自動化。他們研究了一套AI系統,希望將音訊直接轉化為講座視訊。

通過直接定位語音檔案和對應視角,合成任何長度的視訊

MOOC平臺上的內容生產可以是名利雙收,但是這些內容生產工作往往耗費大量時間。這就是為什麼Udacity的研究開發人員採用機器學習去自動將語音旁白生成講座視訊。這一研究被髮表在一篇名為LumièreNet: Lecture Video Synthesis from Audio的論文中。

在發表的論文中他們提到,通過直接定位語音檔案和對應視角,機器學習框架LumièreNet可以合成任何長度的視訊。

論文原文地址:

https://arxiv.org/pdf/1907.02253.pdf

根據演講音訊生成的對應視訊

“在現行的視訊製作中,AI的參與或者半參與都能大規模實現視訊生產的自動化,這將為靈活的視訊內容發展提供巨大價值,因為不需要再去拍攝新的視訊”,論文的作者說,“我們推行一種將任意長度的講座錄音去合成講座視訊的新方法……一個簡易的、模組化的、完全基於神經網路的系統。通過輸入演講音訊,就能得到對應的全身演講視訊,這在之前還沒有從深度學習的視角被強調過。”

LumièreNet的合成主要針對脣部周圍的面部表情,然後通過借用其他視訊去合成畫面的其他部分。但是因為演講者的情緒不只是通過面部表情傳達,所以這個研究模型還有一個姿勢判斷元件,通過從視訊框架訓練資料集中提取的資料合成身體特徵影象。簡要來說,就是通過對身體主要幾個點的探測和定位,去創造真人演講的生動細節。還有一個模組是關於雙向迴圈長短期記憶(BLSTM)神經網路,按正序或倒序處理資料,使得每一次輸出都能反映之前的輸入和輸出——它會利用輸入的語音特徵和目的去推測它們和視覺元素之間的關係。

LumièreNet由三個神經網路模組組成:BLSTM,VAE解碼器和SeqPix2Pix。BLSTM將提取的音訊特徵x與中間潛在程式碼z相關聯;VAE解碼器從z構造相應的姿勢圖w;最後,SeqPix2Pix根據給定的w產生最終視訊。

缺少精細的運動細節

為了測試LumièreNet,研究人員拍攝了一個八小時的室內講座視訊,產出了大概四小時的視訊和兩段用於訓練和驗證的旁白。

研究人員報道說,通過訓練的AI系統可以生成逼真的視訊片段,有流暢的身體動作和寫實的頭髮,但是這些結果在觀察者眼裡還是不能騙過觀察者的眼睛。

因為這些姿態評估器不能捕捉像眼球運動、嘴脣、頭髮、衣物之類的細節,被合成的演講者很少眨眼而且他們嘴巴的運動看起來有些不自然。

兩段完整視訊地址:

https://vimeo.com/327196551

https://vimeo.com/327196781

可以看到,在這一段合成的視訊中人物的動作不夠生動,尤其是缺乏眼神上的交流。雖然嘴脣的開合與敘述幾乎完美同步,但是缺少更精細的運動細節。仔細看的話,會發現手指之間看起來模糊,更糟糕的是眼睛有的時候會看向不同的方向。

新增“Facial Keypoint”,或許能讓合成變得更好

研究團隊猜想,“面部要點”(例如,生動的細節)的新增或許能夠使合成變得更好。幸運的是,他們的系統模組設計使得每一個元件都能被獨立訓練和驗證。

“許多未來的方向都是可被探索的”研究人員寫道,“即使最開始的時候只是用於支援靈活的視訊內容發展。我們知道這項技術存在潛在的濫用行為……但是希望研究結果可以促進深度學習在商業視訊生產領域的發展。”

相關報道:

https://venturebeat.com/2019/07/05/udacitys-ai-generates-lecture-videos-from-audio-narrations/

推薦您的文章

其他文章