- +1
對話火山引擎王悅:多媒體繼續(xù)向更高清,更交互,更沉浸演進(jìn)
2019年的深圳,LiveVideoStack第一次邀請到了字節(jié)跳動的嘉賓來做分享。隨后便通過朋友認(rèn)識了王悅,他所在的火山引擎支撐起了字節(jié)跳動旗下的音視頻能力,支持?jǐn)?shù)億DAU,為每天數(shù)千億次播放與互動提供保障,他們是如何做好這一切的?除了數(shù)據(jù)驅(qū)動、A/B測試還有哪些深度的思考與方法呢?借LiveVideoStackCon 2022北京大會的機(jī)會,LiveVideoStack第一次采訪到了王悅,涉用戶體驗與成本控制,計算與網(wǎng)絡(luò)成本的權(quán)衡,異構(gòu)計算在各場景下的應(yīng)用等。

王悅 火山引擎 視頻云架構(gòu)技術(shù)總監(jiān)
王悅,2006 年于清華大學(xué)電子系獲得學(xué)士學(xué)位,2012 年在中國科學(xué)院研究生院獲得博士學(xué)位,目前擔(dān)任火山引擎視頻云架構(gòu)技術(shù)總監(jiān),在多媒體領(lǐng)域有豐富的算法、工程架構(gòu)和產(chǎn)品業(yè)務(wù)經(jīng)驗。
LiveVideoStack:王悅你好,如果沒記錯,這應(yīng)該是LiveVideoStack第一次正式采訪你,先和我們讀者介紹下自己吧。你現(xiàn)在最核心的工作什么?最關(guān)注哪些技術(shù)、業(yè)務(wù)指標(biāo)或是其他方面?
王悅: 我所在的火山引擎視頻云部門,承載了字節(jié)跳動業(yè)務(wù)的音視頻技術(shù),經(jīng)過數(shù)億DAU、每天數(shù)千億次播放&互動打磨的實(shí)踐驗證;如今,我們不僅對內(nèi)為抖音、西瓜、頭條產(chǎn)品提供服務(wù),同樣也面向各行各業(yè)用戶提供視頻化能力和服務(wù),具體包括企業(yè)直播、視頻點(diǎn)播、視頻直播、圖片服務(wù)、RTC、智能處理等產(chǎn)品能力。我們的目標(biāo)和愿景是幫助業(yè)務(wù)伙伴,將海量富媒體內(nèi)容以最低的成本、最優(yōu)的畫質(zhì)、最低的延時、最安全可靠的方式傳遞給受眾,因此我們所關(guān)注的技術(shù)方向覆蓋多媒體內(nèi)容從生產(chǎn)到播放的全鏈路,包括采集、編碼、處理、轉(zhuǎn)碼、傳輸、播放等環(huán)節(jié)中所涉及到的算法和工程技術(shù),以及大規(guī)模高并發(fā)高可靠的分發(fā)架構(gòu)。
LiveVideoStack:年初,火山引擎、阿里云和騰訊云發(fā)了超低延時直播協(xié)議信令標(biāo)準(zhǔn)。接下來行業(yè)巨頭還有可能走到一起降低業(yè)務(wù)壁壘的可能性嗎?如果有,是什么原因讓大家走到一起合作?
王悅: 火山引擎一直秉承著開放的姿態(tài)去構(gòu)建技術(shù)產(chǎn)品,一方面把過往在字節(jié)業(yè)務(wù)打磨好的體系方法,標(biāo)準(zhǔn)化開放出來,另一方面引入更多的友商一起共建,保持互聯(lián)互通,打破各自的技術(shù)孤島,讓客戶的接入成本降低,效率提升,并有更多的選擇空間。這點(diǎn)我們在低延時直播對接的客戶中,就有很正向的客戶反饋,后面火山引擎也將沿著這個思路繼續(xù)完善、拓展更多的技術(shù)項。對于行業(yè)友商,我相信也期望看到這個變化,開放標(biāo)準(zhǔn),共建標(biāo)準(zhǔn)會讓整個行業(yè)趨向健康和成熟的模式發(fā)展,對于客戶的價值也是最大化的,只有客戶成功,整個行業(yè)才能成功。接下來火山引擎還會繼續(xù)開放和推動更多的行業(yè)標(biāo)準(zhǔn)落地。
LiveVideoStack:在經(jīng)濟(jì)放緩的背景下,降低成本成為許多企業(yè)的必選項。火山引擎正在通過哪些方式降低成本?尤其在不影響用戶體驗的前提下。
王悅: 企業(yè)在視頻云上投入的成本由商品單價和用量共同決定,火山引擎視頻云對客戶成本負(fù)責(zé),在不影響用戶體驗的前提下,通過多項技術(shù)手段持續(xù)降低單位流量和計算成本,并挖掘用量的合理節(jié)省空間。
帶寬方面通過PCDN等基礎(chǔ)能力建設(shè),調(diào)度手段削峰埋谷和業(yè)務(wù)間的資源復(fù)用,達(dá)到流量單位成本的降低;在計算方面,我們主要通過對異構(gòu)計算集群的規(guī)模化應(yīng)用及基于場景的靈活調(diào)度達(dá)到計算單位成本的降低。
用量優(yōu)化上從碼率、浪費(fèi)率兩方面為業(yè)務(wù)提供降本能力。碼率我們主要通過算法手段降低單位像素的流量耗用,算法手段主要包括編碼標(biāo)準(zhǔn)、算法的升級,以及編碼前的去噪增強(qiáng)、自適應(yīng)處理等前處理技術(shù)。播放過程端到端全鏈路有很多地方有緩存的存在,消耗的帶寬費(fèi)用并沒有都真正用在了播放上,我們通過一系列指標(biāo)分析和監(jiān)控,找到不影響播放提前的情況下控制全鏈路緩存的策略,降低預(yù)加載、播放緩沖、CDN等環(huán)節(jié)造成的流量浪費(fèi)。
另外想說的一點(diǎn),計算和帶寬之間的收益是可以相互轉(zhuǎn)化的,因此需要在兩者之間找到最佳的甜點(diǎn)。做視頻編碼的同學(xué)都了解,指導(dǎo)編碼優(yōu)化的核心原則是對帶寬-失真(體驗)曲線的凸優(yōu)化問題,也有學(xué)者提出過在計算資源受限下,這個問題就變成了帶寬-體驗-計算曲面的凸優(yōu)化問題,這個模型和原則完全可以從視頻壓縮推廣適用到整個端到端業(yè)務(wù)上,我們努力和優(yōu)化的目標(biāo),一直是這三個維度下的業(yè)務(wù)最優(yōu)甜點(diǎn)。
LiveVideoStack:異構(gòu)平臺(ARM、GPU、FPGA和AISC)在火山引擎內(nèi)部的應(yīng)用情況是怎樣的?支持了哪些關(guān)鍵業(yè)務(wù)?
王悅: 這四種計算資源在火山引擎上都有規(guī)模化的部署和應(yīng)用。具體來講:
ARM板卡本來是支持云游戲、云手機(jī)等業(yè)務(wù)需求而研發(fā)的,我們把編轉(zhuǎn)碼內(nèi)核在ARM指令集上深度移植和優(yōu)化之后,經(jīng)過測算發(fā)現(xiàn)這種計算資源在密度、成本方面相較x86服務(wù)器有很大優(yōu)勢。雖然該方案在處理速度上有一定劣勢,但視頻點(diǎn)播業(yè)務(wù)大部分轉(zhuǎn)碼需求都對延時不敏感,我們正在這些業(yè)務(wù)場景里逐步提升ARM計算資源的覆蓋量。
GPU主要用于對深度學(xué)習(xí)、并行計算、高性能渲染強(qiáng)需求的場景,主要在視頻畫質(zhì)檢測與分析、質(zhì)量增強(qiáng)處理、XR云端渲染等模塊用到。
ASIC是我們正在重點(diǎn)規(guī)劃并研發(fā)中的轉(zhuǎn)碼計算方案,可以看到各友商這兩年都在嘗試這個方向,要達(dá)到一定的規(guī)模門檻才能實(shí)現(xiàn)正向的邊際收益。字節(jié)的業(yè)務(wù)規(guī)模,為我們提供了一個非常廣闊的實(shí)現(xiàn)杠桿收益的空間,我們在這個方向投入了頂尖的研發(fā)團(tuán)隊,預(yù)期交付的方案,在密度、成本方面比x86會有顯著的優(yōu)勢。
FPGA是一種比較折衷的計算資源,密度、吞吐比x86好但比ASIC差,相比ASIC的主要優(yōu)勢是可擦寫、更靈活,可以實(shí)現(xiàn)漸進(jìn)迭代。我們目前幾乎所有的圖片和動圖轉(zhuǎn)碼都是跑在FPGA上的。另外,為了對ASIC方案的IP性能進(jìn)行充分的驗證和評估,我們在部分點(diǎn)播、直播方案里也使用了FPGA方案。
LiveVideoStack:我注意到11月北京的LiveVideoStackCon上,火山引擎的團(tuán)隊將重點(diǎn)分享視頻質(zhì)量分析與優(yōu)化,能否簡要介紹下關(guān)鍵的方法?
王悅: 在音視頻場景中,QoS 變化究竟對 QoE 用戶主觀體驗有多大影響,業(yè)界并沒有一個公認(rèn)的答案。大家都知道體驗對業(yè)務(wù)增長有幫助,但是卻不知道幫助有多少,核心關(guān)注哪些點(diǎn)。
火山引擎視頻云團(tuán)隊基于抖音億級DAU實(shí)踐,構(gòu)建了一套能真正體現(xiàn)用戶體驗優(yōu)化的指標(biāo)體系,作為指引技術(shù)迭代和演進(jìn)的指北針,并在質(zhì)量監(jiān)控體系和AB測試機(jī)制配合下,以云端一體打造音視頻極致體驗與成本優(yōu)化。歡迎大家來本次專場更系統(tǒng)化地聽取抖音背后的云端一體的視頻體驗分析體系與優(yōu)化技術(shù)。
LiveVideoStack:多媒體業(yè)務(wù)下一波的增長關(guān)鍵變量是什么?技術(shù)在其中還能扮演什么樣的技術(shù)?
王悅: 從技術(shù)角度來講,多媒體在幾十年來一直是朝著三個方向持續(xù)演進(jìn),這三個方向分別是更高清,更交互,更沉浸,我認(rèn)為未來相當(dāng)長一段時間也一直會是這個趨勢。通過在這三個方向上的持續(xù)提升,人們獲取信息和溝通協(xié)作的信息量、效率、沉浸感不斷提升,越來越多的日常生活和企業(yè)生產(chǎn)活動得以從線下遷移到線上,甚至在線上也不斷衍生出一些新的場景。
首先說更高清,這個相信大家都感同身受,過去幾十年我們在分辨率、清晰度方面的觀影體驗不斷的提升,這個主要受益于視頻算法、芯片算力、網(wǎng)絡(luò)基建的持續(xù)提升。
更交互,意味更低的端到端延時,更高的即時交互人數(shù),以及更豐富的交互手段,這同樣依賴于視頻算法、芯片算力和網(wǎng)絡(luò)基建的持續(xù)提升。近幾年,借助深度學(xué)習(xí)和圖形渲染方面的技術(shù)突破,可以讓更多的互動玩法和商業(yè)場景成為可能。
高清和交互是沉浸的兩個先決條件,另外兩個要素是更多自由度和虛實(shí)融合。從第一部電影、第一臺電視機(jī)誕生至今,視頻以二維矩形圖像時序排列的形式來呈現(xiàn)已經(jīng)延續(xù)了100多年,我們一直以來的視頻觀看模式,除了切換、快進(jìn)等操作,其實(shí)對視頻內(nèi)容沒有什么可互動的空間,也就是說沒有自由度。而未來會有更多的視頻應(yīng)用場景提供更多的自由度,實(shí)現(xiàn)可探索、可交互,比如,在全景視頻中,我們可以體驗到更廣闊的視野;通過多機(jī)位拍攝實(shí)現(xiàn)的自由視角技術(shù),我們可以獲得多視角體驗;而把二者結(jié)合,再通過推理、渲染和體感技術(shù),我們可以實(shí)現(xiàn)真正的6自由度視頻的XR體驗,我相信很快會有殺手級的XR應(yīng)用的出現(xiàn),給視頻的呈現(xiàn)和體驗?zāi)J綆泶H的革新。在與PICO共同探索XR應(yīng)用的過程中,我們也會把優(yōu)質(zhì)的技術(shù)和能力沉淀到火山的云XR 解決方案中,希望與更多的業(yè)務(wù)伙伴一同推進(jìn)行業(yè)的變革。
LiveVideoStack:多媒體技術(shù)是否已經(jīng)觸及極限?是否還有收益30%以上的單一技術(shù)或技術(shù)組合?
王悅: 極限理論上是客觀存在的,但距離這個極限還有多遠(yuǎn)又和實(shí)際的應(yīng)用場景相關(guān)。此外,如果我們回顧視頻編碼標(biāo)準(zhǔn)的發(fā)展,從H.264到H.265再到H.266,每一代標(biāo)準(zhǔn)做完之后都有人認(rèn)為到極限了,但是過了一段時間之后舊的標(biāo)準(zhǔn)就又被超越。隨著技術(shù)的不斷迭代升級,對于通用視頻場景來說,單一技術(shù)想達(dá)到30%的增益比較困難;而對特定應(yīng)用場景的視頻,單一技術(shù)要做到這個增益還是有空間的。而即使是對通用視頻場景,多項技術(shù)的組合還是有希望超越當(dāng)前最新的視頻編碼標(biāo)準(zhǔn)30%以上,最終產(chǎn)生新一代標(biāo)準(zhǔn)。
LiveVideoStack:我們看下一代視頻編碼技術(shù),許多專家的工作方向轉(zhuǎn)向與傳統(tǒng)編碼框架與AI結(jié)合。多媒體技術(shù)人下一步該如何走?
王悅: 智能編碼目前是壓縮技術(shù)的一個研究熱點(diǎn),業(yè)界希望能夠借助深度學(xué)習(xí)的方法,突破傳統(tǒng)編碼框架,對壓縮效率實(shí)現(xiàn)革命性的提升。當(dāng)然智能編碼是一個新生事物,還有諸如高復(fù)雜度等問題亟待解決。我們對智能編碼持謹(jǐn)慎樂觀態(tài)度。我們一方面對智能編碼積極探索,提前布局可能的未來;另一方面堅持傳統(tǒng)編碼的研究,確保根基穩(wěn)固。更重要的是我們希望能找到傳統(tǒng)編碼與智能編碼的最佳結(jié)合點(diǎn),能夠同時發(fā)揮兩者的優(yōu)勢。從目前我們已有的研究結(jié)果來看,將AI引入傳統(tǒng)編碼可以做到單一技術(shù)提升17%+的壓縮效率,這說明兩者的結(jié)合可能會帶來重大的突破。
*封面圖來自Pexels
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司