手機(jī)里存了大量的視頻,想剪輯其中的精彩片段卻猶如大海撈針?視頻網(wǎng)站擁有海量視頻,如何嚴(yán)格審核避免問題發(fā)生?
近日,在德國慕尼黑舉辦的計(jì)算機(jī)視覺國際頂會ECCV(European Conference on Computer Vision)上,阿里安全圖靈實(shí)驗(yàn)室高級算法專家析策展示了最新的AI視頻識別算法,其識別精度超越目前主流方法,有效提升了視頻自動標(biāo)簽的行業(yè)精度,這一新算法已被ECCV收錄。
阿里安全圖靈實(shí)驗(yàn)室高級算法專家析策表示,為提升AI技術(shù)在實(shí)際場景中針對視頻識別的精度,提出一種新的基于圖(Graph)的視頻建模方法,能表達(dá)含有復(fù)雜事件內(nèi)容的長視頻。
析策表示,這一方法的主要思路是通過“深度卷積圖神經(jīng)網(wǎng)絡(luò)”(下稱“DCGN”)對視頻的幀、鏡頭、事件進(jìn)行多級的建模,逐漸地從幀級、鏡頭級,一直到視頻級進(jìn)行抽象,從而獲得視頻全局的表達(dá),進(jìn)而進(jìn)行分類。
他舉例稱,“比如一段美食節(jié)目視頻中,包含廚師長、主持人聊天、食物、觀眾等內(nèi)容,AI在學(xué)習(xí)視頻內(nèi)容時會先根據(jù)內(nèi)容對視頻進(jìn)行逐幀的語義表達(dá),形成特征序列,用不用的標(biāo)簽進(jìn)行打標(biāo),隨后在通過多層次的網(wǎng)絡(luò)對這些不同打標(biāo)的內(nèi)容進(jìn)行關(guān)系表達(dá),深度理解這些內(nèi)容之間的關(guān)聯(lián)度,將相似的節(jié)點(diǎn)銜接起來,最終組合出對整個視頻的理解。”
烹飪節(jié)目中包含各種內(nèi)容,不同內(nèi)容用不同演示邊框表示,最終組合出對整個視頻的理解
析策表示,一個視頻包含幀、鏡頭、場景、事件等,幀與幀、鏡頭與鏡頭間的關(guān)系十分復(fù)雜,不僅僅是前后幀的順序關(guān)系,而目前公開的建模方法一般都無法表達(dá)如此復(fù)雜的關(guān)系,DCGN因?qū)?fù)雜內(nèi)容的深度學(xué)習(xí)和理解進(jìn)而提升識別精度。
據(jù)悉,阿里安全圖靈實(shí)驗(yàn)室已將AI能力在內(nèi)容治理、知識產(chǎn)權(quán)、身份認(rèn)證驗(yàn)證和新零售安防等領(lǐng)域進(jìn)行運(yùn)用,覆蓋阿里生態(tài)的淘寶、支付寶、優(yōu)酷、UC等核心業(yè)務(wù)線。
近期刷爆社交網(wǎng)絡(luò)的網(wǎng)紅“AI鑒黃師”,每天可審核數(shù)億張圖片,識別準(zhǔn)確率高于99.5%,技術(shù)能力便來自阿里安全圖靈實(shí)驗(yàn)室。連視頻內(nèi)容都能理解了,解讀一張圖片豈不是小菜一碟?
?