尤物视频网站_国产精品成人在亚洲_国产成人亚洲综合无码不卡精品_丁香五月香婷婷五月_亚洲成AV人片高潮喷水

您的位置:首頁 >智能 >

谷歌發(fā)布重要技術(shù)AVA數(shù)據(jù)庫:5萬個(gè)精細(xì)標(biāo)注視頻片段,助力識(shí)別人類動(dòng)作

2019-11-04 21:12:37    來源:雷鋒網(wǎng)

雷鋒網(wǎng)AI科技評(píng)論按:在計(jì)算機(jī)視覺研究中,識(shí)別視頻中人的動(dòng)作是一個(gè)基礎(chǔ)研究問題。個(gè)人視頻搜索和發(fā)現(xiàn)、運(yùn)動(dòng)分析和手勢交流等應(yīng)用中,都會(huì)用到這項(xiàng)至關(guān)重要的技術(shù)。盡管過去的幾年里在圖像中分類和識(shí)別物體的技術(shù)上,我們已經(jīng)取得了令人振奮的突破,但識(shí)別人類的動(dòng)作仍然是一個(gè)巨大的挑戰(zhàn)。從本質(zhì)上來說,視頻中人的行為更難被明確定義,而物體的定義更為明確。所以構(gòu)建精細(xì)動(dòng)作標(biāo)記的視頻數(shù)據(jù)集非常困難。目前雖然有許多基準(zhǔn)數(shù)據(jù)集,比如UCF101、ActivityNet和DeepMind Kinetics,采用基于圖像分類的標(biāo)簽方案,為數(shù)據(jù)集中的每個(gè)視頻或視頻片段分配一個(gè)標(biāo)簽,但不存在面向復(fù)雜場景的視數(shù)據(jù)集,比如同一時(shí)刻多人不同動(dòng)作的場景。

為了進(jìn)一步研究識(shí)別人類動(dòng)作的技術(shù),雷鋒網(wǎng)AI科技評(píng)論了解到,谷歌發(fā)布了AVA (Atomic Visual Actions)數(shù)據(jù)庫,意思是“原子視覺動(dòng)作”,這一新數(shù)據(jù)集為擴(kuò)展視頻序列中的每個(gè)人打上了多個(gè)動(dòng)作標(biāo)簽。 AVA數(shù)據(jù)集由YouTube公開視頻的URL組成,這些視頻被80個(gè)原子動(dòng)作標(biāo)注,例如走路,踢東西,握手等,所有動(dòng)作都具有時(shí)空定位,產(chǎn)生5.76萬個(gè)的視頻片段,9.6萬個(gè)人類動(dòng)作,以及21萬個(gè)的動(dòng)作標(biāo)簽。

圖1. AVA網(wǎng)站截圖

與其他動(dòng)作標(biāo)簽數(shù)據(jù)集相比,AVA具有以下主要特點(diǎn):

基于人的標(biāo)簽:每個(gè)動(dòng)作標(biāo)簽都與人相關(guān)聯(lián),而不是與整段視頻或剪輯關(guān)聯(lián)。常見的場景是同一場景中有多個(gè)人在執(zhí)行不同動(dòng)作,為這些動(dòng)作分配不同的標(biāo)簽。

基于原子視覺動(dòng)作:谷歌將動(dòng)作標(biāo)簽限制在精細(xì)的時(shí)間尺度(3秒),在這個(gè)尺度上動(dòng)作都是物理動(dòng)作,并具有清晰的視覺特征。

基于真實(shí)視頻資料:谷歌把電影作為AVA的數(shù)據(jù)來源,包括不同國家、不同流派的電影。因此,數(shù)據(jù)源覆蓋了大部分人類行為。

圖2. 3秒視頻片段中間幀中的紅色邊框標(biāo)注(為清晰起見,每個(gè)示例僅顯示一個(gè)邊界框)

為了創(chuàng)建AVA,谷歌首先從YouTube收集了大量多樣化的視頻內(nèi)容,內(nèi)容集中在是電影和電視這兩個(gè)類別,視頻里有不同國籍的專業(yè)演員。每個(gè)視頻分析其中15分鐘的剪輯片段,并這個(gè)片段均勻分割成300個(gè)不重疊小片段,每一段3秒鐘,這種采樣策略保留了動(dòng)作序列的時(shí)間順序。

接下來,在每個(gè)3秒片段的中間幀,手動(dòng)標(biāo)記邊框里的人。打標(biāo)者從預(yù)定義的80個(gè)原子動(dòng)作詞匯中,選擇適當(dāng)數(shù)量的標(biāo)簽來描述人物的行為動(dòng)作。這些行為分為三組:姿態(tài)/移動(dòng)動(dòng)作、人和物體的交互、人與人的交互。因?yàn)閷?duì)所有人的動(dòng)作都進(jìn)行了全面打標(biāo),因此AVA的標(biāo)簽頻率是呈現(xiàn)長尾分布的,如下圖所示。

圖3. AVA的原子動(dòng)作標(biāo)簽頻次分布圖(x 軸所示標(biāo)簽只是詞匯表的一部分)

由于AVA的獨(dú)特設(shè)計(jì),我們可以從中能夠得出一些有趣的統(tǒng)計(jì)信息,而這些信息從其他現(xiàn)有數(shù)據(jù)集中是統(tǒng)計(jì)不出來的。例如,數(shù)據(jù)集中多數(shù)人具有兩個(gè)以上的動(dòng)作標(biāo)簽,那么我們可以找出不同行為標(biāo)簽共現(xiàn)模式(co-occurrence pattern)。下圖展示了AVA中最有可能并發(fā)的動(dòng)作對(duì)及其同時(shí)出現(xiàn)的頻率分值,例如人們經(jīng)常在唱歌時(shí)玩樂器,和小孩玩耍的時(shí)抱起他,親吻時(shí)擁抱。

圖4. AVA中統(tǒng)計(jì)得出共現(xiàn)頻率分值最高的動(dòng)作對(duì)

為了評(píng)估AVA數(shù)據(jù)集在人類行為識(shí)別系統(tǒng)中的有效性,谷歌設(shè)計(jì)了一個(gè)現(xiàn)有的基線深度學(xué)習(xí)模型,該模型在較小的JHMDB數(shù)據(jù)集上獲得了很好的績效。由于視頻變焦、背景雜亂、攝影角度和外貌變化等問題,該模型實(shí)現(xiàn)了較為不錯(cuò)的表現(xiàn),正確識(shí)別AVA中動(dòng)作的平均準(zhǔn)確率達(dá)到18.4%,這表明AVA數(shù)據(jù)集可用于開發(fā)和評(píng)估新的動(dòng)作識(shí)別架構(gòu)和算法。

谷歌希望AVA的發(fā)布能加速人類動(dòng)作識(shí)別系統(tǒng)的發(fā)展。基于具有精細(xì)時(shí)空粒度的標(biāo)簽,對(duì)個(gè)人復(fù)雜活動(dòng)進(jìn)行建模將變?yōu)楝F(xiàn)實(shí)。谷歌將繼續(xù)擴(kuò)充和改進(jìn)AVA,并渴望聽取來自社區(qū)的反饋,幫助校正AVA數(shù)據(jù)集未來的發(fā)展方向。

關(guān)鍵詞: 谷歌

相關(guān)閱讀