国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

博客專欄

EEPW首頁(yè) > 博客 > YoloV:視頻中目標(biāo)實(shí)時(shí)檢測(cè)依然很棒(附源代碼下載)

YoloV:視頻中目標(biāo)實(shí)時(shí)檢測(cè)依然很棒(附源代碼下載)

發(fā)布人:CV研究院 時(shí)間:2022-10-19 來(lái)源:工程師 發(fā)布文章

圖片

論文地址: https://arxiv.org/pdf/2208.09686.pdf

代碼地址: https://github.com/YuHengsss/YOLOV


01

概述

視頻目標(biāo)檢測(cè)(VID)具有挑戰(zhàn)性,因?yàn)槟繕?biāo)外觀的高度變化以及某些幀中的各種劣化。積極的一面是,與靜止圖像相比,在視頻的某一幀中進(jìn)行檢測(cè)可以得到其他幀的支持。因此,如何跨不同幀聚合特征是VID問(wèn)題的關(guān)鍵。大多數(shù)現(xiàn)有的聚合算法都是為兩階段檢測(cè)器定制的。但是,由于兩階段的性質(zhì),此類檢測(cè)器通常在計(jì)算上很耗時(shí)。今天分享的研究者提出了一種簡(jiǎn)單而有效的策略來(lái)解決上述問(wèn)題,該策略花費(fèi)了邊際開(kāi)銷,并顯著提高了準(zhǔn)確性。具體來(lái)說(shuō),與傳統(tǒng)的兩階段流水線不同,研究者主張將區(qū)域級(jí)候選放在一階段檢測(cè)之后,以避免處理大量低質(zhì)量候選。此外,構(gòu)建了一個(gè)新的模塊來(lái)評(píng)估目標(biāo)框架與其參考框架之間的關(guān)系,并指導(dǎo)聚合。進(jìn)行了廣泛的實(shí)驗(yàn)和消融研究以驗(yàn)證新提出設(shè)計(jì)的有效性,并揭示其在有效性和效率方面優(yōu)于其他最先進(jìn)的VID方法?;赮OLOX的模型可以實(shí)現(xiàn)可觀的性能(例如,在單個(gè)2080Ti GPU上的ImageNet VID數(shù)據(jù)集上以超過(guò)30 FPS的速度達(dá)到87.5% AP50),使其對(duì)大規(guī)?;?qū)崟r(shí)應(yīng)用程序具有吸引力。

02

背景

圖片

視頻目標(biāo)檢測(cè)可以看作是靜止圖像目標(biāo)檢測(cè)的高級(jí)版本。直觀地說(shuō),可以通過(guò)將幀一一輸入靜止圖像目標(biāo)檢測(cè)器來(lái)處理視頻序列。但是,通過(guò)這種方式,跨幀的時(shí)間信息將被浪費(fèi),這可能是消除/減少單個(gè)圖像中發(fā)生的歧義的關(guān)鍵。

如上圖所示,視頻幀中經(jīng)常出現(xiàn)運(yùn)動(dòng)模糊、相機(jī)散焦和遮擋等退化,顯著增加了檢測(cè)的難度。例如,僅通過(guò)查看上圖中的最后一幀,人類很難甚至不可能分辨出物體在哪里和是什么。另一方面,視頻序列可以提供比單個(gè)靜止圖像更豐富的信息。換言之,同一序列中的其他幀可能支持對(duì)某一幀的預(yù)測(cè)。因此,如何有效地聚合來(lái)自不同幀的時(shí)間消息對(duì)于準(zhǔn)確性至關(guān)重要。從上圖可以看出,研究者提出的方法給出了正確的答案。

03

新框架

考慮到視頻的特性(各種退化與豐富的時(shí)間信息),而不是單獨(dú)處理幀,如何從其他幀中為目標(biāo)幀(關(guān)鍵幀)尋求支持信息對(duì)于提高視頻檢測(cè)的準(zhǔn)確性起著關(guān)鍵作用。最近的嘗試是在準(zhǔn)確性上的顯著提高證實(shí)了時(shí)間聚合對(duì)問(wèn)題的重要性。然而,大多數(shù)現(xiàn)有方法都是基于兩階段的技術(shù)。

如前所述,與一級(jí)基礎(chǔ)相比,它們的主要缺點(diǎn)是推理速度相對(duì)較慢。為了減輕這種限制,研究者將區(qū)域/特征選擇放在單級(jí)檢測(cè)器的預(yù)測(cè)頭之后。

圖片

研究者選擇YOLOX作為基礎(chǔ)來(lái)展示研究者的主要主張。提出的框架如上圖所示。

讓我們回顧一下傳統(tǒng)的兩階段管道:

1)首先“選擇”大量候選區(qū)域作為提議; 2)確定每個(gè)提議是否是一個(gè)目標(biāo)以及它屬于哪個(gè)類。計(jì)算瓶頸主要來(lái)自于處理大量的低置信區(qū)域候選。

從上圖可以看出,提出的框架也包含兩個(gè)階段。不同的是,它的第一階段是預(yù)測(cè)(丟棄大量低置信度的區(qū)域),而第二階段可以被視為區(qū)域級(jí)細(xì)化(通過(guò)聚合利用其他幀)。

通過(guò)這一原則,新的設(shè)計(jì)可以同時(shí)受益于一級(jí)檢測(cè)器的效率和從時(shí)間聚合中獲得的準(zhǔn)確性。值得強(qiáng)調(diào)的是,如此微小的設(shè)計(jì)差異會(huì)導(dǎo)致性能上的巨大差異。所提出的策略可以推廣到許多基礎(chǔ)檢測(cè)器,例如YOLOX、FCOS和PPYOLOE。

圖片

此外,考慮到softmax的特性,可能一小部分參考特征持有大部分權(quán)重。換句話說(shuō),它經(jīng)常忽略低權(quán)重的特征,這限制了可能后續(xù)使用的參考特征的多樣性。

為了避免這種風(fēng)險(xiǎn),研究者引入了平均池化參考特征(A.P.)。具體來(lái)說(shuō),選擇相似度得分高于閾值τ的所有參考,并將平均池化應(yīng)用于這些。請(qǐng)注意,這項(xiàng)工作中的相似性是通過(guò)N (Vc)N(Vc)T計(jì)算的。算子N(·)表示層歸一化,保證值在一定范圍內(nèi),從而消除尺度差異的影響。通過(guò)這樣做,可以維護(hù)來(lái)自相關(guān)特征的更多信息。然后將平均池化特征和關(guān)鍵特征傳輸?shù)揭粋€(gè)線性投影層中進(jìn)行最終分類。該過(guò)程如是上圖所示。

有人可能會(huì)問(wèn),N(Qc)N(Kc)T或N(Qr)N(Kr)T是否可以作為相似度執(zhí)行。事實(shí)上,這是另一種選擇。但是,在實(shí)踐中,由于Q和K之間的差異,它不像我們?cè)谟?xùn)練期間的選擇那樣穩(wěn)定。

04

實(shí)驗(yàn)及可視化

對(duì)于給定的關(guān)鍵候選,通過(guò)三種不同方法選擇的參考候選之間的視覺(jué)比較。展示了4個(gè)在聚合中貢獻(xiàn)最大的參考候選。

圖片圖片

具體來(lái)說(shuō),在下表的上半部分,研究者報(bào)告了所涉及的競(jìng)爭(zhēng)模型的性能,而沒(méi)有采用任何后處理。由于一級(jí)檢測(cè)器的特性和研究者的策略的有效性,YOLOV可以顯著利用檢測(cè)精度和推理效率。為了公平比較,下表中列出的所有模型都在相同的硬件環(huán)境下進(jìn)行了測(cè)試,除了MAMBA和查詢屬性。下表的下半部分報(bào)告了YOLOV和其他帶有后處理的SOTA模型的結(jié)果。在i7-8700K CPU上測(cè)試后處理的時(shí)間成本。

圖片圖片

上排是基礎(chǔ)的檢測(cè)結(jié)果,下排是YoloV的結(jié)果


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

物聯(lián)網(wǎng)相關(guān)文章:物聯(lián)網(wǎng)是什么




關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉