干貨匯總:一文讀懂計(jì)算機(jī)視覺(jué),干貨滿滿記得收藏
前言
計(jì)算機(jī)視覺(jué)(Computer Vision),通常簡(jiǎn)稱CV,是一個(gè)通過(guò)技術(shù)幫助計(jì)算機(jī)“看到”并“看懂”圖像的研究領(lǐng)域,例如使計(jì)算機(jī)理解照片或視頻的內(nèi)容。
這篇文章將對(duì)計(jì)算機(jī)視覺(jué)進(jìn)行整體介紹。本文章共分為六個(gè)部分,分別是:
·計(jì)算機(jī)視覺(jué)為什么重要
·什么是計(jì)算機(jī)視覺(jué)
·計(jì)算機(jī)視覺(jué)的基本原理
·計(jì)算機(jī)視覺(jué)的典型任務(wù)
·計(jì)算機(jī)視覺(jué)在日常生活中的應(yīng)用場(chǎng)景
·計(jì)算機(jī)視覺(jué)面臨的挑戰(zhàn)
2
計(jì)算機(jī)視覺(jué)為什么重要
在生理學(xué)上,視覺(jué)(Vision)的產(chǎn)生都始于視覺(jué)器官感受細(xì)胞的興奮,并于視覺(jué)神經(jīng)系統(tǒng)對(duì)收集到的信息進(jìn)行加工之后形成。我們?nèi)祟愅ㄟ^(guò)視覺(jué)來(lái)直觀地了解眼前事物的形體和狀態(tài),大部分人依靠視覺(jué)來(lái)完成做飯、越過(guò)障礙、讀路牌、看視頻以及無(wú)數(shù)其他任務(wù)。事實(shí)上,如果不是盲人這類特殊群體,絕大多數(shù)人對(duì)外界信息的獲取都是通過(guò)視覺(jué)完成的,而這個(gè)占比高達(dá)80%以上——這個(gè)比例并不是沒(méi)有根據(jù)的,著名實(shí)驗(yàn)心理學(xué)家赤瑞特拉(Treicher)曾通過(guò)大量的實(shí)驗(yàn)證實(shí):人類獲取的信息的83%來(lái)自視覺(jué),11%來(lái)自聽(tīng)覺(jué),剩下的6%來(lái)自嗅覺(jué)、觸覺(jué)、味覺(jué)。所以,對(duì)于人類來(lái)說(shuō),視覺(jué)無(wú)疑是最重要的一種感覺(jué)。
不僅人類是“視覺(jué)動(dòng)物”,對(duì)于大多數(shù)動(dòng)物來(lái)說(shuō),視覺(jué)也都起到十分重要的作用。通過(guò)視覺(jué),人和動(dòng)物感知外界物體的大小、明暗、顏色、動(dòng)靜,獲得對(duì)機(jī)體生存具有重要意義的各種信息,通過(guò)這些信息能夠得知,周圍的世界是怎樣的,以及如何和世界交互。
而在計(jì)算機(jī)視覺(jué)出現(xiàn)之前,圖像對(duì)于計(jì)算機(jī)來(lái)說(shuō)是黑盒的狀態(tài)。一張圖像對(duì)于計(jì)算機(jī)來(lái)說(shuō)只是一個(gè)文件、一串?dāng)?shù)據(jù)。計(jì)算機(jī)并不知道圖片里的內(nèi)容到底是什么,只知道這張圖片是什么尺寸,占多少內(nèi)存大小,什么格式的等等。
如果計(jì)算機(jī)、人工智能想要在現(xiàn)實(shí)世界發(fā)揮重要作用,就必須看懂圖片!因此,半個(gè)世紀(jì)以來(lái),計(jì)算機(jī)科學(xué)家一直在想辦法讓計(jì)算機(jī)也擁有視覺(jué),從而產(chǎn)生了“計(jì)算機(jī)視覺(jué)”這個(gè)領(lǐng)域。
網(wǎng)絡(luò)的迅速發(fā)展也令計(jì)算機(jī)視覺(jué)變得尤為重要。下圖是2020年以來(lái)網(wǎng)絡(luò)上新增數(shù)據(jù)量的****圖?;疑珗D形是結(jié)構(gòu)化數(shù)據(jù),藍(lán)色圖形是非結(jié)構(gòu)化數(shù)據(jù)(大部分都是圖片和視頻)??梢院苊黠@的發(fā)現(xiàn),圖片和視頻的數(shù)量正在以指數(shù)級(jí)的速度瘋狂增長(zhǎng)。
互聯(lián)網(wǎng)由文本和圖像組成。搜索文本相對(duì)簡(jiǎn)單,但為了搜索圖像,算法需要知道圖像包含的內(nèi)容。在很長(zhǎng)的一段時(shí)間內(nèi),人類沒(méi)有足夠的技術(shù)來(lái)理解圖像和視頻的內(nèi)容,只能依靠人工標(biāo)注來(lái)獲取圖像或視頻的描述。如何能讓計(jì)算機(jī)更好地理解這些圖像信息,便是當(dāng)今計(jì)算機(jī)技術(shù)面臨的一大挑戰(zhàn)。為了充分利用圖像或視頻數(shù)據(jù),需要讓計(jì)算機(jī)“查看”圖像或視頻,并理解內(nèi)容。
3
什么是計(jì)算機(jī)視覺(jué)
4
計(jì)算機(jī)視覺(jué)的基本原理
5
計(jì)算機(jī)視覺(jué)的典型任務(wù)
- 圖像分類
圖像分類是根據(jù)圖像的語(yǔ)義信息對(duì)不同類別圖像進(jìn)行區(qū)分,是計(jì)算機(jī)視覺(jué)的核心,是物體檢測(cè)、圖像分割、物體跟蹤、行為分析、人臉識(shí)別等其他高層次視覺(jué)任務(wù)的基礎(chǔ)。例如下圖,通過(guò)圖像分類,計(jì)算機(jī)識(shí)別到圖像中有人(person)、樹(shù)(tree)、草地(grass)、天空(sky)。
圖像分類在許多領(lǐng)域都有著廣泛的應(yīng)用,如:安防領(lǐng)域的人臉識(shí)別和智能視頻分析等,交通領(lǐng)域的交通場(chǎng)景識(shí)別,互聯(lián)網(wǎng)領(lǐng)域基于內(nèi)容的圖像檢索和相冊(cè)自動(dòng)歸類,醫(yī)學(xué)領(lǐng)域的圖像識(shí)別等。
- 目標(biāo)檢測(cè)
目標(biāo)檢測(cè)任務(wù)的目標(biāo)是給定一張圖像或是一個(gè)視頻幀,讓計(jì)算機(jī)找出其中所有目標(biāo)的位置,并給出每個(gè)目標(biāo)的具體類別。如下圖,以識(shí)別和檢測(cè)人為例,用邊框標(biāo)記圖像中所有人的位置。
而在多類別目標(biāo)檢測(cè)中,一般使用不同顏色的邊框?qū)z測(cè)到的不同物體的位置進(jìn)行標(biāo)記,如下圖所示。
- 語(yǔ)義分割
語(yǔ)義分割是計(jì)算機(jī)視覺(jué)中的基本任務(wù),在語(yǔ)義分割中我們需要將視覺(jué)輸入分為不同的語(yǔ)義可解釋類別。它將整個(gè)圖像分成像素組,然后對(duì)像素組進(jìn)行標(biāo)記和分類。例如,我們可能需要區(qū)分圖像中屬于汽車的所有像素,并把這些像素涂成藍(lán)色。如下圖,把圖像分為人(紅色)、樹(shù)木(深綠)、草地(淺綠)、天空(藍(lán)色)標(biāo)簽。 ·實(shí)例分割實(shí)例分割是目標(biāo)檢測(cè)和語(yǔ)義分割的結(jié)合,在圖像中將目標(biāo)檢測(cè)出來(lái)(目標(biāo)檢測(cè)),然后對(duì)每個(gè)像素打上標(biāo)簽(語(yǔ)義分割)。對(duì)比上圖、下圖可見(jiàn),如以人為目標(biāo),語(yǔ)義分割不區(qū)分屬于相同類別的不同實(shí)例(所有人都標(biāo)為紅色),實(shí)例分割區(qū)分同類的不同實(shí)例(使用不同顏色區(qū)分不同的人)。
·目標(biāo)追蹤目標(biāo)跟蹤是指對(duì)圖像序列中的運(yùn)動(dòng)目標(biāo)進(jìn)行檢測(cè)、提取、識(shí)別和跟蹤,獲得運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng)參數(shù),進(jìn)行處理與分析,實(shí)現(xiàn)對(duì)運(yùn)動(dòng)目標(biāo)的行為理解,以完成更高一級(jí)的檢測(cè)任務(wù)。
6
計(jì)算機(jī)視覺(jué)在日常生活中的應(yīng)用場(chǎng)景
計(jì)算機(jī)視覺(jué)的應(yīng)用場(chǎng)景非常廣泛,下面列舉幾個(gè)生活中常見(jiàn)的應(yīng)用場(chǎng)景。 · 門禁、支付寶上的人臉識(shí)別
· 停車場(chǎng)、收費(fèi)站的車牌識(shí)別
· 上傳視頻到網(wǎng)站或APP時(shí)的風(fēng)險(xiǎn)識(shí)別
· 抖音等APP上的各種自拍道具(需要先識(shí)別出人臉的位置)
7
計(jì)算機(jī)視覺(jué)面臨的挑戰(zhàn)
8
結(jié)語(yǔ)
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)