如何利用 CNNs 建立計(jì)算機(jī)視覺模型?什么是現(xiàn)有的數(shù)據(jù)集?訓(xùn)練模型的方法有哪些?本文在嘗試?yán)斫庥?jì)算機(jī)視覺的最重要的概念的過程中,為現(xiàn)有的一些基本問題,提供了答案。
創(chuàng)新互聯(lián)公司是一家專業(yè)提供科爾沁右翼中企業(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站制作、H5開發(fā)、小程序制作等業(yè)務(wù)。10年已為科爾沁右翼中眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站設(shè)計(jì)公司優(yōu)惠進(jìn)行中。
在機(jī)器學(xué)習(xí)中最熱門的領(lǐng)域之一是計(jì)算機(jī)視覺,它具有廣泛的應(yīng)用前景和巨大的潛力。它的發(fā)展目的是:復(fù)制人類視覺的強(qiáng)大能力。但是如何通過算法來實(shí)現(xiàn)呢?
讓我們來看看構(gòu)建計(jì)算機(jī)視覺模型中,最重要的數(shù)據(jù)集以及方法。
計(jì)算機(jī)視覺算法并不神奇。 他們需要數(shù)據(jù)才能工作,并且它們只會(huì)與你輸入的數(shù)據(jù)的情況一樣。這些是收集正確數(shù)據(jù)的不同來源,具體還是要取決于任務(wù):
ImageNet是最龐大且最著名的數(shù)據(jù)集之一,它是一個(gè)現(xiàn)成的數(shù)據(jù)集,包含1400萬幅圖像,使用WordNet概念手工注釋。在整個(gè)數(shù)據(jù)集中,100萬幅圖像包含邊界框注釋。
帶有對象屬性注釋的ImageNet圖像。圖片來源
另一個(gè)著名的例子是Microsoft COCO(Common Objects in Contex,常見物體圖像識(shí)別)的 DataSet,它包含了32.8萬張圖片,其中包括91種對象類型,這些對象類型很容易被識(shí)別,總共有250萬個(gè)標(biāo)記實(shí)例。
來自COCO數(shù)據(jù)集的帶注釋圖像的示例
雖然沒有太多可用的數(shù)據(jù)集,但有幾個(gè)適合不同的任務(wù),
研究人員運(yùn)用了包含超過20萬名人頭像的CelebFaces Attributes數(shù)據(jù)集和超過300萬圖像的"臥室"室內(nèi)場景識(shí)別數(shù)據(jù)集(15,620幅室內(nèi)場景圖像);和植物圖像分析數(shù)據(jù)集(來自11個(gè)不同物種的100萬幅植物圖像)。
照片數(shù)據(jù)集,通過這些大量的數(shù)據(jù),不斷訓(xùn)練模型,使其結(jié)果不斷優(yōu)化。
深度學(xué)習(xí)方法和技術(shù)已經(jīng)深刻地改變了計(jì)算機(jī)視覺以及人工智能的其他領(lǐng)域,以至于在許多任務(wù)中,它的使用被認(rèn)為是標(biāo)準(zhǔn)的。特別是,卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)超越了使用傳統(tǒng)計(jì)算機(jī)視覺技術(shù)的最先進(jìn)的技術(shù)成果。
這四個(gè)步驟概述了使用CNN建立計(jì)算機(jī)視覺模型的一般方法:
解決對象檢測挑戰(zhàn)的方法有很多種。 在Paul Viola 和 Michael Jones 的論文《健壯實(shí)時(shí)對象檢測》(Robust Real-time Object Detection)中提出了普遍的方法。
論文傳送門: 「鏈接」
雖然該方法可以訓(xùn)練用來檢測不同范圍的對象類,但其最初的目的是面部檢測。它是如此的快速和直接,并且它是在傻瓜相機(jī)中實(shí)現(xiàn)的算法,這也使得實(shí)時(shí)人臉檢測幾乎沒有處理能力。
該方法的核心特性是使用一組基于Haar特性的二進(jìn)制分類器進(jìn)行訓(xùn)練的。這些特征表示邊和線,在掃描圖像時(shí)非常容易計(jì)算。
Haar features
雖然非?;?,但在特定的人臉情況下,這些特征允許捕獲重要的元素,如鼻子、嘴巴或眉毛之間的距離。它是一種監(jiān)督方法,需要識(shí)別對象類型的許多正例和反例。
基于CNN的方法
深度學(xué)習(xí)已經(jīng)成為機(jī)器學(xué)習(xí)中一個(gè)真正的游戲規(guī)則改變者,特別是在計(jì)算機(jī)視覺領(lǐng)域中,基于深度學(xué)習(xí)的方法是許多常見任務(wù)的前沿。
在提出的各種實(shí)現(xiàn)目標(biāo)檢測的深度學(xué)習(xí)方法中,R-CNN(具有CNN特征的區(qū)域)特別容易理解。本文作者提出了三個(gè)階段的過程:
R-CNN Architecture. 圖片來源
雖然R-CNN算法對于具體采用的區(qū)域建議方法是不可知的,但是在原著中選擇的區(qū)域建議的方法是選擇性搜索。步驟3非常重要,因?yàn)樗鼫p少了候選對象的數(shù)量,從而降低了方法的計(jì)算開銷。
這里提取的特征不如前面提到的Haar特征直觀。綜上所述,我們使用CNN從每個(gè)區(qū)域提案中提取4096維特征向量??紤]到CNN的性質(zhì),輸入必須始終具有相同的維度。這通常是CNN的弱點(diǎn)之一,不同的方法以不同的方式解決這個(gè)問題。對于R-CNN方法,經(jīng)過訓(xùn)練的CNN架構(gòu)需要輸入227×227像素去固定區(qū)域。由于提議的區(qū)域大小與此不同,作者的方法只是扭曲圖像,使其符合所需的尺寸。
與CNN所需的輸入維度匹配的扭曲圖像的示例
雖然取得了很好的效果,但是訓(xùn)練遇到了一些障礙,最終這種方法被其他人超越了。其中一些在文章中進(jìn)行了深入的回顧——《深度學(xué)習(xí)的對象檢測:權(quán)威指南》。
https://www.toutiao.com/a6693688027820065292/
名稱欄目:干貨|如何利用CNN建立計(jì)算機(jī)視覺模型?
文章路徑:http://redsoil1982.com.cn/article40/gpjjho.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、手機(jī)網(wǎng)站建設(shè)、定制網(wǎng)站、做網(wǎng)站、網(wǎng)頁設(shè)計(jì)公司、商城網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)