Robots協(xié)議(也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲掃除規(guī)范”(Robots Exclusion Protocol),網(wǎng)站經(jīng)過Robots協(xié)議通知搜索引擎哪些頁面能夠抓取,哪些頁面不能抓取。
一、Robots.txt文件的重要性
robots.txt是搜索引擎蜘蛛拜訪網(wǎng)站時(shí)要查看的第一個(gè)文件,并且會依據(jù)robots.txt文件的內(nèi)容來匍匐網(wǎng)站。在某種意義上說,它的一個(gè)使命就是輔導(dǎo)蜘蛛匍匐,削減搜索引擎蜘蛛的工作量。
當(dāng)搜索引擎蜘蛛拜訪網(wǎng)站時(shí),它會首要查看該站點(diǎn)根目錄下是否存在robots.txt文件,假如該文件存在,搜索引擎蜘蛛就會依照該文件中的內(nèi)容來斷定匍匐的規(guī)劃;假如該文件不存在,則一切的搜索引擎蜘蛛將能夠拜訪網(wǎng)站上一切沒有被口令維護(hù)的頁面。
一般搜索引擎對網(wǎng)站派出的蜘蛛是有配額的,多大規(guī)劃的網(wǎng)站放出多少蜘蛛。假如咱們不裝備robots文件,那么蜘蛛來到網(wǎng)站以后會無目的的匍匐,形成的一個(gè)成果就是,需求它匍匐的目錄,沒有匍匐到,不需求匍匐的,也就是咱們不想被錄入的內(nèi)容卻被匍匐并放出快照。所以robots文件關(guān)于咱們做網(wǎng)站優(yōu)化來說具有很重要的影響。
1.網(wǎng)站沒有Robots.txt文件的壞處
假如網(wǎng)站中沒有robots.txt文件,則網(wǎng)站中的程序腳本、樣式表等一些和網(wǎng)站內(nèi)容無關(guān)的文件或目錄即便被搜索引擎蜘蛛匍匐,也不會添加網(wǎng)站的錄入率和權(quán)重,只會糟蹋服務(wù)器資源;搜索引擎派出的蜘蛛資源也是有限的,咱們要做的應(yīng)該是盡量讓蜘蛛匍匐網(wǎng)站要點(diǎn)文件、目錄,大極限的節(jié)省蜘蛛資源。
2.Robots.txt文件的寄存方位
網(wǎng)站根目錄下,經(jīng)過“域名/robots.txt”能正常拜訪即可,如http://域名/robots.txt
二、Robots.txt文件的寫法
User-agent: * *代表一切搜索引擎,也可指定搜索引擎,如指定百度,User-agent: BaiduspiderDisallow: /a/ 是制止抓取a目錄下面的一切內(nèi)容Disallow: /cgi-bin/*.htm 制止拜訪/cgi-bin/目錄下的一切以”.htm”為后綴的URL(包括子目錄)Disallow: /*?* 制止拜訪網(wǎng)站中一切包括問號 (?) 的網(wǎng)址Disallow: /.jpg$ 制止抓取網(wǎng)頁一切的.jpg格局的圖片Disallow:/ab/adc.html 制止爬取ab文件夾下面的adc.html文件。Allow: /cgi-bin/a/ 是答應(yīng)爬尋cgi-bin目錄下面的a目錄Allow: /tmp 是答應(yīng)爬尋tmp的整個(gè)目錄Allow: .htm$ 答應(yīng)拜訪以”.htm”為后綴的URL。Allow: .gif$ 答應(yīng)抓取網(wǎng)頁和gif格局圖片Sitemap: 網(wǎng)站地圖,通知爬蟲這個(gè)頁面是網(wǎng)站地圖。
創(chuàng)新互聯(lián)推薦的robots文件書寫方法如下:
User-agent: *
Disallow: /i*/
Disallow: /a*d/
Disallow: /*.php
Disallow: /*/*.php
Disallow: /*/list*.html
Allow: /img/
Sitemap: https://域名/sitemap.xml
Robots.txt文件的闡明
User-agent: *
(注釋:這兒的*代表一切的搜索引擎品種,*是一個(gè)通配符;當(dāng)然你也能夠針對某個(gè)搜索引擎,如User-agent: Baiduspider、User-Agent: 360Spider、User-Agent: Sogouspider。)
Disallow: /i*/
(注釋:Disallow為制止匍匐,假如需求制止蜘蛛匍匐images目錄,能夠?qū)憺镈isallow: /images/ ;引薦本站選用的寫法,Disallow: /i*/,能夠在必定程度上進(jìn)步網(wǎng)站的安全性,假如寫成Disallow: /images/可能會露出網(wǎng)站后臺文件途徑,特別是辦理途徑。選用通配符的寫法需求留意一點(diǎn),i*代表一切以w最初的目錄。)
Disallow: /a*d/
(注釋:制止匍匐一切以字母a開端、以字母d完畢的目錄,如/abd/、/acd/、/abcd/,這種寫法也是出于安全考慮。)
Disallow: /*.php
(注釋:制止匍匐根目錄下的一切以.php結(jié)束的文件,實(shí)際情況能夠依據(jù)你所運(yùn)用的網(wǎng)站程序來決議。)
Disallow: /*/*.php
(注釋:制止匍匐一切目錄下的一切以.php結(jié)束的文件。)
Disallow: /*/list*.html
(注釋:網(wǎng)站欄目文章多的時(shí)分會有分頁,如第1頁、第2頁……,假如需求制止匍匐分頁,假定分頁URL為www.xxx.com/news/list_1_32.html,咱們能夠采納Disallow: /*/list*.html這種寫法來制止匍匐一切目錄下的一切分頁。)
Allow: /img/
(注釋:Allow代表答應(yīng)匍匐。Disallow: /i*/為制止匍匐一切以i最初的目錄,可是咱們需求讓蜘蛛匍匐img這個(gè)目錄,能夠選用Allow: /img/這種寫法。)
網(wǎng)站題目:Robots.txt文件的重要性與寫法介紹
新聞來源:http://redsoil1982.com.cn/news/16077.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供企業(yè)建站、搜索引擎優(yōu)化、定制開發(fā)、App設(shè)計(jì)、營銷型網(wǎng)站建設(shè)、網(wǎng)站維護(hù)
廣告
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源:
創(chuàng)新互聯(lián)