網(wǎng)站日志文件剖析剖析辦法精華版

2020-04-17 分類：網(wǎng)站建設

經(jīng)過剖析網(wǎng)站日志Log文件我們能夠看到用戶和搜索引擎蜘蛛拜訪網(wǎng)站的行為數(shù)據(jù)，這些數(shù)據(jù)能讓我們剖分出用戶和蜘蛛對網(wǎng)站的偏好以及網(wǎng)站的健康狀況。在網(wǎng)站日志剖析中，我們首要需求剖析的是蜘蛛行為。
在蜘蛛爬取及錄入過程中，搜索引擎會給特定權(quán)重網(wǎng)站分配相應的資源量。一個搜索引擎友愛型的網(wǎng)站應該充分利用這些資源，讓蜘蛛能夠敏捷、精確、全面的爬取有價值、用戶喜愛的內(nèi)容，而不浪費資源在無用的、拜訪反常的內(nèi)容上。
但由于網(wǎng)站日志中數(shù)據(jù)量過大，所以我們一般需求憑借網(wǎng)站日志剖析東西來查看。常用的日志剖析東西有：光年日志剖析東西、web log exploer。
在剖析日志時，關(guān)于單日日志文件我們需求剖析的內(nèi)容有：拜訪次數(shù)、逗留時刻、抓取量、目錄抓取計算、頁面抓取計算、蜘蛛拜訪IP、HTTP狀況碼、蜘蛛活潑時段、蜘蛛爬取途徑等；關(guān)于多日日志文件我們需求剖析的內(nèi)容有：蜘蛛拜訪次數(shù)趨勢、逗留時刻趨勢、全體抓取趨勢、各目錄抓取趨勢、抓取時刻段、蜘蛛活潑周期等。
下面我們來看看網(wǎng)站日志怎么剖析？
網(wǎng)站日志數(shù)據(jù)剖析解讀：
1、拜訪次數(shù)、逗留時刻、抓取量
從這三項數(shù)據(jù)中我們能夠得知：均勻每次抓取頁面數(shù)、單頁抓取逗留時刻和均勻每次逗留時刻。
均勻每次抓取頁面數(shù)=總抓取量/拜訪次數(shù)
單頁抓取逗留=每次逗留/每次抓取
均勻每次逗留時刻=總逗留時刻/拜訪次數(shù)
從這些數(shù)據(jù)我們能夠看出蜘蛛的活潑程度、親和程度、抓取深度等，總拜訪次數(shù)、逗留時刻、抓取量越高、均勻抓取頁面、均勻逗留時刻，標明網(wǎng)站越受搜索引擎喜愛。而單頁抓取逗留時刻標明網(wǎng)站頁面拜訪速度，時刻越長，標明網(wǎng)站拜訪速度越慢，對搜索引擎抓取錄入較晦氣，我們應盡量進步網(wǎng)頁加載速度，削減單而立逗留時刻，讓爬蟲資源更多的去抓取錄入。
別的，依據(jù)這些數(shù)據(jù)我們還能夠計算出一段時刻內(nèi)，網(wǎng)站的全體趨勢體現(xiàn)，如：蜘蛛拜訪次數(shù)趨勢、逗留時刻趨勢、抓取趨勢。
2、目錄抓取計算
經(jīng)過日志剖析我們能夠看到網(wǎng)站哪些目錄受蜘蛛喜愛、抓取目錄深度、重要頁面目錄抓取狀況、無效頁面目錄抓取狀況等。經(jīng)過比照目錄下頁面抓取及錄入狀況，我們能夠發(fā)現(xiàn)更多問題。關(guān)于重要目錄，我們需求經(jīng)過表里調(diào)整添加權(quán)重及爬取；關(guān)于無效頁面，在robots.txt中進行屏蔽。
別的，經(jīng)過多日日志計算，我們能夠看到站表里行為給目錄帶來的作用，優(yōu)化是否合理，是否達到了預期作用。關(guān)于同一目錄，以長時刻時刻段來看，我們能夠看到該目錄下頁面體現(xiàn)，依據(jù)行為估測體現(xiàn)的原因等。
3、頁面抓取
在網(wǎng)站日志剖析中，我們能夠看到具體被蜘蛛爬取的頁面。在這些頁面中，我們能夠剖分出蜘蛛爬取了哪些需求被制止爬取的頁面、爬取了哪些無錄入價值頁面、爬取了哪些重復頁面url等，為充分利用蜘蛛資源我們需求將這些地址在robots.txt中制止爬取。
別的，我們還能夠剖析未錄入頁面原因，關(guān)于新文章，是由于沒有被爬取到而未錄入抑或爬取了但未放出。關(guān)于某些閱覽含義不大的頁面，可能我們需求它作為爬取通道，關(guān)于這些頁面，我們是否應該做Noindex標簽等。但從另一方面講，蜘蛛會弱智到靠這些無含義的通道頁爬取頁面嗎，蜘蛛不懂sitemap？【對此，創(chuàng)新互聯(lián)有疑惑，求共享經(jīng)歷】
4、蜘蛛拜訪IP
早年有人提出過經(jīng)過蜘蛛的ip段來判別網(wǎng)站的降權(quán)狀況，笨鳥感覺這個含義不大，由于這個后知性太強了。并且降權(quán)更多應該早年三項數(shù)據(jù)來判別，用單單一個ip段來判別含義不大。IP剖析的更多用途應該是判別是否存在收集蜘蛛、假蜘蛛、歹意點擊蜘蛛等。
5、拜訪狀況碼
蜘蛛經(jīng)常呈現(xiàn)的狀況碼如301、404等，呈現(xiàn)這些狀況碼要及時處理，以防止對網(wǎng)站造成壞的影響。
6、抓取時刻段
經(jīng)過剖析比照多個單日蜘蛛小時爬取量，我們能夠了解到特定蜘蛛關(guān)于本網(wǎng)站在特定時刻的活潑時段。經(jīng)過比照周數(shù)據(jù)，我們能夠看到特定蜘蛛在一周中的活潑周期。了解這個，關(guān)于網(wǎng)站內(nèi)容更新時刻有必定指導含義，而之前所謂小三大四等均為不科學說法。
7、蜘蛛爬取途徑
在網(wǎng)站日志中我們能夠盯梢到特定IP的拜訪途徑，如果我們盯梢特定蜘蛛的拜訪途徑則能發(fā)現(xiàn)關(guān)于本網(wǎng)站結(jié)構(gòu)下蜘蛛的爬取途徑偏好。由此，我們能夠恰當?shù)囊龑е┲氲呐廊⊥緩剑屩┲敫嗟呐廊≈匾?、有價值、新更新頁面。其間爬取途徑中我們雙能夠剖析頁面物理結(jié)構(gòu)途徑偏好以及url邏輯結(jié)構(gòu)爬取偏好。經(jīng)過這些，能夠讓我們從搜索引擎的視角去審視自己的網(wǎng)站。

文章題目：網(wǎng)站日志文件剖析剖析辦法精華版
標題網(wǎng)址：http://redsoil1982.com.cn/news42/81892.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供商城網(wǎng)站、做網(wǎng)站、企業(yè)網(wǎng)站制作、用戶體驗、定制開發(fā)、搜索引擎優(yōu)化

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

解析301跳轉(zhuǎn)對百度排名的影響 2020-04-16
SEO考慮：你的網(wǎng)站優(yōu)化技能契合當下規(guī)范 2020-04-16
網(wǎng)頁規(guī)劃師須知的SEO技巧剖析 2020-04-16
談SEO與PPC之間的相得益彰 2020-04-16
查找引擎營銷之查找引擎開展的四個階段 2020-04-16
怎么去優(yōu)化手機網(wǎng)站 2020-04-15
圖片質(zhì)理用什么格式 2020-04-15
網(wǎng)站的運營讓你的訪客參加站點的改版 2020-04-15