2014-02-09 分類: 搜索引擎優(yōu)化
搜索引擎基本上是我們要打開的第一個瀏覽器網(wǎng)站。如果沒有人,不要問我為什么,因?yàn)槟蔷褪俏?。隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的內(nèi)容在互聯(lián)網(wǎng)上產(chǎn)生,但我們?nèi)绾尾拍茌p松地看到它呢?這直接導(dǎo)致了搜索引擎的誕生,我們做SEO網(wǎng)絡(luò)推廣,首先需要了解它的工作原理,然后才能有針對性地去做最好的,最終實(shí)現(xiàn)網(wǎng)站優(yōu)化排名的推廣。那么它是如何工作的呢?
這就是扎克的書中所說的:爬行和抓取,預(yù)處理,排名。
爬行和爬行:搜索引擎蜘蛛通過跟蹤鏈接對網(wǎng)頁進(jìn)行爬行,以獲取網(wǎng)頁的HTML代碼并將其存儲在數(shù)據(jù)庫中。這里的蜘蛛指的是搜索引擎用來抓取訪問頁面的程序。瀏覽網(wǎng)頁后,本程序?qū)g覽記錄作為原始數(shù)據(jù)保存到數(shù)據(jù)庫中。一般來說,當(dāng)蜘蛛訪問時,它們會首先訪問網(wǎng)站根目錄中的robots協(xié)議文件,以了解哪些網(wǎng)站不能被爬網(wǎng),哪些網(wǎng)站可以被爬網(wǎng)。
然后為了抓取更多的內(nèi)容,蜘蛛通常會跟隨網(wǎng)站上的鏈接,先根據(jù)深度和廣度抓取網(wǎng)站目錄,然后抓取數(shù)據(jù)庫。
說完蜘蛛的話,問題來了,怎么領(lǐng)導(dǎo)蜘蛛?我們最常用的方法是到搜索引擎的網(wǎng)站提交門戶網(wǎng)站提交自己的網(wǎng)站,這樣新網(wǎng)站就可以讓蜘蛛快速訪問并抓取記錄的數(shù)據(jù)到數(shù)據(jù)庫進(jìn)行備份。
預(yù)處理:這一步是蜘蛛抓取數(shù)據(jù)后在數(shù)據(jù)庫中的排列?首先提取文本,然后分割單詞,清除停止詞,去除重復(fù),最后根據(jù)正向索引和反向索引實(shí)現(xiàn)我們看到的排名。
排名的計算方法是:處理搜索詞、數(shù)據(jù)庫匹配、初始數(shù)據(jù)選擇、相關(guān)性計算、過濾并調(diào)整到最終排名。
至此,整套工作基本結(jié)束。我們看得很簡單。事實(shí)上,真相并不是我們所看到的。我們看到的只是外觀,因?yàn)槲覀儾恢兰夹g(shù),但我們必須了解蜘蛛的抓取排名原理,這樣我們才能在未來的優(yōu)化中得心應(yīng)手。
名稱欄目:做搜索引擎優(yōu)化,你不能不知道搜索引擎是如何
URL鏈接:http://redsoil1982.com.cn/news/6001.html
網(wǎng)站建設(shè)、網(wǎng)絡(luò)推廣公司-創(chuàng)新互聯(lián),是專注品牌與效果的網(wǎng)站制作,網(wǎng)絡(luò)營銷seo公司;服務(wù)項(xiàng)目有網(wǎng)站營銷、搜索引擎優(yōu)化等
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容