網(wǎng)站制作淺談搜索引擎工過程

2021-11-26 分類：網(wǎng)站制作

1.索引處理

抓取網(wǎng)頁后，由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析，提取相關(guān)信息（包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞的位置、生成時間、大小、與其他網(wǎng)頁的鏈接關(guān)系等），根據(jù)一定的相關(guān)度算法進行大量復(fù)雜的計算，得到每一個網(wǎng)頁針對頁面文字及超鏈中每一個關(guān)鍵詞的相關(guān)度（或重要性），然后用這些信息建立網(wǎng)頁索引數(shù)據(jù)庫。任何搜索引擎在進行內(nèi)容索引的時候都是以文字為基礎(chǔ)的。搜索引擎在抓取頁面的時候，并非只訪問用戶能看到的文字信息，還包含大量的HTML代碼、CSS代碼、JavaScript代碼等對排名沒有作用的內(nèi)容。抓取頁面之后，搜索引擎就要處理這些信息，從HTML代碼中分離出標(biāo)簽、代碼，提取有利于網(wǎng)站排名處理的頁面文字內(nèi)容。

2.爬行抓取

爬行抓取是搜索引擎工作的第一步，主要完成數(shù)據(jù)收集工。搜索引擎蜘蛛程序通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁，從網(wǎng)站的某一個頁面（通常是首頁）開始，讀取網(wǎng)頁的內(nèi)容，找到網(wǎng)頁中的其他鏈接地址，然后通過這些鏈接地址尋找下一個網(wǎng)頁，一直這樣循環(huán)下去，直到把這個網(wǎng)站的所有網(wǎng)頁都抓取為止。如果網(wǎng)站的內(nèi)容質(zhì)量不高或者有大量重復(fù)信息，蜘蛛程序就沒有“耐心”抓取網(wǎng)站里的所有信息了。如果把整個互聯(lián)網(wǎng)當(dāng)成一個網(wǎng)站，那么蜘蛛程序就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。但是，在實際的工作中，搜索引擎蜘蛛程序是不能抓取所有的互聯(lián)網(wǎng)信息的，畢竟蜘蛛程序的帶寬資源、時間都不是無限的，它不可能“爬”到所有的頁面。受到這些因素的制約，搜索引擎只能爬行和收錄互聯(lián)網(wǎng)信息的一小部分。

3.排名

建立網(wǎng)頁索引數(shù)據(jù)庫后，當(dāng)用戶輸入關(guān)鍵詞并進行搜索時，搜索系統(tǒng)程序會從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因為所有相關(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好，所以只需按照相關(guān)度數(shù)值排序，相關(guān)度越高，排名越靠前。

當(dāng)前文章：網(wǎng)站制作淺談搜索引擎工過程
標(biāo)題來源：http://redsoil1982.com.cn/news/137651.html

網(wǎng)站建設(shè)、網(wǎng)絡(luò)推廣公司-創(chuàng)新互聯(lián)，是專注品牌與效果的網(wǎng)站制作，網(wǎng)絡(luò)營銷seo公司；服務(wù)項目有網(wǎng)站制作等

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容