你懂搜索引擎是怎麽運作的嗎(ma)？想知(zhī)道的話(huà)，先來了解這篇文章吧。-鄭州網站建設-鄭州網站制作-鄭州網站設計-鄭州建站公司-鄭州做網站-鄭州網站優化-鄭州小(xiǎo)程序開(kāi)發-索騰網絡科技有限公司

現在讓我(wǒ)(wǒ)們來看看一(yī)些重要的術語：搜索引擎：搜索和标識數據庫中(zhōng)與用戶指定的關鍵字或字符相對應的項的程序，用于查找萬維網上的特定站點。例如：谷歌搜索引擎，360，百度等。

搜索引擎索引：搜索引擎索引是将關鍵字與網站相關聯的數據庫，因此搜索引擎可以顯示與用戶的搜索查詢相匹配的網站。例如，如果用戶搜索獵豹的運行速度，那麽軟件蜘蛛将在搜索引擎索引中(zhōng)搜索這些術語。

網絡爬蟲：您首先需要了解的是Web Crawler或Spider是什麽以及它是如何工(gōng)作的。搜索引擎蜘蛛(也被稱爲爬蟲、機器人、搜索機器人或簡單的機器人)是大(dà)多數搜索引擎用來查找互聯網上新事物(wù)的程序。谷歌的網絡爬蟲被稱爲Googlebot。該程序從一(yī)個網站開(kāi)始，并跟蹤每個頁面上的每一(yī)個超鏈接。所以可以說，網絡上的所有東西最終都會被發現和爬行，就像所謂的“蜘蛛”從一(yī)個網站爬到另一(yī)個網站。當網絡爬蟲訪問您的一(yī)個頁面時，它會将站點的内容加載到數據庫中(zhōng)。一(yī)旦獲取了一(yī)個頁面，頁面的文本就會被加載到搜索引擎的索引中(zhōng)，這是一(yī)個海量的單詞數據庫，它們出現在不同的網頁上。

Robots.txt文件：網絡爬蟲在少數幾個未經批準的網站上爬行。因此，每個網站都包含一(yī)個robots.txt文件，其中(zhōng)包含蜘蛛(網絡爬蟲)的指令，在網站的哪些部分(fēn)要索引，哪些部分(fēn)要忽略。

PageRank通過計算鏈接到頁面的數量和質量來确定網頁的重要程度。當一(yī)個網絡爬蟲通過每個網站，它跟蹤網站中(zhōng)的所有鏈接，并檢查有多少鏈接連接到每個網站。然後利用頁面排名算法對每個網頁分(fēn)配百分(fēn)比，以代表網頁的重要性。例如，如果有三個名爲A、B和C的網頁，那麽假設連接到B的鏈接數來自5個百分(fēn)比較低的網頁，而連接到C的鏈接的鏈接來自A，其百分(fēn)比較高，因爲到C的鏈接來自一(yī)個重要的頁面，因此C的值高于B。

URL圖中(zhōng)的PageRank是一(yī)種概率分(fēn)布，用來表示随機點擊鏈接的人到達任何特定頁面的可能性。

因此，在網絡爬行過程中(zhōng)，基本上有三個步驟。首先，搜索機器人從爬行站點的頁面開(kāi)始。然後繼續索引網站的單詞和内容，最後訪問站點中(zhōng)的鏈接(網頁地址或URL)。

“robots.txt”的重要性

當蜘蛛訪問你的網站時，它應該做的第一(yī)件事就是查找一(yī)個名爲“robots.txt”的文件。此文件包含關于網站哪些部分(fēn)要索引和哪些部分(fēn)要忽略的說明。控制蜘蛛在站點上看到什麽的唯一(yī)方法是使用robots.txt文件。所有的蜘蛛都應該遵循一(yī)些規則，而主要的搜索引擎在大(dà)多數情況下(xià)都會遵循這些規則。幸運的是，谷歌(Google)和必應(Bing)等主要搜索引擎終于在标準方面展開(kāi)了合作。

搜索時，蜘蛛搜索索引以查找包含這些搜索詞的每一(yī)頁。在這種情況下(xià)，它找到了數百或數千頁，Google通過提出200多個這樣的問題來決定哪些文檔是真正想要的：

這個頁面包含這個關鍵字多少次？

單詞是否出現在标題中(zhōng)，URL中(zhōng)，直接相鄰？

頁面中(zhōng)是否包含這些單詞的同義詞？

這個網頁是一(yī)個高質量的網站還是低質量的？

然後使用PageRank算法獲取數百個網頁，并對這些網頁的重要性進行排序，該算法可以查看有多少外(wài)部鏈接指向它，以及這些鏈接有多重要？最後，它将所有這些因素結合在一(yī)起，生(shēng)成每個頁面的總體(tǐ)得分(fēn)，并在提交搜索後大(dà)約半秒鍾内将搜索結果發回。

每個頁面包括标題、URL、文本片段，以确定我(wǒ)(wǒ)們要尋找的特定頁面。如果不相關，它也會在頁面底部顯示相關搜索。

上一(yī)篇：程序員(yuán)的下(xià)一(yī)個10年還會更有錢途嗎(ma)？ 下(xià)一(yī)篇：程序員(yuán)的4個能力水平和8個工(gōng)作陋習，你有嗎(ma)？