禁止搜索引擎抓取robots.txt文件設置方法
時間:2022-05-24 作者:管理員(yuán) 點擊:590
通常情況下(xià),網站都是需要讓搜索引擎收錄的,這樣才能更好地增加網站的訪問量,但是也有個别行業的網站,如安全性要求較高銀行和企業的内部管理系統等他們這種站的安全性和私密性較高,肯定是不希望把數據在第三方上顯露,那麽如果禁止網站被搜索引擎抓取呢?索騰網絡總結如下(xià):
先在站點的根目錄下(xià)新建一(yī)個robots.txt文本文件。當搜索蜘蛛訪問這個站點時,它會首先檢查該站點根目錄下(xià)是否存在robots.txt,如果存在,搜索蜘蛛就會先讀取這個文件的内容:
文件寫法
User-agent: * 這裏的*代表的所有的搜索引擎種類,*是一(yī)個通配符
Disallow: / 這裏定義是禁止爬尋站點所有的内容
Disallow: /admin/ 這裏定義是禁止爬尋admin目錄下(xià)面的目錄
Disallow: /ABC/ 這裏定義是禁止爬尋ABC目錄下(xià)面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下(xià)的所有以".htm"爲後綴的URL(/templates/default/包含子目錄)。
Disallow: /*?* 禁止訪問網站中(zhōng)所有包含問号 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下(xià)面的adc.html文件。
Allow: /cgi-bin/ 這裏定義是允許爬尋cgi-bin目錄下(xià)面的目錄
Allow: /tmp 這裏定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"爲後綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖
下(xià)面列出來的是比較出名的搜索引擎蜘蛛名稱:
Google的蜘蛛: Googlebot
百度的蜘蛛:baiduspider
Yahoo的蜘蛛:Yahoo Slurp
MSN的蜘蛛:Msnbot
Altavista的蜘蛛:Scooter
Lycos的蜘蛛: Lycos_Spider_(T-Rex)
Alltheweb的蜘蛛: FAST-WebCrawler/
INKTOMI的蜘蛛: Slurp
SOGOU的蜘蛛:Sogou web spider/4.0和Sogou inst spider/4.0
按照以上的說明,我(wǒ)(wǒ)們可以給大(dà)案一(yī)個示例,以Sogou的來說,禁止抓取的robots.txt代碼寫法如下(xià):
User-agent: Sogou web spider/4.0
Disallow: /goods.aspx
Disallow: /category.aspx