禁止搜索引擎抓取robots.txt文件設置方法

時間:2022-05-24 作者:管理員(yuán) 點擊:590

通常情況下(xià),網站都是需要讓搜索引擎收錄的,這樣才能更好地增加網站的訪問量,但是也有個别行業的網站,如安全性要求較高銀行和企業的内部管理系統等他們這種站的安全性和私密性較高,肯定是不希望把數據在第三方上顯露,那麽如果禁止網站被搜索引擎抓取呢?索騰網絡總結如下(xià):

先在站點的根目錄下(xià)新建一(yī)個robots.txt文本文件。當搜索蜘蛛訪問這個站點時,它會首先檢查該站點根目錄下(xià)是否存在robots.txt,如果存在,搜索蜘蛛就會先讀取這個文件的内容:

文件寫法

User-agent: * 這裏的*代表的所有的搜索引擎種類,*是一(yī)個通配符
Disallow: / 這裏定義是禁止爬尋站點所有的内容
Disallow: /admin/ 這裏定義是禁止爬尋admin目錄下(xià)面的目錄
Disallow: /ABC/ 這裏定義是禁止爬尋ABC目錄下(xià)面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下(xià)的所有以".htm"爲後綴的URL(/templates/default/包含子目錄)。
Disallow: /*?* 禁止訪問網站中(zhōng)所有包含問号 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下(xià)面的adc.html文件。
Allow: /cgi-bin/ 這裏定義是允許爬尋cgi-bin目錄下(xià)面的目錄
Allow: /tmp 這裏定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"爲後綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖
 
下(xià)面列出來的是比較出名的搜索引擎蜘蛛名稱:

Google的蜘蛛: Googlebot
百度的蜘蛛:baiduspider
Yahoo的蜘蛛:Yahoo Slurp
MSN的蜘蛛:Msnbot
Altavista的蜘蛛:Scooter
Lycos的蜘蛛: Lycos_Spider_(T-Rex)
Alltheweb的蜘蛛: FAST-WebCrawler/
INKTOMI的蜘蛛: Slurp
SOGOU的蜘蛛:Sogou web spider/4.0和Sogou inst spider/4.0

按照以上的說明,我(wǒ)(wǒ)們可以給大(dà)案一(yī)個示例,以Sogou的來說,禁止抓取的robots.txt代碼寫法如下(xià):
User-agent: Sogou web spider/4.0
Disallow: /goods.aspx
Disallow: /category.aspx
返回列表
在線溝通

Are you interested in ?

感興趣嗎(ma)?

有關我(wǒ)(wǒ)們服務的更多信息,請聯系

136 7365 2363(同微信) 13140187702

鄭州網站建設鄭州網站設計鄭州網站制作鄭州建站公司鄭州網站優化--聯系索騰

與我(wǒ)(wǒ)們合作

鄭州網站建設鄭州網站設計鄭州網站制作鄭州建站公司鄭州網站優化--與索騰合作,您将會得到更成熟、專業的網絡建設服務。我(wǒ)(wǒ)們以客戶至上,同時也相互挑戰,力求呈現最好的品牌建設成果。

業務咨詢熱線:

136 7365 2363

TOP

QQ客服

在線留言