robots.txt對(duì)于任何一個(gè)做網(wǎng)站的人應(yīng)該都不陌生,它只是一個(gè)純文本文件,但是卻可以限制搜索引擎蜘蛛對(duì)網(wǎng)站的爬行,下面具體介紹一下robots.txt。
robots.txt簡介
robots.txt位于網(wǎng)站的根目錄下,當(dāng)spider訪問一個(gè)網(wǎng)站(例:http://m.720b.cn)時(shí)候,首先會(huì)檢查該網(wǎng)站中是否存在http://www.yiisu/robots.txt這個(gè)文件,如果存在就會(huì)遵循robots.txt的規(guī)則去爬行網(wǎng)站。
robots.txt寫法
注:robots.txt區(qū)分大小寫,如php.html和PHP.html會(huì)被識(shí)別為不同的文件,書寫robots.txt時(shí)所有字符均為英文半角。
1、例子
User-agent: Baiduspider
Disallow: /
這是拒絕百度蜘蛛訪問的寫法。
2、User-agent
User-agent表示搜索引擎robot的名字,書寫robots.txt必須有User-agent
User-agent:*
表示所有的robot
User-agent:Baiduapider
表示百度spider
3、Disallow
Disallow表示不允許訪問
Disallow:
不允許訪問為空,表示允許訪問任何目錄
Disallow: /
表示不允許訪問任何目錄,注:在/前有一個(gè)空格
4、Allow
Allow表示允許訪問,意思和用法與Disallow相反,在此不再過多敘述。
具體用法舉例
1、允許所有蜘蛛訪問所有目錄
User-Agent: *
Allow: /
2、禁止所有蜘蛛訪問
User-Agent: *
Disallow: /
3、允許所有蜘蛛訪問某個(gè)目錄
User-Agent: *
Allow: /php/
4、禁止蜘蛛訪問某幾個(gè)目錄
User-Agent: *
Disallow: /php/
Disallow: /java/
5、禁止蜘蛛訪問動(dòng)態(tài)頁面
User-Agent: *
Disallow: /*?*