robots.txt?
很多SEO網站優化新手都會問:robots.txt是什么?
你肯定有過如下經歷:在百度或者谷歌等搜索引擎上搜索自己的手機號碼,很多人會講,我的號碼為什么會被搜索到,我又沒有告訴他,如果我們某個站點或者自己的信息不想讓百度和google收錄,那怎么辦呢?
其實搜索引擎已經和我們達成一個約定,如果我們按約定那樣做了,它們就不要收錄。
這個寫約定的的文件命名就是:robots.txt。
robots.txt是一個最簡單的.txt文件,用以告訴搜索引擎哪些網頁可以收錄,哪些不允許收錄。
關于robots.txt一般站長需要注意以下幾點:
(1)如果你的站點想對所有搜索引擎公開,則不用做這個文件或者robots.txt為空就行。
(2)文件名稱必須命名為:robots.txt,都是小寫,robot后面加"s"。
(3)robots.txt文件必須放置在一個站點的根目錄下。如:通過http://www.mcfhw.cn/robots.txt 可以成功訪問到,則說明本站的放置正確。
(4)一般情況下,robots.txt里只寫著兩個函數:User-agent和 Disallow。
(5)觀察這個頁面并修改為自己的:http://www.mcfhw.cn/robots.txt
(6)有幾個禁止,就得有幾個Disallow函數,并分行描述。
(7)至少要有一個Disallow函數,如果都允許收錄,則寫: Disallow: ,如果都不允許收錄,則寫:Disallow: / (注:只是差一個斜桿)。
補充說明:
User-agent: * 星號說明允許所有搜索引擎收錄
Disallow: /plus/search.php 說明 http://www.mcfhw.cn/plus/search.php這個頁面禁止搜索引擎抓取。
Disallow: /index.php? 說明http://www.mcfhw.cn/index.php?search=%E5%A5%BD&action=search&searchcategory=%25 類似這樣的頁面 禁止搜索引擎抓取。
最近一段時間360推出了自己搜索引擎,百度指責360不遵守robots.txt協議,為此國家相關部門出面調停,要求各搜索引擎都要遵守robots.txt協議,關于此信息,您可以通過百度搜索了解更多:360robots.txt
如果您想進一步了解相關知識,可以參考以下資料:
如何使用標簽阻止網頁被收錄?
robots.txt文件有什么必要