河北網站維護公司,網站外包公司,網站運營公司,石家莊網站運維公司
禁止搜索引擎收錄的方法 |
- 什么是robots.txt文件?
搜索引擎使用spider程序自動訪問互聯網上的網頁并獲取網頁信息。spider在訪問一個網站時,會首先會檢查該網站的根域下是否有一個叫做 robots.txt的純文本文件,這個文件用于指定spider在您網站上的抓取范圍。您可以在您的網站中創建一個robots.txt,在文件中聲明該網站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。
請注意,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。
- robots.txt文件放在哪里?
robots.txt文件應該放置在網站根目錄下。舉例來說,當spider訪問一個網站(比如 http://www.abc.com)時,首先會檢查該網站中是否存在http://www.abc.com/robots.txt這個文件,如果 Spider找到這個文件,它就會根據這個文件的內容,來確定它訪問權限的范圍。
網站 URL |
相應的 robots.txt的 URL |
http://www.w3.org/ |
http://www.w3.org/robots.txt |
http://www.w3.org:80/ |
http://www.w3.org:80/robots.txt |
http://www.w3.org:1234/ |
http://www.w3.org:1234/robots.txt |
http://w3.org/ |
http://w3.org/robots.txt |
|
|