robots.txt文件的寫法
Robots協(xié)議(又稱爬蟲協(xié)議、機器人協(xié)議等)的全稱是網(wǎng)絡(luò)爬蟲排除標(biāo)準Robots該協(xié)議告訴搜索引擎哪些頁面可以獲,哪些頁面不能捕獲。robots.txt是協(xié)議,而不是命令。robots.txt是搜索引擎訪問網(wǎng)站時要查看的第一個文件。robots.txt文件告訴蜘蛛程序可以在服務(wù)器上查看哪些文件。所以站長是對的robots了解多少?知道robots文件怎么寫?大信將在下面的時代為您介紹。 robots協(xié)議原理 Robots協(xié)議是基于以下原則建立的國際互聯(lián)網(wǎng)行業(yè)的道德規(guī)范: 1.搜索技術(shù)應(yīng)服務(wù)于人類,尊重信息提供者的意愿,維護其隱私; 網(wǎng)站有義務(wù)保護用戶的個人信息和隱私不受侵犯。 robots功能 Robots該協(xié)議用于告知搜索引擎哪些頁面可以被捕獲,哪些頁面不能被捕獲;屏蔽圖片、音樂、視頻等大型文件,節(jié)省服務(wù)器帶寬;屏蔽網(wǎng)站的一些死鏈接。方便搜索引擎抓取網(wǎng)站內(nèi)容;設(shè)置網(wǎng)站地圖連接,方便蜘蛛爬頁。 文件寫法 User-agent: * 這里的*代表的所有的搜索引擎種類,*是通配符。 Disallow: /admin/ 這里的定義是禁止爬尋admin目錄下面的目錄。 Disallow: /require/ 這里的定義是禁止爬尋require目錄下面的目錄。 Disallow: /ABC/ 這里的定義是禁止爬尋ABC目錄下面的目錄。 Disallow: /cgi-bin/* 禁止訪問/cgi-bin/目錄下的一切""為后綴的URL(包括子目錄)。 Disallow: /*?* 禁止訪問所有包含問號的網(wǎng)站 (?) 的網(wǎng)址。 Disallow: /.jpg$ 禁止抓取所有網(wǎng)頁.jpg格式圖片。 Disallow:/ab/adc 禁止爬取ab下面的文件夾adc文件。 Allow: /cgi-bin這里的定義是允許爬尋cgi-bin目錄下面的目錄。 Allow: /tmp 這里的定義是允許爬尋tmp整個目錄。 Allow: $ 只允許訪問""為后綴的URL。 Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片。 Sitemap: 網(wǎng)站地圖 告訴爬蟲這個頁面是網(wǎng)站地圖。 對于robots.txt這里分享文件的寫作方法。當(dāng)搜索蜘蛛訪問一個網(wǎng)站時,它會首先檢查網(wǎng)站的根目錄是否存在robots.txt,如果存在,搜索機器人將根據(jù)文件中的內(nèi)容確定訪問范圍;如果文件不存在,所有搜索蜘蛛都可以訪問網(wǎng)站上所有沒有密碼保護的頁面。時代達信seo優(yōu)化編輯提醒您,只有當(dāng)您的網(wǎng)站包含不想被搜索引擎包含的內(nèi)容時,您才需要使用它robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請勿建立robots.txt文件。
Copyright ? 2012-2022 北京匯杰思云物業(yè)管理有限公司 版權(quán)所有 京ICP備2025111139號-5 Xml網(wǎng)站地圖