robots協議法律效力
㈠ robots協議的產生
robots.txt並不是某一個公司制定的,而是早在20世紀93、94年就早已出現,當時還沒有Google。真實Robots協議的起源,是在互聯網從業人員的公開郵件組裡面討論並且誕生的。即便是今天,互聯網領域的相關問題也仍然是在一些專門的郵件組中討論,並產生(主要是在美國)。
1994年6月30日,在經過搜索引擎人員以及被搜索引擎抓取的網站站長共同討論後,正式發布了一份行業規范,即robots.txt協議。在此之前,相關人員一直在起草這份文檔,並在世界互聯網技術郵件組發布後,這一協議被幾乎所有的搜索引擎採用,包括最早的altavista,infoseek,後來的google,bing,以及中國的網路,搜搜,搜狗等公司也相繼採用並嚴格遵循。
Robot,又稱Spider,是搜索引擎自動獲取網頁信息的電腦程序的通稱。Robots協議的核心思想就是要求Robot程序不要去檢索那些站長們不希望被直接搜索到的內容。將約束Robot程序的具體方法規范成格式代碼,就成了Robots協議。一般來說,網站是通過Robots.txt文件來實現Robots協議。
自有搜索引擎之日起,Robots協議已是一種目前為止最有效的方式,用自律維持著網站與搜索引擎之間的平衡,讓兩者之間的利益不致過度傾斜。它就像一個鍾擺,讓互聯網上的搜索與被搜索和諧相處。
㈡ 360與百度互相指責對方違反,那麼請問Robots協議到底是什麼呢
robots是一個協議。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots文件告訴蜘蛛程序在伺服器上什麼文件是可以被查看的。
當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。
㈢ robots協議是什麼
Robots是一個英文單詞,對英語比較懂的朋友相信都知道,Robots的中文意思是機器人。而我們通常提到的主要是Robots協議,Robots.txt被稱之為機器人或Robots協議(也稱為爬蟲協議、機器人協議等)它的全稱是「網路爬蟲排除標准」
英文「Robots Exclusion Protocol」這也是搜索引擎的國際默認公約。我們網站可以通過Robots協議從而告訴搜索引擎的蜘蛛哪些頁面可以抓取,哪些頁面不能抓取。Robots協議的本質是網站和搜索引擎爬蟲的溝通方式,是用來指引搜索引擎更好地抓取網站里的內容。
比如說,一個搜索蜘蛛訪問一個網站時,它第一個首先檢查的文件就是該網站的根目錄里有沒有robots.txt文件。
如果有,蜘蛛就會按照該文件中的條件代碼來確定能訪問什麼頁面或內容;如果沒有協議文件的不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被協議限制的內容頁面。
而網路官方上的建議是:僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件進行屏蔽。而如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。
㈣ robots協議到底有沒有法律效力,能否保護UGC內容
協議只要不違反法律的規定,是雙方的真實意思表示,就是有效的,至於履行情況,可以按照雙方當事人的約定進行。
㈤ 說360被指違反Robots協議收集敏感數據,是真的嗎
這是利益之爭,3SB大戰,只有勝者是對的,robots協議只是個借口而已,是互相撕咬的一個理由。
㈥ robots協議在seo優化過程中多久生效
在蜘蛛爬行網站後離開時生效,蜘蛛爬行活躍的當天可以生效,不活躍的應該需要啊二到三天左右。如果是新站可以需要十天半個月
㈦ robots協議的影響
Robots協議是網站出於安全和隱私考慮,防止搜索引擎抓取敏感信息而設置的。搜索引擎的原理是通過一種爬蟲spider程序,自動搜集互聯網上的網頁並獲取相關信息。而鑒於網路安全與隱私的考慮,每個網站都會設置自己的Robots協議,來明示搜索引擎,哪些內容是願意和允許被搜索引擎收錄的,哪些則不允許。搜索引擎則會按照Robots協議給予的許可權進行抓取。
Robots協議代表了一種契約精神,互聯網企業只有遵守這一規則,才能保證網站及用戶的隱私數據不被侵犯。違背Robots協議將帶來巨大安全隱憂——此前,曾經發生過這樣一個真實的案例:國內某公司員工郭某給別人發了封求職的電子郵件,該Email存儲在某郵件服務公司的伺服器上。因為該網站沒有設置robots協議,導致該Email被搜索引擎抓取並被網民搜索到,為郭某的工作生活帶來極大困擾。
如今,在中國國內互聯網行業,正規的大型企業也都將Robots協議當做一項行業標准,國內使用Robots協議最典型的案例,就是淘寶網拒絕網路搜索、京東拒絕一淘搜索。不過,絕大多數中小網站都需要依靠搜索引擎來增加流量,因此通常並不排斥搜索引擎,也很少使用Robots協議。
北京市漢卓律師事務所首席律師趙虎表示,Robots協議是維護互聯網世界隱私安全的重要規則。如果這種規則被破壞,對整個行業就是滅頂之災。
㈧ 360從什麼時候開始違反robots協議的
2012年9月左右
中廣網北京9月7日消息(記者庄勝春)據中國之聲《央廣新聞》報道,近日,有報道稱360違反Robots協議抓取網站信息,並通過瀏覽器收集隱私數據。這種行為被指不顧行業規則底線,引起業內人士的熱議。
有報道說,由於360搜索並不遵守搜索引擎通用的Robots協議,也就是爬蟲協議,導致很多網站出於安全和隱私的考慮,不允許搜索引擎抓取的一些內網信息也泄漏在了360搜索上,這些隱私甚至可能包括銀行帳號、密碼、內部郵件等一些信息。而原本這個爬蟲協議是指,網站通過Robots網站告訴引擎哪些頁面是可以抓取的,哪些頁面是不能抓取的。這個協議也是行業通行的規則,主要依靠搜索引擎來自覺遵守。
部分網友根據這樣的線索進行了求證,發現該情況確實存在。有網友表示,公司原本需要動態口令訪問的內部網站現在也被360搜索抓取了,這到底是怎麼回事?業內人士專家分析,這可能是公司內部有人用360瀏覽器導致的。
其實從360和網路的這場「3B大戰」開始,就有很多網路的合作機構要求內部員工卸載360瀏覽器,近日一些網友也在微博發出這樣的號召,因為隱私問題成為大家比較大的擔憂。
以往因為有Robots協議的存在,在網路或者谷歌中進行搜索的時候不會反饋諸如內網信息等敏感信息,所以360這樣一個打破行規的舉措引發熱議。有專家認為,今天360可以一手舉著「反壟斷」的旗號違反Robots協議,另外也可以一手舉著「用戶體驗」的旗號,通過瀏覽器來上傳用戶的隱私。這種局面如果不能得到制止的話,未來互聯網企業競爭可能會陷入混亂,用戶的網路安全可能也會受到非常大的影響。有業內人士建議,這個問題的徹底解決不僅要依靠法律制度的完善,也需要政府主管部門的有力監管。
㈨ 什麼是robots協議網站中的robots.txt寫法和作用
Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是「網路爬蟲排除標准」(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
文件寫法
User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為後綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"為後綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖
文件用法
例1. 禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
實例分析:淘寶網的 Robots.txt文件
User-agent: Baispider
Disallow: /
User-agent: spider
Disallow: /
很顯然淘寶不允許網路的機器人訪問其網站下其所有的目錄。
例2. 允許所有的robot訪問 (或者也可以建一個空文件 「/robots.txt」 file)
User-agent: *
Allow:/
例3. 禁止某個搜索引擎的訪問
User-agent: BadBot
Disallow: /
例4. 允許某個搜索引擎的訪問
User-agent: Baispider
allow:/
例5.一個簡單例子
在這個例子中,該網站有三個目錄對搜索引擎的訪問做了限制,即搜索引擎不會訪問這三個目錄。
需要注意的是對每一個目錄必須分開聲明,而不要寫成 「Disallow: /cgi-bin/ /tmp/」。
User-agent:後的*具有特殊的含義,代表「any robot」,所以在該文件中不能有「Disallow: /tmp/*」 or 「Disallow:*.gif」這樣的記錄出現。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Robot特殊參數:
允許 Googlebot:
如果您要攔截除Googlebot以外的所有漫遊器不能訪問您的網頁,可以使用下列語法:
User-agent:
Disallow: /
User-agent: Googlebot
Disallow:
Googlebot 跟隨指向它自己的行,而不是指向所有漫遊器的行。
「Allow」擴展名:
Googlebot 可識別稱為「Allow」的 robots.txt 標准擴展名。其他搜索引擎的漫遊器可能無法識別此擴展名,因此請使用您感興趣的其他搜索引擎進行查找。「Allow」行的作用原理完全與「Disallow」行一樣。只需列出您要允許的目錄或頁面即可。
您也可以同時使用「Disallow」和「Allow」。例如,要攔截子目錄中某個頁面之外的其他所有頁面,可以使用下列條目:
User-agent: Googlebot
Allow: /folder1/myfile.html
Disallow: /folder1/
這些條目將攔截 folder1 目錄內除 myfile.html 之外的所有頁面。
如果您要攔截 Googlebot 並允許 Google 的另一個漫遊器(如 Googlebot-Mobile),可使用」Allow」規則允許該漫遊器的訪問。例如:
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Allow:
使用 * 號匹配字元序列:
您可使用星號 (*) 來匹配字元序列。例如,要攔截對所有以 private 開頭的子目錄的訪問,可使用下列條目:User-Agent: Googlebot
Disallow: /private*/
要攔截對所有包含問號 (?) 的網址的訪問,可使用下列條目:
User-agent: *
Disallow: /*?*
使用 $ 匹配網址的結束字元
您可使用 $字元指定與網址的結束字元進行匹配。例如,要攔截以 .asp 結尾的網址,可使用下列條目:User-agent: Googlebot
Disallow: /*.asp$
您可將此模式匹配與 Allow 指令配合使用。例如,如果 ? 表示一個會話 ID,您可排除所有包含該 ID 的網址,確保 Googlebot 不會抓取重復的網頁。但是,以 ? 結尾的網址可能是您要包含的網頁版本。在此情況下,可對 robots.txt 文件進行如下設置:
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: / *?
一行將攔截包含 ? 的網址(具體而言,它將攔截所有以您的域名開頭、後接任意字元串,然後是問號 (?),而後又是任意字元串的網址)。
Allow: /*?$ 一行將允許包含任何以 ? 結尾的網址(具體而言,它將允許包含所有以您的域名開頭、後接任意字元串,然後是問號 (?),問號之後沒有任何字元的網址)。
盡管robots.txt已經存在很多年了,但是各大搜索引擎對它的解讀都有細微差別。Google與網路都分別在自己的站長工具中提供了robots工具。如果您編寫了robots.txt文件,建議您在這兩個工具中都進行測試,因為這兩者的解析實現確實有細微差別。
㈩ robots協議的功能
Robots協議用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓取;可以屏蔽一些網站中比較大的文件,如:圖片,音樂,視頻等,節省伺服器帶寬;可以屏蔽站點的一些死鏈接。方便搜索引擎抓取網站內容;設置網站地圖連接,方便引導蜘蛛爬取頁面。 User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以.htm為後綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以.htm為後綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖 例1. 禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
實例分析:淘寶網的 Robots.txt文件
User-agent: Baispider
Disallow: /
User-agent: spider
Disallow: /
很顯然淘寶不允許網路的機器人訪問其網站下其所有的目錄。
例2. 允許所有的robot訪問 (或者也可以建一個空文件 「/robots.txt」 file)
User-agent: *
Allow:/
例3. 禁止某個搜索引擎的訪問
User-agent: BadBot
Disallow: /
例4. 允許某個搜索引擎的訪問
User-agent: Baispider
allow:/
例5.一個簡單例子
在這個例子中,該網站有三個目錄對搜索引擎的訪問做了限制,即搜索引擎不會訪問這三個目錄。
需要注意的是對每一個目錄必須分開聲明,而不要寫成 「Disallow: /cgi-bin/ /tmp/」。
User-agent:後的*具有特殊的含義,代表「any robot」,所以在該文件中不能有「Disallow: /tmp/*」 or 「Disallow:*.gif」這樣的記錄出現。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Robot特殊參數:
允許 Googlebot:
如果您要攔截除Googlebot以外的所有漫遊器不能訪問您的網頁,可以使用下列語法:
User-agent:
Disallow: /
User-agent: Googlebot
Disallow:
Googlebot 跟隨指向它自己的行,而不是指向所有漫遊器的行。
「Allow」擴展名:
Googlebot 可識別稱為「Allow」的 robots.txt 標准擴展名。其他搜索引擎的漫遊器可能無法識別此擴展名,因此請使用您感興趣的其他搜索引擎進行查找。「Allow」行的作用原理完全與「Disallow」行一樣。只需列出您要允許的目錄或頁面即可。
您也可以同時使用「Disallow」和「Allow」。例如,要攔截子目錄中某個頁面之外的其他所有頁面,可以使用下列條目:
User-agent: Googlebot
Allow: /folder1/myfile.html
Disallow: /folder1/
這些條目將攔截 folder1 目錄內除 myfile.html 之外的所有頁面。
如果您要攔截 Googlebot 並允許 Google 的另一個漫遊器(如 Googlebot-Mobile),可使用」Allow」規則允許該漫遊器的訪問。例如:
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Allow:
使用 * 號匹配字元序列:
您可使用星號 (*) 來匹配字元序列。例如,要攔截對所有以 private 開頭的子目錄的訪問,可使用下列條目:User-Agent: Googlebot
Disallow: /private*/
要攔截對所有包含問號 (?) 的網址的訪問,可使用下列條目:
User-agent: *
Disallow: /*?*
使用 $ 匹配網址的結束字元
您可使用 $字元指定與網址的結束字元進行匹配。例如,要攔截以 .asp 結尾的網址,可使用下列條目:User-agent: Googlebot
Disallow: /*.asp$
您可將此模式匹配與 Allow 指令配合使用。例如,如果 ? 表示一個會話 ID,您可排除所有包含該 ID 的網址,確保 Googlebot 不會抓取重復的網頁。但是,以 ? 結尾的網址可能是您要包含的網頁版本。在此情況下,可對 robots.txt 文件進行如下設置:
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: / *?
一行將攔截包含 ? 的網址(具體而言,它將攔截所有以您的域名開頭、後接任意字元串,然後是問號 (?),而後又是任意字元串的網址)。
Allow: /*?$ 一行將允許包含任何以 ? 結尾的網址(具體而言,它將允許包含所有以您的域名開頭、後接任意字元串,然後是問號 (?),問號之後沒有任何字元的網址)。
盡管robots.txt已經存在很多年了,但是各大搜索引擎對它的解讀都有細微差別。Google與網路都分別在自己的站長工具中提供了robots工具。如果您編寫了robots.txt文件,建議您在這兩個工具中都進行測試,因為這兩者的解析實現確實有細微差別 。 1. Robot-version: 用來指定robot協議的版本號
例子: Robot-version: Version 2.0
2.Crawl-delay:雅虎YST一個特定的擴展名,可以通過它對我們的抓取程序設定一個較低的抓取請求頻率。您可以加入Crawl-delay:xx指示,其中,「XX」是指在crawler程序兩次進入站點時,以秒為單位的最低延時。
3. Visit-time:只有在visit-time指定的時間段里,robot才可以訪問指定的URL,否則不可訪問.
例子: Visit-time: 0100-1300 #允許在凌晨1:00到13:00訪問
4. Request-rate: 用來限制URL的讀取頻率
例子: Request-rate: 40/1m 0100 - 0759 在1:00到07:59之間,以每分鍾40次的頻率進行訪問
Request-rate: 12/1m 0800 - 1300 在8:00到13:00之間,以每分鍾12次的頻率進行訪問 Robots.txt文件主要是限制整個站點或者目錄的搜索引擎訪問情況,而Robots Meta標簽則主要是針對一個個具體的頁面。和其他的META標簽(如使用的語言、頁面的描述、關鍵詞等)一樣,Robots Meta標簽也是放在頁面中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內容。
Robots Meta標簽中沒有大小寫之分,name=」Robots」表示所有的搜索引擎,可以針對某個具體搜索引擎寫為name=」BaiSpider」。content部分有四個指令選項:index、noindex、follow、nofollow,指令間以「,」分隔。
index指令告訴搜索機器人抓取該頁面;
follow指令表示搜索機器人可以沿著該頁面上的鏈接繼續抓取下去;
Robots Meta標簽的預設值是index和follow,只有inktomi除外,對於它,預設值是index、nofollow。 上述的robots.txt和Robots Meta標簽限制搜索引擎機器人(ROBOTS)抓取站點內容的辦法只是一種規則,需要搜索引擎機器人的配合才行,並不是每個ROBOTS都遵守的。目前看來,絕大多數的搜索引擎機器人都遵守robots.txt的規則,而對於RobotsMETA標簽,支持的並不多,但是正在逐漸增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個指令「archive」,可以限制GOOGLE是否保留網頁快照。