之前章節有介紹過網站收錄是透過搜尋引擎蜘蛛索引抓取,這次我們要來分享一個好玩的工具,搜尋蜘蛛模擬器
透過模擬器可以知道搜尋引擎爬取網站的方式,及分享一下六種方式來允許拒絕搜尋引擎蜘蛛爬取
國外有一些網頁都有提供spider抓取模擬 參考網址 http://www.webtoolhub.com/tn561374-spider-view.aspx
先在模擬器上面輸入網址 : https://www.seochat.com.tw ,及模擬的關鍵字 : SEO
可以看到網站標題title基本上搜尋引擎只會最多抓取70個字元,描述200個字元,簡單的說就是寫太多也沒意義,spider很忙沒空理你的意思。
接下來是搜尋後蜘蛛鎖爬取的關鍵字。
同時網頁在搜尋蜘蛛眼下看到的畫面其實是,沒錯就是只有文字。
六種方式來允許拒絕搜尋引擎蜘蛛爬取
1.使用robots.txt文件來排除蜘蛛造訪文件
2.使用noindex標籤
3.使用密碼保護文件
4.Nofollow:告訴搜索引擎不要在頁面上顯示一些或所有鏈接
5.不要鏈結到你不想被搜尋引擎索引的網頁
6.在http標籤使用x-Robots-tag
spider抓取代碼設置教學
蜘蛛抓取延遲
寫法 User-agent: Slurp Crawl-delay: 0.5 User-agent: msnbot Crawl-delay: 4
使用unavailable_after後到期
2007年7月,Google推出了“unavailable_after”標記,允許網站事先指定應從搜索引擎結果中移除某個網頁(即何時過期)。
此標記可以指定為html元標記屬性值: