导航

robots.txt 写法

作用

  • 引导搜索引擎蜘蛛抓取指定栏目或内容;
  • 网站改版或者URL重写优化时候屏蔽对搜索引擎不友好的链接;
  • 屏蔽死链接、404错误页面;
  • 屏蔽无内容、无价值页面;
  • 屏蔽重复页面,如评论页、搜索结果页;
  • 屏蔽任何不想被收录的页面;
  • 引导蜘蛛抓取网站地图;

语法

User-agent:(定义搜索引擎)
示例:

User-agent: *(允许所有搜索引擎)
User-agent: Googlebot (只允许谷歌抓取)
User-agent: Baiduspider (只允许百度抓取)

Disallow:(定义禁止抓取页面或目录)
示例:

Disallow: /(禁止抓取所有目录)
Disallow: /wp-admin (禁止抓取取wp-admin)
Disallow: /index.html (禁止抓取index.html)
Disallow: /?s=(禁止抓取搜索结果)

Allow:(定义允许抓取页面或子目录)
示例:

Allow: /wp-content/themes(允许抓取wp-content下themes目录)
Allow: /wp-content/uploads/pic.png(允许抓取wp-content/uploads下pic.png)

其它爬虫

普通搜索机器人 特殊搜索机器人
Google:googlebot Google Image:googlebot-image
Baidu:baiduspider Google Mobile:googlebot-mobile
MSN:Search msnbot Yahoo MM:yahoo-mmcrawler
Yahoo:yahoo-slurp MSN PicSearch:psbot
Ask/Teoma:teoma SingingFish:asterias
Cuil:twiceler Yahoo Blogs:yahoo-blogs/v3.9
GigaBlast:gigabot
Scrub The Web:scrubby
DMOZ Checker:robozilla
Nutch:nutch
Alexa/Wayback:ia_archiver
Naver:naverbot, yeti

更多语法

百度 robots.txt

适用 WordPress-robots.txt

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /comments/
Disallow: /attachment/
Disallow: /comments/feed
Disallow: /feed
Disallow: /*/feed
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /*/trackback
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /wp-*.php

适用 Hexo-robots.txt

User-Agent: *
Allow: /
Disallow: /background
Disallow: /css
Disallow: /fancybox
Disallow: /font-awesome
Disallow: /img
Disallow: /js
Sitemap: https://bpplpp.com/sitemap.xml

2016-02-10
选择表情