robots文件制作

原创 深圳胜达SEO  2016-03-20 23:15  阅读 87 次

什么是robots文件
robots是站点与搜索引擎沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。比如网站后台网页和带有中午路劲的网页。robots协议是在网站根目录的一个txt文件,搜索引擎蜘蛛抓取时,抓取的第一个文件,网站管理员可以在robots文件中对搜索引擎蜘蛛作出规定蜘蛛抓取或不抓取。要写好网站robots,了解网站文件、链接是很重要的,再一个就是看链接,找规律,这样才能较好的写出robots协议。

robots.txt文件的格式
robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符)

robots协议的作用(屏蔽网站内无价值的页面)
1、禁止蜘蛛抓取隐私性内容,保护网站隐私(用户信息等)
2、集中权重,提高排名
3、统一路径,隐藏动态路径

robots.txt文件解释

  1. User-agent(定义搜索引擎),*代表全部蜘蛛
  2. Disallow: 不需要抓取的网页路劲

主要:第一个英文是大写的,:是英文状态下的。冒号的后面是一个空格

robots.txt文件本站案例

robots本站样本

robots本站样本

robots的写法规则:
1、User-agent:* 规定蜘蛛:不同搜索引擎的蜘蛛
谷歌蜘蛛:googlebot
百度蜘蛛名称:Baiduspider
腾讯搜搜soso蜘蛛名称:Sosospider
搜狗(sogou)蜘蛛名称:sogou spider
360蜘蛛:360Spider
2、Disallow: 禁止(屏蔽)蜘蛛抓取
3、Allow: 允许蜘蛛抓取
4、* 所有
Disallow: /wp-* 禁止(域名)/wp-
5、$ 结尾
6、Sitemap:地址 百度地图,写进去利于蜘蛛更快的抓取

注意事项与误区
1、英文状态下的符号:
2、空格(:后面留一空格)
3、首个字母大写
4、Allow 遵从最详细规则
例:Disallow: /dede/ Allow: /dede/111.html
5、网站安全(暴露网站程序,被针对性的攻击)
6、区分
Disallow: /ab Disallow: /ab* 这两个效果一样的
Disallow: / ab Disallow:/ 两效果一样,屏蔽所有

上线前屏蔽所有,上线时删除屏蔽,不建议这样做,这样排名时间会拉长。因为蜘蛛来了一次两次都没法进来防问这个网站,蜘蛛对它有了不好的印象,下次就不来了,直接影响了后期的抓取及排名。我们可以这样做A:本地建站再上线,B:用临时域名(空间)建站,先屏蔽临时域名,C:采用二级域名,Disallow: / 屏蔽整个网站,反正不要让正式的域名屏蔽蜘蛛抓取。
7、区分
Disallow: /ab Disallow: /ab*
Disallow: /ab/ 屏蔽文件夹

常见屏蔽
1、中文路径
2、动态跟径
3、搜索结果页
4、JS
5、模板目录(织梦templets)
6、插件目录

提交与检测robots
1、百度站长平台:Robots: http://zhanzhang.baidu.com/robots/indes
2、抓取诊断: http://www.seoshipin,cn/12.html
3、站长工具:http://www.5118.com/robots

本文地址:http://www.szsdseo.com/seojj/259.html
版权声明:本文为原创文章,版权归 深圳胜达SEO 所有,欢迎分享本文,转载请保留出处!

发表评论


表情