wordpress怎样写robots.txt利于SEO优化

wordpress怎样写robots.txt利于SEO优化

技术应用 计算机技术 2年前 (2015-04-19) 浏览: 145 评论: 0

一般来说,我们希望搜索蜘蛛光顾我们的网站越多越好,我相信每个新手站长都会是站长工具的常客,一大早起来就是关注自己网站的收录量.收录量的增长是一张晴雨表,升则忧、降则喜,我想告诉广大的站长朋友这完全没有必要,收录量不是目的,我觉得我们关注的重点应该是怎样让自己的网站拥有更多的百度搜索流量。 robots.txt是搜索引擎爬行网站的控制文件,按照一定的语法告诉搜索引擎哪些网页能爬,哪些不能爬,对于robots.txtd的介绍和书写语法,你可以参考这篇博文:网络蜘蛛访问控制文件robot.txt的写法 。 可能你想说,收录量不是越多越好吗? 其实不然,网站的网页不是收录越多越好,大家都知道搜索引擎比较网络上的网页相似度(相似度太高的两个页面会分散权重)的时候,不仅仅会进行不同网站间的纵向比较,而且会进行同一网站不同页面间的比较,所以,比如对于个人博客的作者归档和首页,页面内容差不多一样,我们完全可以屏蔽蜘蛛访问作者归档的页面。下面我来详细地介绍一下wordpress怎样写robots.txt利于SEO优化。 wordpress怎样写robots.txt利于SEO优化   一、屏蔽没有必要收录的一些链接 1、屏蔽捉取站内搜索结果 Disallow: ?s=* 这个就不用解释了,屏蔽捉取站内搜索结果。站内没出现这些链接不代表站外没有,如果收录了会造成和TAG等页面的内容相近。 2、屏蔽spider捉取程序文件 Disallow: /wp-*/ 屏蔽spider捉取程序文件,wp-*表示wp-admin,wp-include等文件夹都不让搜索蜘蛛爬行,这节约了搜索引擎蜘蛛资源。 3、屏蔽feed Disallow: /feed/*  Disallow: /*/*/feed/* Disallow: /*/*/*/feed/* 头部代码里的feed链接主要是提示浏览器用户可以订阅本站,而一般的站点都有RSS输出和网站地图,故屏蔽搜索引擎抓取这些链接,相当有必要,应为feed里面的内容基本就是你文章内容的重复,相同内容会让百度降低单页面权重,同时这也节约蜘蛛资源和服务器的压力。 4、屏蔽捉取留言信息链接 Disallow:/*?replytocom* Disallow: /comments/ Disallow: /*/comments/ 屏蔽留言信息链接。需要指出的是,屏蔽留言信息链接不是说不让蜘蛛收录你文章的评论页面,而是这样的链接打开后,整个页面就只有一个评论,完全没有被收录的必要,同时也节约蜘蛛资源,故屏蔽之。 5、屏蔽其他的一些链接,避免造成重复内容和隐私问题 Disallow: /date/   Disallow: /author/   Disallow: /category/   Disallow: /?p=*&preview=true   Disallow: /?page_id=*&preview=true   Disallow: /wp-login.php 这些屏蔽规则你可以根据自己的需求决定是否创建,屏蔽data、author、category等页面都是为了避免太多重复内容, 6、Disallow: /?p=* 屏蔽捉取短链接。默认头部里的短链接,百度等搜索引擎蜘蛛会试图捉取,虽然最终短链接会301重定向到固定链接,但这样依然造成蜘蛛资源的浪费。 7.屏蔽特定格式 Disallow: /*.js$ Disallow: /*.css$ 屏蔽对js、css格式文件的抓取,节约蜘蛛资源,降低服务器压力,你可以根据实际要求是否屏蔽你的图片被抓取。 8.其它不想被抓取的页面 Disallow: /*?connect=* Disallow: /kod/* Disallow: /api/* /*?connect=*:我的博客登录链接 /kod/*:在线文件管理链接 /api/*:我自制的API链接 二、使用robots.txt需要注意的几点地方: 1、有独立User-agent的规则,会排除在通配“*”User agent的规则之外; 2、指令区分大小写,忽略未知指令,下图是本博客的robots.txt文件在Google管理员工具里的测试结果; 3、“#”号后的字符参数会被忽略; 4、可以写入sitemap文件的链接,方便搜索引擎蜘蛛爬行整站内容。 5、每一行代表一个指令,空白和隔行会被忽略; 6、尽量少用Allow指令,因为不同的搜索引擎对不同位置的Allow指令会有不同看待。 上面的这些Disallow指令都不是强制要求的,可以按需写入。也建议站点开通百度站长工具,检查站点的robots.txt是否规范。 三、百度站长工具robots.txt工具的使用方法 百度站长工具robots.txt工具网址:http://zhanzhang.baidu.com/robots/index     检测并更新:在文本框里输入网站点击检测并更新,百度将抓取你的robots.txt文件,如果你近期robots.txt最近有更新,这将马上通知百度搜索蜘蛛更新它的爬行规则,使你修改后的robots.txt马上生效。 规则校验:你可以提取自己的robots.txt,然后验证一下你的robots.txt语法是否正确,检验你想要禁止蜘蛛爬行的网址是否能有效屏蔽; 创建生成:根据你的需求,傻瓜式地生成robots.txt,对于站长小白不妨一试。 附录 王柏元的博客robots.txt分享如下:  

网络蜘蛛访问控制文件robot.txt的写法

网络蜘蛛访问控制文件robot.txt的写法

算法语言 3年前 (2015-03-14) 浏览: 236 评论: 0

虽然说对于广大站长来说,我们可能希望搜索引擎收录我们的网页越多越好,但是有的时候我们并不希望搜索引擎收录我们的一些网页,比如后台登陆页面,密码保护页面,私密页面。搜索引擎网络爬虫,我们常常把它称为搜索“蜘蛛”,因为这些“蜘蛛”沿着网络上的链接爬行可谓无网不入,曾经笔者甚至无语的发现,谷歌图片的搜索蜘蛛连我的个人用户头像都收录,这种殷勤令我哭笑不得。 所以网站的根目录常常有一个叫“robot.txt”的文件,robot是英语“机器人”的意思,你可以理解为网络机器人,也就是搜索蜘蛛,通过这个文件中的文本来告诉搜索引擎,哪个目录,哪个页面或者什么格式的图片不想被收录。 先给大家讲几个例子: 第一行:“#禁止admin页面” 第一个字符“#”,表示注释,可以随意写不对蜘蛛爬行产生任何效果,主要的作用就是提醒自己接下来一段代码是什么目的。 第二行代码:“user-agent:* user-agent汉译为用户代理,你可能在网站日志里可以看到这个单词,手机浏览器的“UA标识”也是这个词,在robot.txt里你可以理解为“访问用户(搜索蜘蛛)的身份”。 常见的搜索蜘蛛标识有: 1.谷歌Google蜘蛛 Googlebot Googlebot-Mobile Googlebot-Image Mediapartners-Google Adsbot-Google 2.百度(Baidu)蜘蛛 Baiduspider 3.雅虎(Yahoo)蜘蛛 Yahoo!+Slurp Yahoo!+Slurp+China:雅虎中国蜘蛛 4.有道(Yodao)蜘蛛 YodaoBot YoudaoBot YodaoBot-Image 5.搜搜(Soso)蜘蛛 Sosospider Sosoimagespider 6.微软(Bing和MSN)蜘蛛 bingbot msnbot msnbot-media 7.搜狗(Sogou)蜘蛛 Sogou Web Sprider Sogou Orion spider Sogou-Test-Spider “user-agent:*”其中“*”是通配符,表示“所有”,意思就是要告诉所有的搜索引擎“:你们要注意了!下面就是我要告诉你们的内容!”,“user-agent:*”下面的代码对所有蜘蛛都有效;如果是”user-agent:Baiduspider “在段落头,表示下面这段代码是对百度蜘蛛说的,其他蜘蛛不受下面代码控制。 第三行代码:“Disallow:/admin/” disallow,是”不允许“之意,表示”你的网站地址/admin“这个目录下的网页不允许蜘蛛访问抓取, 例如我还可以不想让搜索引擎收录我网站的bbs目录,那我就可以写成“Disallow:/bbs/”,如果是多个目录,一个目录写一行,下一个目录换一行写,以此类推就可以了。如果你整个网站都不让抓取,比如你的网站正在调试内测时,可以写”disallow:*“;另外,”disallow:/wp*“表示包括”wp-content、wp-include“等网站根目录下以wp为前缀的目录都禁止蜘蛛爬行。 第四行代码:“Disallow:/*.jpg$” 这行代码就是要告诉搜索引擎,我不需要你收录以.jpg结尾的所有图片文件。例如我还可以不想让搜索引擎收录我网站的.png格式的图片,那我就可以写成“Disallow:/*.png$”如果是多个文件格式,一个文件格式写一行,下一个文件格式换一行写,以此类推就可以了。 总结 1.写完之后你就可以把他保存成名为”robot.txt“(文件名必须如此)的文件,用FTP上传到你网站的根目录就可以了! 2.网站的网页不是收录越多越好,大家都知道搜索引擎比较网络上的网页相似度(相似度太高的两个页面会分散权重)的时候,不仅仅会进行不同网站间的纵向比较,而且会进行同一网站不同页面间的比较,所以,比如对于个人博客的作者归档和首页,页面内容差不多一样,我们完全可以屏蔽蜘蛛访问作者归档的页面。当然,你可以酌情控制你的日期归档、目录归档是否让搜索蜘蛛抓取。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

切换登录

注册