Robots一般由三个段和两个符号组成,看个人需求写规则。更好是按照从上往下的顺序编写(由实践证明这顺序影响不大)。
Robots简单来说就是搜索引擎和我们网站之间的一个协议,用于定义搜索引擎抓取和禁止的协议。robots基本语法符号:/ 、* 、/ 在允许和禁止的文件和文件夹前写;通配符,能够匹配所有的英文字符包括数字0;表示结束符,用于屏蔽图片时候用。具体的操作过程以及写法注意事项如图。如果不清楚可以直接关注。
Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。下面是Robots文件写法及文件用法。
robots协议命名为robots.txt,放在网站的根目录下。 简单的robots协议如下:其中 User-agent 代表要遵守该协议的搜索引擎,如果是通配符‘*’,代表所有搜索引擎都要遵守该协议。
/ 在允许和禁止的文件和文件夹前写;通配符,能够匹配所有的英文字符包括数字0;表示结束符,用于屏蔽图片时候用。
放置位置与语法规则 robots文件必须存放在网站根目录下,如域名/robots.txt,可以验证其存在性。其内容包括user-agent指令来指定搜索引擎,以及Disallow指令定义爬虫的访问限制。例如,User-agent: *表示所有搜索引擎都将遵循协议,而Disallow: /?s*则阻止包含“/?s”路径的页面爬取。
举个例子,如果新网站有一些动态生成的页面,这些页面可能对搜索引擎不太友好,我们可以在robots文件中添加相应的规则,禁止搜索引擎访问这些页面。另外,如果新网站有一些私密内容或会员专区,我们也可以通过robots文件限制搜索引擎的访问权限,以保护用户隐私和权益。
robots.txt 文件应该放置在网站根目录下(/robots.txt)。举例来说,当spider访问一个网站(比如http://)时,首先会检查该网站中是否存在robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件内容的规则,来确定它访问权限的范围。
一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会 按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站 上所有没有被口令保护的页面。
robots文件主要的作用就是阻止蜘蛛抓取你不想让他抓取的文件。更好还是要一个,比如网站后台等一些文件 想要不被他他抓取,robots文件就能起到作用了。
网站必须要有一个robot.txt文件。文件名是小写字母。当需要完全屏蔽文件时,需要配合meta的robots属性。robots.txt的基本语法 内容项的基本格式:键: 值对。1) User-Agent键 后面的内容对应的是各个具体的搜索引擎爬行器的名称。如百度是Baiduspider,谷歌是Googlebot。
如果是谷歌的话,反应很快的;如果是百度,就算你加上也有可能收录,而且去掉速度也很慢,我的情侣seo博客就是很好的例子。要拦截整个网站,请使用正斜线。Disallow: /要拦截某一目录以及其中的所有内容,请在目录名后添加正斜线。
一般博客的robots.txt指令设置都是面对所有spider程序,用通配符“*”即可。如果有独立User-agent的指令规则,尽量放在通配“*”User agent规则的上方。Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ 屏蔽spider捉取程序文件,同时也节约了搜索引擎蜘蛛资源。
延伸:做好各类型的网站地图之后,之一个要先写进robots文件中(提交后到百度站长后台更新robots文件),第二个要到百度站长后台提交网站地图的URL。 ?图片优化:属性符合图片内容;尽量加关键词;不要刻意堆砌关键词;同一页面的alt属性不要相同;给图片指定规格大小;压缩图片体积;如果是模板网站,尽量修改掉原图片名字。
网站改版或URL重写优化时原来不符合搜索引擎友好的链接需要全部屏蔽掉。采用robots.txt文件删除旧的链接符合搜索引擎友好。一些没有关键词的页面,比如本站的这个页面,屏蔽掉更好。一般情况下,站内的搜索结果页面屏蔽掉更好。