Stemap 文件在网站优化中起着非常重要的作用,通过它可以非常轻松的将网站内所有链接提交至搜索引擎,以助于搜索引擎可以跳过页面爬取即可获取到当前网站的所有链接,以此来提升网站收录速度和收录率。
但是,不要以为网站含有 sitemap 文件就可以放松了,也许你的 sitemap 可能是不完全甚至存在错误。本文白天就来着重讲讲 sitema 的作用以及正确的 sitemap 结构应该包含哪些内容。
sitemap.xml 的作用
如本文开头所述那样,sitemap.xml 由于列举了当前网站上各网页的列表,可以帮助搜索引擎快速廖娟网站上所有的网页,而且还可以通过 sitemap.xml 上的其他结构来告诉搜索引擎当前网站的上次更新日期、Sitemap文件的更新频率、抓取优先级等信息。
注:sitemap.xml 文件与网站排名没有关系,只对搜索引擎快速抓取网站链接起到帮助。
当然,理想状态下,网站的 sitemap 文件可以给网站抓取上带来帮助,但白天也见到很多网站的 sitemap 是存在一定的错误的。
sitemap 格式推荐
以百度搜索引擎举例,百度支持sitemap的文件格式有: txt文本格式、 xml格式、html格式。
以上三种格式,白天推荐的使用排序:xml格式 > html格式 > txt文本格式。
因为 xml格式更重要,白天也就来详细说明 xml格式的结构。如下图所示:
单个xml数据格式如下:
<?xml version="1.0" encoding="utf-8"?>
<!-- XML文件需以utf-8编码-->
<urlset>
<!--必填标签-->
<url>
<!--必填标签,这是具体某一个链接的定义入口,每一条数据都要用<url>和</url>包含在里面,这是必须的 -->
<loc>http://www.yoursite.com/yoursite.html</loc>
<!--必填,URL链接地址,长度不得超过256字节-->
<lastmod>2009-12-14</lastmod>
<!--可以不提交该标签,用来指定该链接的最后更新时间-->
<changefreq>daily</changefreq>
<!--可以不提交该标签,用这个标签告诉此链接可能会出现的更新频率 -->
<priority>0.8</priority>
<!--可以不提交该标签,用来指定此链接相对于其他链接的优先权比值,此值定于0.0-1.0之间-->
</url>
<url>
<loc>http://www.yoursite.com/yoursite2.html</loc>
<lastmod>2010-05-01</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
注:若有多条url,按照上述格式重复<url></url>之间的片断
在xml格式的sitemap文件中,包含 URL、链接的最后更新时间、链接可能会出现的更新频率、链接相对于其他链接的优先权比值等四项。
毋庸置疑,URL 是必填项,其余三项都是可选项,虽说是可选项,但意义非常重要,白天认为是必须要有的,而且还要起到其该有的价值。
最后更新时间
搜索引擎可以通过这个时间来快速抓取到近期有改动的网页有哪些,通过与之前的索引数据对比即可起到快速更新的作用。而如果没有上次改变时间,则搜索引擎只能通过抓取或者其他途经来了解网站改动内容吗,与在sitemap文件相比,肯定是 sitemap 文件里声明修改时间更有效。
举个例子,最近白天博客一些供下载的页面因下载链接错误无法提供用户下载,导致排名下降。而通过 sitemap 的 最后更新时间 标记即可及时告诉这些错误页面已经整改完。
更新频率
通过该标记,可以告诉搜索引擎当前网站各链接可能更新的周期频率,通常首页使用daily,文章详情页使用monthly,列表页使用weekly。
优先权比值
通过该标记,可以告诉搜索引擎当前网站各链接的优先抓取比重,此值定于0.0-1.0之间,通常首页为1(100%),文章优先权比重为60%,列表页30%。
sitemap文件其他需要注意的问题
- 一个Sitemap文件包含的网址不得超过 5 万个,且文件大小不得超过 10 MB。如果您的Sitemap超过了这些限值,请将其拆分为几个小的Sitemap。这些限制条件有助于确保您的网络服务器不会因提供大文件而超载。
- 一个站点支持提交的sitemap文件个数必须小于5万个,多于5万个后会不再处理,并显示“链接数超”的提示。
- 值得注意的,一些 cms 自带生成 sitemap 文件插件虽然在格式上没有错误,但在上次更新时间(last change)这一项上没有标明实际的更新时间而全是sitemap文件生成的时间,这样的错误比不含有这一项还严重… 你细品
过去的今天:
- 2021: 织梦cms后台自定义表单添加全选/全不选功能按钮(0)
原创文章,作者:白天,如若转载请注明出处:Sitemap 文件的作用及结构推荐