主页 » 站内SEO » 技术SEO » Sitemap是什么?如何创建WordPress站点地图?

Sitemap是什么?如何创建WordPress站点地图?

by 知航 George Han
10 minutes read
什么是站点地图

之前George在“搜索引擎原理”这篇文章里已经说过,技术SEO(Technical SEO)需要解决的主要问题是搜索引擎的爬行和收录。对于新网站或者内链结构不是很清晰的网站,创建并提交sitemap其实是不错的选择,这会帮助网站重要页面尽快被发现和收录。这篇文章主要介绍了不同种类的sitemap,如何优化sitemap,以及如何创建和提交sitemap。

什么是sitemap站点地图?

Sitemap中文名就是我们常说的站点地图/网站地图。这是一种由谷歌发起的,关于网页链接的集合。通过在Google Search Console上提交sitemap, 站长可以列出所有重要的URL,便于搜索引擎爬虫抓取。

一般而言,即使你不提交站点地图,搜索引擎仍然能收录你的网站页面。但是提交了站点地图,搜索引擎爬虫能更快地发现你的页面,从而加快收录的速度。

推荐阅读:

为什么需要Sitemap站点地图?

  • 对页面数量较多的网站来说,sitemap可以让搜索引擎更容易发现页面 (新创建的页面 or 内容更新的页面)。
  • 一些网站没有很好的内链结构(孤立页面较多 or 重要页面的内链较少)。对这种情况,提交站点地图,通知爬虫网站页面的更新是个简便可行的方法。
  • 对没有什么外链的新网站,提交站点地图也是增加页面收录机会的好方法。

George最近为一家跨境电商网站新建了一个WordPress博客,外观还算不错,也撰写了4篇英文博客。网站的DA(权重)很不错,超过了30。照理说,这些新博客能很快就能被收录。但事与愿违,过了一星期文章也没被收录。于是George便想着上传站点地图,结果4篇文章很快就被收录了,并获得了很好的排名。

Sitemap站点地图有哪几种格式?

Sitemap主要有.xml、.txt、.html三种格式。其中xml是目前最主流的格式。txt格式的站点地图只能包含url,不能记录其他信息,还不能自动更新,已经基本被淘汰。html站点地图还是在发挥作用。对于中大型网站,html格式的站点地图一般可以放在网站底部里作为导航,列出网站产品、服务等重要页面,帮助用户了解网站架构,提升用户体验。为了SEO效果最大化,George选择了同时使用xml和html的站点地图:

HTML Sitemap

XML站点地图 (XML Sitemap)

XML站点地图以xml格式编写。除了url,XML站点地图还包含了网站页面的详细信息(更新时间、频率、页面优先级等)。这有助于谷歌更好地理解和收录网站。目前WordPress等主流CMS都支持自动生成xml格式的站点地图。

和txt、html的站点地图不同,XML站点地图不是静态文件。每当网站更新时,站点地图也会自动更新,非常容易创建和维护。

George的这个谷歌SEO博客网站也提交了xml格式的站点地图索引文件(www.domian/sitemap_index.xml),里面包含了多个站点地图(www.domain/sitemap.xml):

XML Sitemap
XML站点地图

XML站点地图优化要点

WordPress生成的XML站点地图一般来说是不用太多优化的,但是要记住以下的优化要点:

  • Sitemap需要包含网站所有的重要页面/文章。重要页面指的是有高质量内容,能为用户带来价值的页面。
  • Sitemap需要排除有大量重复内容(Duplicate Content)的页面。对WordPress网站来说,可能包含大量重复内容页面包括:Tag页面,Archive页面,Author页面等等。因为这些页面出现过的内容,很有可能在别的分类里也会出现。
  • Sitemap需要排除缺乏内容(Thin Content)的页面。对于SEO来说,网站的收录数也不是越多一定就越好,而是收录的高质量页面越多越好。显然,缺乏内容的页面是典型的低质量页面(Low-value Page),我们应该当把它们从站点地图里移除。值得注意的是,如果你的网站一开始内容较少,可以将Category页面和Tag页面从XML站点地图里移除,因为一开始它们肯定是缺乏内容的,会给谷歌留下不太好的印象。可以等你内容丰富了,我们再在加到站点地图里去。
  • 使用多个sitemap,使网站有更清晰的分类结构,减少单个站点地图的体积,从而提升其加载速度。一个站点地图最多包含50,000个URL,大小不能超过50MB。如果你在WordPress上用Yoast插件生成的站点地图,你会发现单个站点地图的链接数目更是不超过1,000个,这也是为了提升爬虫处理sitemap的效率。对于如何拆分过大的站点地图,谷歌官方文件也给出了具体的操作方法:将体积较大的单个站点地图(domain/sitemap.xml) 拆分成多个站点地图并放入站点地图索引文件(domain/sitemap_index.xml)
使用站点地图索引文件管理站点地图
谷歌官方文件建议:使用站点地图索引文件管理站点地图
  • 用robots.txt文件指定sitemap。要让谷歌爬虫发现你的XML站点地图有两种方法:1.在Google Search Console上提交站点地图;2.用robots.txt文件指定站点地图。当然为了让你的sitemap更好地被爬虫发现,最好是两种方法都用了。
用robots.txt指定站点地图文件
robots.txt指定站点地图文件
  • Sitemap里要有<lastmod>元素(最近更新)
XML站点地图四大元素
XML站点地图四大元素:<loc>,<lastmod>,<changefreq>,<priority>

当你打开某个sitemap,你可以看到单个URL有四个组成部分,分别为:

  1. <loc>表示网页地址
  2. <lastmod> 表示本网页最近更新时间,时间格式必须使用ISO-8601格式
  3. <changefreq> 表示更新频率,可选的value从高到低分别为:always、hourly、daily、weekly、monthly、yearly、never。目前它的重要性已经减小,但仍可提供一些关于页面更新频率的信息。
  4. <priority>用来指定页面的优先级,可选范围为 0.0-1.0,一般来说首页为1.0,然后依次降低,目前搜索引擎已经基本不参考这个了。没有问题也不大。

以上几项是xml格式的sitemap常用的属性值,第一个<loc>是必须有的,<lastmod>修改时间也得有,这能够告诉搜索引擎该页面何时有了更新。第三第四则为可选项。值得一提的是,George发现有些网站是没有加<lastmod>的。这种情况下,当你的页面更新了,搜索引擎收录的可能还是旧的页面。比如你更新了标题,但你的站点地图没有<lastmod>元素,这可能不利于已收录页面标题的更新。

没有田间<lastmod>的站点地图
没有添加<lastmod>的站点地图
  • 其他需要注意的点有:站点地图里的URL需要返回200状态码,而不是经过跳转的(301/302),更不能是404; 另外URL不能是被robots.txt屏蔽的。

如何创建WordPress站点地图?

对于非WordPress搭建的网站,我们就需要用到sitemap生成器了。而目前WordPress是世界上最流行的CMS,对SEO也很友好,George想详细介绍如何创建WordPress站点地图。

创建WordPress站点地图,最便捷方法就是用插件了。著名的 SEO插件Yoast正好可以一键生成站点地图。你只要打开它的站点地图功能,设置想要加入的页面,移除不需要的页面,你就会获得一个SEO友好的XML站点地图,非常实用和方便。

  • 如何打开Yoast的站点地图功能:Yoast SEO – Settings – General – Site Features – XML sitemaps – 点击Enable Features
如何打开Yoast的站点地图功能
Yoast SEO – Settings – General – Site features
如何打开Yoast的站点地图功能-2
Enable featue
  • 从站点地图里移除不需要的内容/加入需要的内容: 选择特定的Content Types/ Categories & Tags/ Advanced – 具体页面 (X)- 点击或者取消Show X In Search Results
Show X In Search Results
Content Types/ Categories & Tags/ Advanced – 具体页面 – 点击或者取消Show X In Search Results

有很多人会在这里卡住,不清楚什么内容需要加到站点地图里,什么内容需要排除。一般来说,我们是要在站点地图里加入有价值的页面,移除缺乏内容(Thin Content)、价值不高 (Low Value)的、有重复内容(Duplicate Content)的页面。在这里George想分享一点经验只谈,对于新手,可以按以下方法操作:

1. Content Types:在大多数情况下,只需要保留Pages, Posts, Products页面 (Products一般是电商网站才有的)就可以了,移除其他的页面。

Content Types
Content Types一般只需允许Posts, Pages, Products出现在站点地图里

2. Categories & Tags:一般来说,只需要保留Posts Category和Product Category(一般电商网站才有),移除Tags页面或者其他有大量重复内容的页面。

Categories & tags
Categories & tags一般只需允许Categories出现在站点地图里

3. Advanced:一般来说,Advanced里的页面比如Author Archives, Date Archives都可以从站点地图里移除。因为它们价值不高,没必要展示在搜索结果页面,还可能造成重复内容的问题。

Advanced
Advanced里的页面一般不出现在站点地图里

4. 对于媒体页面(Media Pages),一般没必要将它展示在搜索结果页面。否则你会发现每张图片都会有独立的URL出现在站点地图中。我们肯定不希望谷歌收录单张图片。我们只要保证重要页面被收录,那些图片也自然而然被收录了。

关闭媒体页面

George试着允许media页面出现在站点地图中,结果站点地图出现了一个”attachment sitemap”,点开后发现每张图片都有独立的URL,并且每一张图片形成一个页面。显然这不是好事:

如果允许Media页面, 站点地图里会出现https://domain/attachment-sitemap
每张图片都会变成一个独立页面

如何提交XML站点地图?

之前提到过,为了让搜索引擎爬虫发现我们的XML站点地图,最好的方法是在robots.txt中指定站点地图,同时也要在Google Search Console提交。

提交XML站点地图的方法很简单:

进入站点地图-添加新的站点地图

结尾

关于网站的sitemap(站点地图),George就讲到这里了。这篇文章基本上把sitemap的作用、种类、创建以及优化的方法都详细地介绍了一遍,称得上是站点地图终极指南了。如果还有什么不是很清楚,可以在评论区留言。

Related Posts

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

我们使用Cookies来改善您的浏览体验。继续使用表示您同意我们的Cookies政策。 同意 了解更多

隐私与饼干政策