新站上线后一段时间,很多小伙伴会在站长工具后台发现一些页面被放到了已抓取 – 尚未编入索引(Crawled – Currently Not Indexed)报告中。
点开报告以后,发现报告任何解释。一些小伙伴可能就会一头雾水了:“谷歌明明抓取了我的页面,为什么就是不收录呢?”今天知航就针对这个问题讲讲解决方案。
目录
“已抓取 – 尚未编入索引”是什么意思?
学过搜索引擎原理的小伙伴都知道谷歌排名大致可以分为四步:发现(Dicovery) – 抓取(Crawling) – 索引/收录(Indexation)- 排名 (Ranking)。而“已抓取 – 尚未编入索引”表示页面在被抓取和收录的过程中遇到了一些麻烦。
根据谷歌官方文件,“已抓取 – 尚未编入索引”可以理解为谷歌爬虫已经访问并抓取了你网站上的某些页面,但这些页面目前还没有被谷歌收录(有可能未来也不会收录)。
让我们来拆解一下其中的意义:
- 谷歌爬虫能够访问该页面
- 谷歌已经爬取过该页面
- 经过爬行,谷歌决定暂时不收录该页面
注意,这里的关键点是谷歌已经访问并爬行过该页面了,但因为某些原因没把它放入索引中。接下来我们就需要一步步排查可能的原因了:
第一步:使用URL检查工具
首先我们需要明白,谷歌站长工具的报告也会有延迟,也许你的页面已经被收录了,但是它还显示在”为什么页面不收录”的报告中。
为了排除报告延迟的问题,我们只需要用“URL检查工具”(URL Inspection Tool)检查一下收录状态就可以了:
第二步:根据常见原因分析
排除页面已经被收录后,我们就需要逐一分析原因了。虽说每个网站不收录的原因都需要具体问题具体分析,但“已抓取 – 尚未编入索引”的常见原因就那么几个:
- 低质量内容
- 重复内容
- 内链结构差
- 域名权重低
- 301重定向
OK,让我们来理解一下这几个方面,然后逐一去排查常见问题:
a.低质量内容
我们需要明白,即使是再大的网站,谷歌也不可能去收录所有页面。因为网站上总有页面是不能提供太多价值的,比如字数过少、内容重复率高或者缺乏有价值信息。
在浏览器中打开网址,如果咱们检查的页面对网站很重要,并且你发现它内容质量确实不高,那么就需要去丰富内容或者改进内容质量。
一般这种页面容易出现在电商网站上,往往这些页面只有一两张图片和产品加购按钮,几乎没有文字信息:
那么什么样的内容属于高质量内容呢?有兴趣的小伙伴可以读一下George的SEO内容优化和产品页优化终极指南。
b.重复内容
我们知道谷歌每日对网站页面的爬行数是有限额的,这个额度叫做抓取预算(Crawl Budget)。
如果谷歌每天都花大量时间爬行重复页面,那么就会因为有限的抓取预算而影响对重要页面的爬行。
爬取预算的问题对小型网站可能不是大问题,但对一个中大型电商网站(10000以上页面数)来说,抓取预算的有效分配就格外重要。
如果我们在“已抓取 – 尚未编入索引”报告中发现大量的动态参数,点开网页后发现都是重复内容,那么有可能遇到了“蜘蛛陷阱”问题。
另外这种蜘蛛陷阱问题也很容易出现在电商网站上。很多产品页为了筛选款式和色号用了动态参数,不同动态参数的叠加会产生大量重复页面:
假设有一件产品有12种尺寸、10种颜色、30种价格,那么叠加的动态参数会产生12*10*30=3600个URL,也就是3600个重复页面。
那么我们在“已抓取 – 尚未编入索引”中遇到动态参数导致的重复内容该怎么处理呢:
- 使用Canonical标签:Canonical标签可以搜索引擎明白哪个页面才是所有重复页面的规范版本;
- 内链:确保站内所有的链接入口都指向规范页面;
- 站点地图优化:站点地图只包含规范版本的URL;
- 使用robots.txt文件屏蔽对动态页面的抓取;
- 使用Ajax或其他技术,通过局部刷新页面来过滤产品型号,不产生新的URL(可选项)
c.内链结构不佳
良好的网站结构也可以让你的网站最大程度上实现收录。一般树形结构、点击深度保持在三次以内、无孤立页面的网站结构是良好的。
如果一个页面没有获得足够的内链,甚至唯一被发现的方式就是通过站点地图,那即使这个页面的内容很优质,谷歌也很有可能会轻视它,优先收录别的内容。
George一般会用ScreamingFrog爬行网站,再把谷歌站长工具报告里的网址放进去检查链向该页面的链接(Inlinks)、来源页面 (From)以及锚文本 (Anchor Text):
如果碰到孤立页面,一般我还会去谷歌里搜site:https://example.com “关键词”来发现链接机会:
d.网站权重低
这个还是比较好理解的,网站权重高,在谷歌眼里的可信度就越高。自然页面被抓取和收录的优先级会高。对于一个低权重的新站,谷歌的抓取和收录频率自然就低了。
如何检测权重?
想要准确地知道网站域名权重,最好的方法是安装MozBar的谷歌插件,打开网站,点击右上角MozBar的Chrome插件,网页上就会显示该网站的DA了:
如何提升权重?
一般新站的域名权重是比较低的,很多全新的域名DA甚至为1,这对页面收录是不友好的。那如何提升权重呢:
1. 购买一个老域名:
George最近接了一个新项目,公司直接买了老域名,DA已经有15了,显然这种网站在页面收录上会比较有优势。
2. 做优质的外部链接:
新站的外链建设需要同时兼顾质量和速率。英国SEO专家Joshua建议不要在新站上线前几个月建设过多的外链。因为这样不太自然。
谷歌可能会觉得:一个新站怎么会短时间获得如此多的外部链接呢?这些外链可能不是自然获得的吧?然后短时间内网站自然流量可能会受到影响。
当然,只要你的外链质量和相关性比较高,后面还是能获得谷歌的信任,流量会回到比较好的水平。
新站外链建设速率可以参考如下(以下为引荐域名数):
- 第一个月:1-5条到主页,锚文本为品牌词
- 第二个月:5-10条到主页和内页;
- 第三个月:5-10条到主页和内页;
- 第四个月:15-20条,主要到内页;
- 第五个月:20-25条,一半到主页,一半到内页;
- 第六个月:25-30条,主要集中于目标页面;
- 超过半年:35+
3. 为低权重内页做内链
打开“已收录-尚未编入索引”的URL,如果发现是网站内较深的内页,且页面权重(PA)比较低,可以通过添加内链的方式帮助链接汁的流动,提升页面权重。
e.301重定向
如果网站短时间内做了较多的301重定向,301后URL(Redirect URL)可能也会显示在“已发现-尚未编入索引”的报告里。
在谷歌里搜索相关关键词,我们发现SERP里实际收录的页面为301前URL(Source URL)。
这种情况可能的原因是谷歌没能及时辨别出301重定向,把这两个页面当作重复页面处理了,故不收录重定向后的页面。
根据John Muller建议,比较好的解决方式是提交一份临时站点地图,在里面列出301前URL和上次更新时间<lastmod>。
这样谷歌会重新抓取这些URL,发现这些它们的301状态码从而主动收录301后URL。具体的操作是:
- 从站长工具导出“已抓取-尚未编入索引”报告;
- 用ScreamingFrog找出网站内所有的301前和301后的URL,导出Excel报告;
- 将两份报告进行匹配,找出与未收录URL相关的301前URL;
- 用ScreamingFrog为这些301前的URL做一份临时站点地图,提交站长工具;
- 等谷歌收录正确URL后,再把临时站点地图移除。
总结
在GSC的收录报告中,“已抓取-尚未编入索引”的处理优先级是比较高的。因为谷歌已经抓取了你的网页,但是因为某种“神秘力量”,你的网页并没有被加入索引。
希望George的这篇谷歌收录教程能帮助各位小伙伴理解页面被抓取却不收录的主要原因,找出症节,对症下药,为独立站前期优化打下良好基础。
1 comment
大部分网站都会出现这个,我现在都懒得去处理了