写于 2018-11-19 04:14:01| 奇幻城国际唯一官网| 奇幻城国际官网
<p>我最近开始帮助一个受到5月17日算法更新​​负面影响的网站</p><p>该网站长时间在质量灰色区域上冲浪,随着一些质量更新激增,有时会下降所以我开始通过爬行分析挖掘网站审核一旦我开始分析网站,我发现在谷歌搜索控制台(GSC)的抓取统计报告中抓取了几个奇怪的峰值例如,谷歌每天通常会抓取大约3,000页,但前两个峰值跳跃到了近20,000还有两个超过11,000不用多说,我有兴趣找出为什么那些尖峰发生在网站上是否有技术性的SEO问题</p><p>是否存在导致峰值的外部因素</p><p>或者这是Googlebot的异常</p><p>我很快就向我的客户询问了我看到的内容我问我的客户他们是否根据我的建议实施了任何大规模的更改,这些更改可能会引发爬行的峰值他们还没有记住,我刚刚开始帮助他们此外,我刚刚完成了两次大规模的网站抓取,并没有看到任何奇怪的技术搜索引擎优化问题可能导致Googlebot抓取许多其他页面或资源:编码故障可能导致谷歌抓取许多近乎重复页面,拙劣的分页,分面导航等等我在网站上没有发现任何这些问题(至少基于第一组抓取)现在,值得注意的是,Google可以在看到大规模更改时增加抓取一个网站 - 例如,网站迁移,重新设计或网站上更改的许多网址Google网站管理员趋势分析师John Mueller已经多次解释过这个图片显示的内容如下所示网站我正在帮助进行https迁移(不是我在这篇文章中介绍的网站)注意在迁移发生后立即爬行的飙升这是完全正常的:但这不是在这种情况下发生的事情没有大规模的变化在网站上查看情况后,我的决定很明确:释放日志文件!日志文件包含站点活动的原始数据,包括来自用户和搜索引擎机器人的访问使用日志,您可以深入了解每次访问和事件,以查看正在爬网的页面和资源,返回的响应代码,引用,IP地址等等考虑到爬行的高峰,我很想看一看如果你从未处理过日志文件,你应该知道它们会变得非常大</p><p>例如,看到文件大小为数百兆字节的日志文件并不罕见(或者对于高容量网站来说更大一些)这是我正在使用的日志文件之一它是696MB我的下一步是启动我最喜欢的日志分析应用程序,Screaming Frog Log Analyzer(SFLA)大多数人都知道Screaming Frog Spider,这对于爬行网站来说真棒,但有些人仍然不知道Dan Sharp和他的两栖SEO人员也创建了一个杀手级日志分析器我启动了SFLA并导入了日志我的客户端发送给我的日志文件从前几天开始每个spik在他们为我在Google Search Console(GSC)的抓取统计报告中看到的每个峰值执行此操作之后的几天现在是时候挖掘我将日志文件拖到SFLA并耐心地等待他们导入休斯顿,我们有一个问题......在分析第一组日志文件时,SFLA中的仪表板讲述了一个有趣的故事响应代码图表显示了Googlebot遇到的404s中的巨大峰值这看起来是问题我注意到数千个导致奇怪的事件看起来像包含视频的拙劣网页的网址,以及我的客户网站中没有包含其中一个网址这段时间内404大部分内容都是由于奇怪的网址造成的但是有些内容对于某些“Googlebot”活动看起来并不正确关于下一步的更多信息我总是在他们挖掘他们的日志文件之前警告他们他们可能会看到一些令人不安的事情记住,日志包含网站上的所有事件,包括所有机器人活动</p><p>遗憾的是,这并不罕见</p><p>许多机器人抓取网站以获取英特尔...或者出于更多的邪恶原因例如,您可能会看到爬虫试图了解有关您网站的更多信息(通常来自竞争对手)您还可以看到黑客攻击尝试例如,来自随机IP地址的事件锤击您的WordPress登录页面 当你第一次发现它时,你可能看起来像这样:所以,这是我在“Googlebot”中浮现的404s中的尖峰,我很快就注意到了许多欺骗性的Googlebot事件(来自几个不同的IP地址)Screaming Frog Log Analyzer有一个漂亮的“验证机器人”功能,我充分利用了这一点很有趣,知道真正的Googlebot在这个时间框架内飙升(通过GSC报告),而欺骗性的Googlebot也在此期间敲击了网站但是我找不到任何经过验证的网站Googlebot在日志文件中飙升所以我们收集并研究了一些不良演员的IP - 并且发现它们不是来自Google我的客户现在正在处理这些IP这是一件很聪明的事情,特别是如果你看到来自特定IP的回访欺骗Googlebot我们经历了第二次加标的过程</p><p>这是一个很好的例子,可以解除发动机罩并在发动机中发现一些疯狂的问题(或者将燃料添加到发动机中)可以关闭引擎盖,发誓永远不会再看,或者你可以长期解决问题扫地毯下的问题从来都不是解决方案在分析前两个尖峰后,我仍然没有看到任何验证Googlebot问题(我指的是谷歌实际抓取网站而不是欺骗Googlebot的不同抓取工具)因此,GSC中的抓取统计数据确实飙升,但服务器日志显示Googlebot正常活动正是这种欺骗性Googlebot似乎造成了问题请查看以下经过验证的Googlebot活动与欺骗活动:我们一直在检查GSC中的抓取统计信息,以便监控情况(对于真正的Googlebot)抓取统计数据恢复正常一段时间,但第三次和第四次飙升(正如我在上面分享的第一个屏幕截图中看到的那样</p><p>最新的峰值超过11,000页爬行检查日志显示网站上不存在的许多URL(但不是视频U)来自早期的RL)这些都是由Googlebot访问(验证)我很高兴看到我们终于发现了一些真正的Googlebot问题(而不仅仅是欺骗Googlebot问题)这些网址看起来完全拙劣,有时甚至是数百个字符看起来就像一个编码故障,一直向链接的每个URL附加更多的字符和目录我将信息发送给我的客户,他们将信息转发给他们的首席开发人员他们最初不知道谷歌会在哪里找到这些网址我会接下来要清楚,404页面不是问题,如果页面实际应该是404,Google的John Mueller已经多次解释过404在网络上是完全自然的,并且它们不影响网站的质量这里是John Mueller的视频解释这一点:这里有一个谷歌关于Googlebot如何在网站上遇到404s的页面:话虽如此,机器人和人们都可以访问导致404s的链接,所以可能会对可用性和性能产生影响正如Mueller在视频中解释的那样,“它可以使爬行变得有点棘手”因此,你绝对应该仔细检查404并确保它们确实应该返回404但是只有404s不会意味着你的网站将从排名的角度来看,受到下一个主要算法更新的影响等等</p><p>重要的是要知道并说明显而易见的任何404将从Google的索引中删除的页面因此该页面无法对查询进行排名曾经排名已经过去了,它正在开车的流量也是如此,所以再次确定页面404,应该是404例如,想象一下像下面那样的高容量页面突然404s(错误地)随着URL的下降在该指数之外,该网站将失去该网页的所有排名,包括流量,广告展示次数等</p><p>谷歌还在网站管理员中心博客上写了一篇关于404的文章,以及他们是否会伤害您的网站穆勒的评论,支持t doc和博客文章,你可以放心,404单独不会导致质量问题但是,重要的是要确保阴险的,欺骗性的Googlebots不会锤击你的服务器试图影响正常运行时间(和SEO长期)我我的客户问我的网站是否看到了基于我们看到的抓取峰值的任何性能问题,很高兴听到他们没有看到任何问题该网站运行在功能非常强大的服务器上甚至没有击球“Googlebot”在爬行时飙升的眼睛 在分析了抓取这些长网址的高峰后,我可以看到损坏的网址和一些JavaScript文件之间存在关联,我相信Google会根据JavaScript代码找到网址(或形成网址)您会注意到谷歌提到了在上面列出的支持文档中发生这种情况的可能性因此,如果您看到Google抓取的网址不在您的网站上,那么Googlebot可能会通过JavaScript或其他嵌入内容查找这些网址这也很重要知道正如我所说早些时候,挖掘服务器日志既有益又令人不安一方面,你可以发现Googlebot遇到的问题,然后解决这些问题另一方面,你可以看到邪恶的东西,比如黑客攻击,欺骗的Googlebots爬行你的网站获取英特尔,或其他企图锤击服务器以下是我们通过这个练习学到的一些事情:当你分解时,网站所有者真的不知道关于在他们分析服务器日志之前抓取他们的网站的人或者什么的故事Google Analytics将不会提供这些数据您必须深入了解日志以便访问您的网站表面机器人所以,如果您发现爬行时出现高峰,那么想知道发生了什么,不要忘记你的日志!它们可以成为一个宝贵的数据来源,可以帮助揭开SEO的神秘面纱(也可能是需要解决的险恶问题)</p><p>不要害怕深入挖掘寻找答案只要记住你可能需要支撑自己本文所表达的意见是客座作者的那些,