搜索引擎专利与熊猫

2023-12-26 35阅读

不如说是谷歌如何能够采用机器学习过程来处理决策树，PLANET白皮书描述了如何将以前被限制在一台计算机上的机器学习过程。

比尔·斯拉夫斯基是Seo by the Sea的总裁兼创始人，自1996年以来一直从事专业的SEO和互联网营销咨询。拥有特拉华大学英语文学学士学位和威德纳大学法学院法学博士学位，比尔在特拉华州最高级别的审判法院工作了14年，担任法院经理和行政人员，以及技术专家/管理分析师。在法院工作期间，比尔还开始构建和推广网页，并于2005年成为一名全职搜索引擎总监。比尔在许多网站上工作，从财富500强到小企业页面，他还在他的seobytheea.com博客上写关于搜索引擎专利的博客和白皮书。

熊猫最有可能使用的信号是什么？

埃里克·恩格：让我们谈谈可能在熊猫1、2、3、4、5、6、7及以后的专利中发挥作用的一些专利。我想听听你对用什么信号来衡量内容质量或用户参与度的看法。

比尔·斯拉夫斯基：我一直在寻找受熊猫影响的地点。我从一开始就做了补救的SEO。我浏览了这些网站，在它们中间爬行，在同一个域中寻找重复的内容问题，寻找不应该被索引的东西，并浏览了谷歌在他们的网站管理员工具区提供的基本列表。

在《连线》对阿米特·辛哈尔和马特·卡茨关于这一更新的采访中，他们提到了一位名叫熊猫的工程师。我在谷歌人写的论文清单上找到了他的名字，并通读了他的材料。我还发现了另外三个叫Panda的工具和系统工程师，以及另一个撰写信息检索和架构方面的文章的工程师。我得出的结论是，问题中的熊猫就是在《星球报》上工作的那个人(下面有更多关于这一点的报道)。

关于质量的信号，我们可以看看谷歌的问题清单。例如，你的网站读起来像杂志吗？人们会把信用卡托付给你吗？网站上有很多东西可以表明质量，使页面看起来更可信和值得信赖，并使搜索引擎相信它是由更有专业知识的人撰写的。

事物倾向于在页面上呈现的方式，例如显示八个块的页面，可能是也可能不是信号。如果我们看一看PLANET白皮书《大规模并行学习树集合与地图还原》，它的重点与其说是审查信号的质量，甚至用户的反馈，不如说是谷歌如何能够采用机器学习过程来处理决策树，并将其扩展到同时使用多台计算机。他们可以将许多东西放入内存中，并将一页与另一页进行比较，看看这些页上是否出现了某些特征和信号。

埃里克·恩格：因此，PLANET白皮书描述了如何将以前被限制在一台计算机上的机器学习过程，并将其放入分布式环境中，以获得显著更大的功率。这是一个公平的评估吗？

比尔·斯拉夫斯基：这将是一个公平的评估。它将使用谷歌的文件系统和谷歌的MapReduce.这将使他们能够将许多东西输入到内存中进行相互比较，并同时改变多个变量。例如，回归模型类型的方法。

在非常大的数据集上使用可能非常困难的东西，当它可以扩展时，就会变得容易得多。重要的是要考虑一下你的网页上显示的内容是质量的标志。

他们的方法可能是手动识别具有质量、内容质量、呈现方式等的页面，并将其用作机器学习过程的种子集。识别其他页面，以及它们在这些不同功能方面的排名情况，让我们更难明确确定搜索引擎在寻找哪些信号。

如果他们在Panda中遵循这种行星式的方法进行机器学习，那么可能还混杂着其他东西。很难说。谷歌可能并不完全使用这种方法。他们可能收紧了基于短语的索引，并以一种有助于对搜索结果进行排名和重新排名的方式使其变得更强大。

Panda可以是基于某种类型的质量信号分数来提升某些网站和降级其他网站的那些网站之上的过滤器。

看起来，熊猫是一种重新排名的方法。它并不能取代相关性和页面排名，以及我们已经习惯于从谷歌听到的200多个信号。它可以是基于某种类型的质量信号分数来提升某些网站和降级其他网站的那些网站之上的过滤器。

埃里克·恩格：这也是我的感觉。谷歌使用了术语分类器，所以你可以想象，在运行基本算法之前或之后，它类似于一个标度或一个向上或向下的因子。

比尔·斯拉夫斯基：正确的。看起来就是这样。

作为质量指标的页面功能

埃里克·恩格：你与我分享了另一份关于赞助搜索的白皮书。这份白皮书对熊猫有什么洞察力吗？《星球报》跟进了早先一篇关于赞助搜索的论文，该论文涵盖了对广告跳出率的预测。它根据登录页面上的功能查看了这些广告带给你的登录页面。

他们使用这种方法来识别这些功能，然后根据其功能集合确定哪些功能质量更高。然后，他们可以查看用户反馈，如弹跳率，以了解他们成功或失败的程度。这可能会导致衡量指标，如在折叠之上的页面上有广告的百分比。

比尔·斯拉夫斯基：现在你所说的是登陆页面，所以许多广告商可能会将某人引导到一个实际的页面，在那里他们可以进行交易。他们可能会把他们带到一个信息页面或信息轻页，可能不像对行动的呼吁那样关注SEO，使用不同的标识发出保证的信号，以及你将从安全统计机构获得的符号。

这组信号很可能与你在为公众或搜索引擎构建的页面上找到的不同。然而，如果你回到最初的星球页面，他们说，这是我们的概念证明，这是赞助搜索的事情。如果它与此配合使用，它就可以很好地与其他非常大的数据集一起工作，比如有机搜索。

埃里克·恩格：因此，你可以直接使用弹跳率作为排名信号，但当你有更新的信息来处理时，为什么不预测它呢？

比尔·斯拉夫斯基：正确的。如果你能从一个页面中提取一些功能，并以一种给它们打分的方式来使用它们，如果这个分数能与跳跃率和其他用户参与度信号相匹配，那么基于功能的方法很有可能是一个不错的选择。此外，您还可以使用用户行为数据作为反馈机制，以确保您做得很好。

埃里克·恩格：因此，您将实际的用户数据用作验证器而不是信号。这很有趣。

比尔·斯拉夫斯基：正确的。你可以用有机搜索做同样的事情，在某种程度上，他们用阻止的页面信号做了同样的事情。这就是被屏蔽的页面中85%也是质量分数较低的页面的地方。您还可以查看其他信号，例如，长时间点击。

埃里克·恩格：长时间点击，这是什么意思？

比尔·斯拉夫斯基：我不喜欢“跳出率”这个术语，因为它本身并不能断定有人访问了该页面，然后在几秒钟内离开。它意味着某人打开一个页面，看了看，花了一些时间，然后就离开了，没有去其他地方。长点击是指当你转到一个页面时，你实际上在那里花了很多时间。

埃里克·恩格：不过，你不知道他们是否因为要处理一个电话而在那里呆了一段时间。

比尔·斯拉夫斯基：或者，他们在新的选项卡中打开了其他东西，但有一段时间没有看一眼。还有其他事情可以衡量这一点，以及确认与之一致的方法，例如某人将页面滚动到多远。

埃里克·恩格：或者，如果他们打印页面。

比尔·斯拉夫斯基：并点击页面底部。

埃里克·恩格：或者点击其他元素。你能跟踪光标的移动吗？

比尔·斯拉夫斯基：在跟踪光标移动方面，已经有几项专利，甚至有一些来自谷歌，他们有朝一日可能会使用这些专利。这些可以给他们一个指示，一些东西可能与特定的查询有多相关，或者可能不相关。

有一项专利被描述为在搜索结果页面上使用，它显示了一个人在哪里停留了一定的时间。如果这是一个搜索结果，你会看到他们是否将鼠标悬停在一个单框结果上，这可能会激励他们继续显示特定类型的单框结果。这是一种可能性，鼠标指针跟踪。

弹跳率和其他用户行为信号

埃里克·恩格：回到第二份白皮书，直接使用实际的广告弹跳率作为信号如何，因为这也可能验证任何一种信号？

比尔·斯拉夫斯基：这不一定是个坏主意。

埃里克·恩格：或者低点击率，对吗？

比尔·斯拉夫斯基：正如我们所说的，用户信号有时往往很嘈杂。我们不知道为什么有人会比其他人在一页上停留的时间更长。我们不知道他们是否接到了电话，是否在新的标签页中打开电话，是否正在展示其他人而不得不等待，或者还有很多其他原因。

你可能会收集不同的用户行为信号，即使它们可能有噪音，可能不能准确反映某人的兴趣。您还可以采用另一种方法，并使用用户行为信号作为反馈。要查看您的方法是如何工作的，您可以选择使用范围更广的不同类型的数据进行相互比较。

而不是让嘈杂的用户数据成为你排名的主要驱动力…您可以查看内容在页面上的呈现方式。

比尔·斯拉夫斯基：这是一个不错的方法。与其让嘈杂的用户数据成为你排名的主要驱动力，你可以找到另一种方法来查看内容在页面上的呈现方式。一个区域是页面分割，它通过查看出现在这些部分或块中的特征来标识页面的不同部分，以及哪个区域是页面的主要内容部分。它是使用完整的句子，有时是句子片段，在行或文本的开头使用句号和创伤，大写字母的部分。您可以使用视觉差距分割(空白)类型的流程来识别哪些内容可能是广告、哪些内容可能是导航、内容可能在哪里，如主要内容区域或页脚部分。您可以在横断面中查找特征。

搜索引擎如何查看页面

埃里克·恩格：我理解功能可能会如何影响搜索引擎对页面质量的感知，但这是假设他们可以解开css，找出东西真正出现在哪里。

比尔·斯拉夫斯基：自2003年以来，微软一直在撰写关于视觉间隙分割主题的白皮书和专利。谷歌有一项专利，名为确定文档的语义不同区域，涉及本地搜索，他们可以在那里识别餐馆或其他可能分开的地方的文本评论块。

例如，你有一篇关于格林威治村餐馆的乡村之声文章《纽约》，它有十段关于十家不同的餐馆，每段以餐馆的名称开头，以地址结束，中间是评论。

这项专利说，我们可以获取页面，分割评论，并将它们与每一家单独的餐厅识别，然后再使用两三段集，他们说，我们还可以以其他方式使用分割过程，比如识别页面的不同部分、主要内容、页眉和页脚等等。大约一个月前，谷歌获得了一项更详细的页面分割过程的专利。

比尔·斯拉夫斯基：分割可能是质量审查的一部分，能够识别和理解页面的不同部分。他们不只是看css。在桌子经常被使用的日子里，你会有旧的桌子把戏。

您将内容向上移动，根据您如何排列表格，您可以使用绝对定位。有了css，你可以做同样类型的事情，但搜索引擎将使用某种类型的模拟浏览器。它不能完全呈现一个页面，但它可以帮助他们了解页面的DOM(文档对象模型)模型。

他们看了一些页面呈现方式的模拟，比如空白在哪里、HR标签可能在页面上抛出线条等等。他们可以了解什么出现在哪里，它们是如何分开的，然后试图根据涉及这些块的基于语言的特征来理解每个块的作用。

它是一组带有链接的多个单字事物吗？例如，每一个都是大写的，这可能是主导航。所以，你可以像这样拆分一页，你可以看到东西出现的地方。这可能是一个信号，一个高质量的信号。你可以看到它们是如何安排的。

搜索引擎了解有不同类型的站点

埃里克·恩格：网站的类型重要吗？

比尔·斯拉夫斯基：最有可能的是，网站的类型有一定的分类，所以你在报纸头版上看到的质量信号类型，与你在博客或电子商务网站上看到的不同。

你可以在不同的地方打印不同类型的东西。你不会在博客上获得TRUSTE徽章，但你可能会在电子商务网站上获得。你看着不同的功能，意识到不同的流派，不同类型的网站，可能会有不同的关联。

埃里克·恩格：是。

比尔·斯拉夫斯基：这可能是在选择这些种子质量地点时产生的。可能有一些预处理来识别不同的方面，如电子商务网站、标签、博客标签和其他东西，因此无论他们使用什么机器学习系统，都可以区分不同类型的页面，并看到不同类型的功能。

它被称为决策树过程，这个过程会看着页面问，这是一个博客吗，是还是不是？这是一个新的网站吗，是还是不是？它沿着不同的路径爬行，并提出问题来爬行这一至关重要的分数。

埃里克·恩格：您可以查看的其他内容是质量标记，例如页面上的拼写错误。我想，如果我没记错的话，Zappos目前正在编辑他们所有的评论，因为他们已经了解到拼写错误和语法会影响转换。因此，这是一个他们可能会使用的明确信号，而断开链接的数量是另一个信号。

另一个有趣的地方是当你打开一个页面，它是一段很长的文本。上面可能有一张图片，但这可能是一个很好的预测跳跃率高的指标。如果这是一篇研究论文，那是一回事，但如果这是一篇新闻文章，那就是另一回事了。

比尔·斯拉夫斯基：或者，如果是《独立宣言》。

埃里克·恩格：对，但他们能处理这种分割。如果有人正在寻找一双新鞋，他们来到一个页面，上面有十段文字和几个购买鞋子的按钮，这是一个很好的预测高退货率的指标。

比尔·斯拉夫斯基：另一方面，如果您有一个页面，其中有一个h1标题和页面顶部的主标题、几个副标题、一个列表和一些图片，所有这些似乎都对页面的内容有意义，这将是一篇结构良好的文章。它对于网络来说是可读的，它很容易扫描，它很容易找到页面上识别不同概念的不同部分。这可能会让页面更有趣、更吸引人，并让人们在页面上停留的时间更长。

那么，这些功能是否会转化为这样一种用户行为，即人们会更多地参与页面，并在上面花费更多时间？在许多情况下，他们很有可能会这么做。

作为验证者的用户约定信号

埃里克·恩格：另一个概念是，单独站立的用户参与信号可能会有噪音，但其中10个信号加在一起可能不会有噪音。你可以接受10个嘈杂的信号，如果其中8个指向同一个方向，那么你就得到了一个信号。

比尔·斯拉夫斯基：他们以积极的方式相互加强。

埃里克·恩格：然后你开始得到一些不再是嘈杂信号的东西。

比尔·斯拉夫斯基：正确的。例如，如果你有一个仓库，里面挤满了人，在一个与世隔绝的区域，一遍又一遍地打印同一文档的多份副本，因为他们认为打印文档是搜索引擎可能会注意到的用户行为信号，你正在浪费大量的纸张和时间。

单独来看，这看起来很奇怪，但这将是一种不寻常的模式。搜索引擎会说，某人正试图做一些他们不应该做的事情。

埃里克·恩格：是。这可能会成为一个直接的负面信号，你必须小心，因为你的竞争对手可能会这样做。因此，这场球赛似乎还在继续。微软的一份白皮书中包含的误导性信息怎么办？

比尔·斯拉夫斯基：这是关于微软试图确定的涉及网络可信度的概念。它包括站内因素和站外因素，以及第三类，称为聚合信息，这是他们收集的关于页面的用户行为数据。如果你有现场因素，如安全证书、徽标和某些其他功能，这往往会让你看起来更可信。它更强调的是信誉，而不是质量。搜索引擎似乎在一定程度上将可信度与质量等同起来。

比尔·斯拉夫斯基：AIRWeb大会连续举办了五年，去年没有举行，今年又举行了一次。它结合另一个关于可信度的讲习班讨论了网上对抗性信息检索问题。他们将其称为2010年网络质量会议，谷歌、微软、雅虎和许多学术参与者分享了这一会议。

设计实际上扮演着非常重要的角色，可能比大多数人认为的更重要，当人们评估这个网站是否可信时，设计可能会更大。

你可以追溯到几年前斯坦福大学说服性技术实验室对可信度的研究和工作。其中一个发现指出，在一项对大约5000个网站的研究中，当人们评估这个网站是否可信时，设计发挥着重要的作用，可能比大多数人想象的要大。

他们还推出了一系列指导方针，其中提到了一些特定的东西，这些东西会让你的网站在人们看来更可信。它包括网站幕后人员的照片，明确显示地址、有隐私政策或关于我们的页面或服务条款。这些是页面上的信号，您可以查看。

你可以看到许多页面外的信号，比如获得韦伯奖，在其他地方被认可，在权威类型的网站上被引用，甚至页面排名，他们说他们会认为这是一个信号，以确定一个页面是否是一个高质量的页面。在微软的论文中，他们说他们将考虑页面排名，这很有趣。

在相关网页中填充有用信息

埃里克·恩格：然后你就有了品牌搜索者的概念。如果人们在搜索你的品牌，这是一个明确的信号。如果您有一个没有名字的网站，并且没有搜索网站名称或所有者的公司名称。

比尔·斯拉夫斯基：这引发了完全不同的问题，它导致了如何确定一个页面是否为权威页面。例如，谷歌决定，当有人在工具栏的搜索框中输入ESPN时，ESPN网站应该是第一个出现的。接下来发生什么都无关紧要。如果他们输入Hilton，但它进入的主题是搜索引擎识别为命名实体或特定人和地点的数据；然后他们如何将这些与特定的查询条件相关联，如果这些查询条件被搜索到，他们如何对待它们？

他们是否将其视为导航查询，并确保显示与其相关联的站点？它们是否暗示了网站搜索，并显示了谷歌已经做了很长时间前十名网站的四、五、六、七个不同的结果？

埃里克·恩格：例如，即使是对于非品牌搜索，谷歌也肯定会将Zappos与鞋子联系起来。对吗？因此，在权威的存在下，与其他一些新的鞋类网站相比，你可以参考Zappos品牌名称被搜索的事实，这可能是任何关于鞋子主题的搜索的直接权威信号。

比尔·斯拉夫斯基：正确的。让我们讨论谷歌的另一项专利，它探索了这一点，并更详细地进行了研究。我在2007年曾写过一篇文章，名为《在相关网页中填充有用信息》。它讲述了谷歌如何确定哪个网站可能与某个特定查询相关联，并可能被认定为该查询的权威网站。

在某些方面，它呼应了微软论文中关于有关权威的错误信息的一些事情。它不仅会查看它可能在网络上看到的东西，例如使用带有这些术语的锚文本指向页面的链接，而且还可能会查看该术语是否是属于拥有特定网站的公司的注册商标。它还可以查看域名或黄页条目。

这项专利的一位作者还写了一些本地搜索模式，在某些方面，这些模式说引文和链接一样好。如果有人在特定位置搜索特定类型的企业，那么提到该特定位置的特定企业的排名更有可能更高。因此，谷歌的这项专利超越了本地搜索，为特定的查询找到权威的网页。

拒绝恼人的文档

埃里克·恩格：太棒了。既然我们快要结束了，我想听听你们对烦人的广告的看法。

比尔·斯拉夫斯基：谷歌在几年前拿出了一项专利，在某些方面看起来有点像熊猫。它的重点是登陆页面和广告方面的特点。它被称为“；检测并拒绝讨厌的文档。

它提供了一份清单，列出了他们可能在广告、登录页面上看到的东西类型、主题、特征评级、使用的语言类型、来自哪里的地理位置以及谁是内容所有者。

埃里克·恩格：它甚至可以使用OCR或其他类型的分析来检测图像中的内容，以了解图像中的内容。

比尔·斯拉夫斯基：对，还要找到与广告相关的Flash，找到可能播放的音频，查看图像的质量，以及它们是否为动画。这是一份很大的清单。我不知道我们是否会很快看到谷歌的专利，它会给我们提供同样类型的列表，涉及有机搜索和熊猫方法。一些东西可能会在两年、三年或四年后出版。

埃里克·恩格：这很有趣。显然，他们正在使用和没有使用的专利是你无法看到的，除非你在正确的时间在正确的时间进入正确的特定建筑。

在我看来，潜在的教训是你需要意识到搜索引擎，显然，让搜索引擎成为精通网站的人。重点是你需要专注于人们一直以来应该关注的事情，即：我的用户想要什么？我怎么把它给他们呢？我如何让他们参与进来？我如何保持他们的兴趣？然后创造一种出色的用户体验，因为这正是他们试图效仿的。

我的观点是，搜索引擎是你网站的另一个访问者，就像其他人一样。

比尔·斯拉夫斯基：正确的。我的观点是，搜索引擎和其他人一样，也是你网站的另一个访问者。他们可能有不同的要求。你的网站可能需要采取一些额外的技术步骤来迎合他们，但他们是访问者，他们想要你网站的其他访问者想要的东西。他们想要满足某种类型的信息或情景需求。他们想要找到他们正在寻找的信息。他们想要购买你提供的东西，如果在搜索结果中显示的片段中，这就是你提供的东西。

如果你是一个抄袭别人的网站，没有添加任何新的或有意义的东西，没有以一种更容易阅读和查找的方式展示它，没有什么让你与众不同或让你与众不同的东西，那么你就没有以最好的方式对待潜在访问者。

当你做搜索引擎优化时，即使是在熊猫时代，你也应该做所有的基础工作。这是一种重新排名的方法。你需要去掉带有多个不同URL的相同内容，去掉那些主要是关键字插入的页面，在这些页面上，一个短语或两个或三个短语会发生变化，但其余的一切都保持不变。

当你写一些东西时，如果你关注基于短语的索引，确保你包括大多数人会在该页面上包括的相关信息，相关术语等等。这些基本要素不会消失，它们现在可能比过去更重要。

是。作为一名搜索者，作为一个帮助人们建立网站的人，作为一个可能在网站上展示我自己的东西的人，我想知道它是如何工作的。当我进行搜索时，我想确保我找到的是网络上的东西。

进行一些股权投资，确保你的东西是人们想要看到的东西，尽可能多地了解搜索空间。

比尔·斯拉夫斯基：我需要的、想要的、希望看到的东西，以及谷歌能做的任何事情，我认为都是赢家。对于将内容放到网络上的人来说，这可能是更多的工作，但汗水的成本相当便宜。进行一些股权投资，确保你的东西是人们想要看到的东西，尽可能多地了解搜索空间。

作为一个排名信号，我们有相关性，我们有重要性，而且越来越多地，我们有内容质量。

埃里克·恩格：除此之外，你的生活是怎样的？

比尔·斯拉夫斯基：我一直在努力保持当地的东西，更多地参与我的当地社区，并与当地商会一起做一些事情。我现在住在弗吉尼亚州西北部一个更偏向农村的地区，一些当地的商人需要帮助。

我与华盛顿特区关系密切，一直在努力与非营利性组织开展更多合作。我不是去旅行，而是在当地结识许多人，帮助人们更多地了解他们可以利用自己的网站做些什么，这是非常令人满意的。

比尔·斯拉夫斯基：我现在住在马之乡；实际上，我所在的县可能马比人多。

埃里克·恩格：谢谢比尔！

最初发表在关于搜索引擎优化的漫游上

搜索引擎专利与熊猫

熊猫最有可能使用的信号是什么？

作为质量指标的页面功能

弹跳率和其他用户行为信号

搜索引擎如何查看页面

搜索引擎了解有不同类型的站点

作为验证者的用户约定信号

在相关网页中填充有用信息

拒绝恼人的文档

相关阅读

nginx输入域名后直接跳到指定请求？（虚拟主机怎么定向到www）

为啥那么多用户选择美国云主机

C语言动态爱心代码怎么写

Python中numpy模块怎么安装？（python中怎么导入numpy）

目录[+]