这是非常合乎逻辑的,因为询,并且随机用户会在查询中键入站点是一个很好的常见案例,因为它不包含在页面的 HTML 中。即使有一种很好的方法来定义这种形式的元信息,也会有问题,因为页面作者不会信任这种交换。许多网页作者声称他们的网页是网络上最好且使用最多的网页。 我们应该注意到,找到一个包含有关狼獾的丰富信息的网站比找到一个具有狼獾常见条件的网站要困难得多。为了找到详细讨论某个主题的网站,有一个有趣的系统可以通过网络的链接结构传播文本匹配分数 [Mar97]。然后,该系统尝试使用最中心的路由返回页面。这个结果对于像“flower”这样的查询效果很好;系统将返回对花卉进行详细说明的子页面。此选项将返回包含如何购买鲜花信息的网站,而不是像常见情况那样返回具有常用和广告的网站。
然而,E 并没有解决价值沉没问题,而是成为调整页面价值的强大参数。可以预测,向量 E 对应于随机旅行者定期导航到的网站的分布。如下所示,它可以用来提供对 Web 的广泛概述,但也可以用来提供个人或特定的观点。 我们进行了大部分实验,以使 E 向量的值为 ||E||1 = 0.15,并且均匀分布在所有网站页面上。该值对应于定期切换到随机网页的随机浏览器。对于 E 来说,这是一个非常民主的选择,因为所有网页仅仅凭借其存在就具有价值。尽管这项技术相当成功,但它也有一个重大问题。一个拥有大量相关链接的网站可以获得极高的价值。其中的示例包括版权声明、免责声明和大量内部链接的邮件列表档案。 另一个极端情况是E完全由单个网页组成。