在搜索引擎眼中重要的页面是这样的

发布时间:2015-08-10

在搜索引擎眼中重要的页面是这样的计算重点网页时,将参与计算的所有网页作为一个集合,并通过集合内网页之间的链接关系迭代计算网页的重要性。
   但是随着互联网的发展,互联网上的网页越来越多,如果将互联网上所有网页都作为参与重要性计算的网页,则对计算系统的架构要求非常高,因此通常仅挑选各网 站与外部网站存在链接关系的网页作为参与重要性计算的网页,但是现有技术的这种方式,会导致各网站内部的一些优秀网页无法得到重要性值,此外,也会影响参 与计算的网页得到的重要性值的准确性。
   为了改善上述问题,现有技术有一种做法,是将网站内与外部网站存在链接关系的网页,以及网站内的一些重要网页一起提取出来,作为参与网页重要性计算的网页。
   在现有技术中,搜索引擎是通过网站中网页的站内反链数量来确定网页的重要性的,例如将网站中站内反链数量大于设定阈值的网页提取出来,如果这些网页所指向 网页的站内反链数量也大于设定阈值,则将这些网页及所指网页作为重点网页。但是这种现有技术的方法,召回率较低,准确性也较差。
新算法重要度调整
1.网页中的所有链接提取出来
2.对网站所有链接进行拆分重组排列(源代码里最近的链接组成)
 3.从各个链接(内链)中进行匹配出现值最高的链接 例:多次A链接B,或不同ABC链接D
 4.有一个预定的阀值,如果不超过阀值那么将归类于普通页面,如没有任何重点页面(入口页)则仅留下首页为重点页面.
5.重点链接是有数量上限,取决于链接对最多的页面重要性,页面重要性越高,重点页面的数量就越高,比例通常在10-30%浮动,也就是一万个页面,可以出现1000-3000的参与排名的页面。
6.百度训练模型将对链接对进行一次匹配分类,区分重要程度。
7.百度训练模型的对链接进行重要链接比对和非重要链接比对

8.对重要链接进行分类特征对比,以确定重要链接的参数范围和特征范围。
9.百度会对链接先进行参数范围和特征范围匹配,然后在进行重要程序分级。
10.内链和反链的出面度是根据数量来决定,如果一个页面有3个内链,那么他的出面度就是311.对重要页面的深度进行说明,从首页跳转到对应页面的最短次数,这个次数被定义为深度,重要页面的深度会一定程度的影响页面属性。
12.内链指向重要页面的锚文本总数,是根据切词组成,也就是例如抽动症治疗页面指向给了抽动症,那么抽动症这个页面的锚文本总数就是3个,抽动症治疗,抽动症,治疗。3个锚文本。
13.根据重点页面相互连接生成网站骨架,以定义网站的类型总结:页面的重要度由页面的深度,被指向内链的深度对比,锚文本词频、页面出度、两个页面深度之间的差值来综合评比页面重要度。
    总结:页面的重要度由页面的深度,被指向内链的深度对比,锚文本词频、页面出度、两个页面深度之间的差值来综合评比页面重要度。