思亿欧观点

基于关键词的网页权重方法研究

发布时间:2008-11-02

利用关键词序列得到的用户事务模式经过聚类以后,形成了表达用户个性化信息需求的不同模式特征。

利用关键词序列得到的用户事务模式经过聚类以后,形成了表达用户个性化信息需求的不同模式特征。和关键词序列相比,聚类后的用户事务模式显然具有更少的数量和更明确的个性化特征,所以使用此用户事务聚类模式就可以进行下一步的个性化信息推荐活动。

目前搜索引擎中常见的个性化信息推荐方式主要有两种:一种是查询改进;一种是个性化网页权重。前者主要是利用改变用户实际搜索的关键词内容来表达用户的个性化信息需求,而后者主要是根据网页权重对结果网页进行排序来表达用户的个性化信息需求。基于个性化网页权重的推荐方法和基于查询改进的推荐方法相比,具有很多优势,主要表现在以下几个方面:

一是经过实践证明,诸如PageRank等网页权重值是一种较为有效反映网页客观重要性的指标,同时相应算法具有技术易行性。

二是算法主要解决了网页客观重要性的评价问题,可以在网页相关度排序上发挥作用。也就是说,该算法能够将满足用户个性化要求的网页放在结果网页集合的最前端。事实上,这更有助于用户得到所需的个性化信息。

最后,相关的网页权重计算工作无需在线进行,只需利用离线阶段的存储数据即可计算,从而能够有效节省用户查询所需要的时间开销。

基于个性化网页权重的推荐算法思想是在传统的网页权重算法基础之上,通过合理地修改和添加其中使用的具体参数,以表达不同用户的个性化需求特征,从而计算出不同用户所特有的网页权重值,并在用户查询时,利用这个值来计算网页的相关度和优先级。

较为常见的个性化网页权重方式为个性化PageRank方法传统的PageRank是一种用于查询结果网页的相关度排序技术,它通过网页问的链人和链出关系来计算不同网页的权重值,并据此来实现网页排序。这种算法目前已有多种衍生类型,主要目的都是着眼于对结果做进一步的信息表达。其中,最为常见的做法是使用个性化PageRank向量来表达不同用户的个性化信息需求,并使用此向量计算网页的相关度,从而产生针对特定用户的个性化搜索结果。

个性化PageRank算法主要依据个性化PageRank向量来使结果网页产生对特定用户的偏好特性。其中,很多算法都是以基于Web的图论算法为基础的,最为常见的模型有马尔可夫模型等。对于马尔可夫模型,人们已经提出了很多不同的具体类型,如一阶马尔可夫链模型、高阶马尔可夫链模型和混合马尔可夫链模型等。其中,一阶马尔可夫链模型虽然能对序列依赖给出一个简单的描述方法,但是它没有考虑网络冲浪行为的长效记忆特征;高阶马尔可夫链模型能够更加准确地预测导航路径,但是它也会随着维度增多而产生覆盖度和计算复杂性的权衡问题,且这种复杂模型通常要求相当大的训练集;混合马尔可夫链模型组合了各阶的马尔可夫模型,在预处理和训练的时候也需要更多的资源。

显然,此处的算法和选用的模型是相关的,要根据对简易性和正确性的权衡情况来决定所选模型类型,甚至是一些其他模型,这些其他模型多半采用基于树状导航图结构的数据挖掘算法,如聚类、序列模型挖掘、频繁项挖掘等。

现在人们提出的个性化PageRank方法虽然有很多,但是主要分为两大类:一类是直接修改基于超链关系得到的网页权重值;另一类是在传统PageRank公式上添加修正参数来反映用户的个性化要求。

分享至share
  • pin
  • weibo
  • wechat
email

tel 24小时免费服务咨询热线:400-080-3010

立即咨询立即咨询 联系我们联系我们