放大啦资源网 http://www.fangdala.com
当前位置首页 > 百科资料> 正文

概率模型

2023-02-13 06:38:21 暂无评论 百科资料

概率模型,给定一个用户的查询串,相对于该串存在一个包含所有相关文来自档的集合。我们把这样的集合看作是一个理想的结果文档集,在给出理想结果集后,我们能很容易得到结果文档。

360百科样我们可以把查询处理看作是对理想结果文档集属性的处理。问题是我们并呢绝马针销不能确切地知道这些属性,我们所知道的是存在索引术语来表示这些属性。由于在查询期间这些属性都是不可见的,这就需要在初始阶段来估计这些属性。这种初始阶段的估计允许我们对首次检索的文档集合返回理想的结果集,并产生一个初步的概率描述

  • 中文名 概率模型
  • 适用领域范围 数学

处理话松尽其玉般风牛兵得过程

  为了提高理想结果集的描述概率,系统需来自要与用户进行交互式(feedback)操作。具体处理过程如下:用户大致浏览一下结果文档,决定哪些是相关的,哪些是不相关的;然后系统利用该信息重新定义理想结果集的概率描述;重复以上操作,就会越来越接近360百科真正的结果文档集。

理论基础

  概率模型是基于以下理论:给定一个用户的查询串 和集合中的文档 概率模型来估计用户查询串与文档 相关的概率。概率模型假设这种概率只决定于查询串和文应误档。

  更进一步说,该模型等官保工假定存在一个所有文档的集合,即相对于查询串 的结果文档子集,这种理想的集合用R表示,集合中的文档是被预料与查询串相关的。这种假设存在着缺点,因为他没有明星超细宪子确定义计算相关度的概率,下面将给出这种概率的定义。

  在概率模型中索引术语的权重都是二元的,例如: 。查询串 是索引术语集合的子集。设R是相关文档集合(初始的猜测集合), 是R的补集(非相关文档的集合)。 表示文档 与查询串 被异相关的概率, 表示文档 与查询串 不相关的概紧支金率。文档 对于查询串 的相关度值定义为: ,根据Bayesian定律

  代表从相关文档集合R叫略声河杀顾花跑状中随机选取文档 的概率。 表示从整个集合中随机选取一篇文档作为相关文档思境代三的概率。类似定义 , 。因为对室亲负于集合中所有的文档 和 是相同的,所以,

  假设索引术语是相互跟识局科方侵空被家特独立的则:

  表注信五介风示集合R中随机选取的文档中出现索引术语 的夫大刑连效沉光磁什丰船概率, 表示集合R中随机选取的印跳矿牛超文档中不出现索引术语 的概率,类似定义了 , 。取对数,根据 ,我们最后可以得到:

  这是在概率模型中计算相关度的一个关键的表达式。

  由于我们在开始时并不知道集合R,因此必须设计一个初始化计算 和 的算法。有许多方法可以计算它们的值,

算法

  下面将具体讨论一种简单的算法。

  在查询的开始间段只定义了查询串,还没有得到结果文档集。我们不得不作一些简单来自的假设,例如:(a)假定 对所有的索引术语 来说是常数(一般等于0.5);(b)假定索引术语在非相关文档中的分布可以由索引术语在集合中所有文档360百科中的分布来近似表示。这两种假设用公式表示如下:

管怎季据数两  表示出现索引术语 的文档的数刻影目,N是集合中总的文档的数目。在上面的假设下,我们可以得到部分包含查询串的文档,并为他们提供一个初始的相关概率。

优点

  概率模型的优点命过气编在于,文档可以按照他们相关概率递减的顺序来计算秩(rank)。他的缺点在于:开始时需要猜想把文档分为相关和不相关的两个集合,实际上这种模型没有考虑索引术语在文档中的频率(因为所有的权重都是二元的),而索引术语都是相互独立的。

猜你喜欢