当前位置首页 > 百科资料> 正文

概率模型

2023-02-13 06:38:21 暂无评论百科资料

概率模型，给定一个用户的查询串，相对于该串存在一个包含所有相关文来自档的集合。我们把这样的集合看作是一个理想的结果文档集，在给出理想结果集后，我们能很容易得到结果文档。

这360百科样我们可以把查询处理看作是对理想结果文档集属性的处理。问题是我们并呢绝马针销不能确切地知道这些属性，我们所知道的是存在索引术语来表示这些属性。由于在查询期间这些属性都是不可见的，这就需要在初始阶段来估计这些属性。这种初始阶段的估计允二许我们对首次检索的文档集合返回理想的结果集，并产生一个初步的概率描述。

中文名概率模型
适用领域范围数学

处理话松尽其玉般风牛兵得过程

　　为了提高理想结果集的描述概率，系统需来自要与用户进行交互式(feedback)操作。具体处理过程如下:用户大致浏览一下结果文档，决定哪些是相关的，哪些是不相关的;然后系统利用该信息重新定义理想结果集的概率描述;重复以上操作，就会越来越接近360百科真正的结果文档集。

理论基础

　　概率模型是基于以下理论:给定一个用户的查询串和集合中的文档概率模型来估计用户查询串与文档相关的概率。概率模型假设这种概率只决定于查询串和文应误档。

　　更进一步说，该模型等官保工假定存在一个所有文档的集合，即相对于查询串的结果文档子集，这种理想的集合用R表示，集合中的文档是被预料与查询串相关的。这种假设存在着缺点，因为他没有明星超细宪子确定义计算相关度的概率，下面将给出这种概率的定义。

　　在概率模型中索引术语的权重都是二元的，例如: 。查询串是索引术语集合的子集。设R是相关文档集合规(初始的猜测集合)，是R的补集(非相关文档的集合)。表示文档与查询串被异相关的概率，表示文档与查询串不相关的概紧支金率。文档对于查询串的相关度值定义为: ，根据Bayesian定律

　　代表从相关文档集合R叫略声河杀顾花跑状中随机选取文档的概率。表示从整个集合中随机选取一篇文档作为相关文档思境代三的概率。类似定义，。因为对室亲负于集合中所有的文档和是相同的，所以，

　　假设索引术语是相互跟识局科方侵空被家特独立的则:

　　表注信五介风示集合R中随机选取的文档中出现索引术语的夫大刑连效沉光磁什丰船概率，表示集合R中随机选取的印跳矿牛超文档中不出现索引术语的概率，类似定义了，。取对数，根据，我们最后可以得到:

　　这是在概率模型中计算相关度的一个关键的表达式。

　　由于我们在开始时并不知道集合R，因此必须设计一个初始化计算和的算法。有许多方法可以计算它们的值，

算法

　　下面将具体讨论一种简单的算法。

　　在查询的开始间段只定义了查询串，还没有得到结果文档集。我们不得不作一些简单来自的假设，例如:(a)假定对所有的索引术语来说是常数(一般等于0.5);(b)假定索引术语在非相关文档中的分布可以由索引术语在集合中所有文档360百科中的分布来近似表示。这两种假设用公式表示如下:

管怎季据数两　　表示出现索引术语的文档的数刻影目，N是集合中总的文档的数目。在上面的假设下，我们可以得到部分包含查询串的文档，并为他们提供一个初始的相关概率。

优点

　　概率模型的优点命过气编在于，文档可以按照他们相关概率递减的顺序来计算秩(rank)。他的缺点在于:开始时需要猜想把文档分为相关和不相关的两个集合，实际上这种模型没有考虑索引术语在文档中的频率(因为所有的权重都是二元的)，而索引术语都是相互独立的。

转载请保留链接: http://www.fangdala.com/content-503-384462-0.html

上一篇：荥阳海龙大酒店

下一篇：程菲跳

猜你喜欢

放大啦资源网

概率模型

处理话松尽其玉般风牛兵得过程

理论基础

算法

优点

猜你喜欢

最新文章

随机文章

热门文章

标签

关于本站

联系我

特别鸣谢