2.统计模型(Statistical Model),统计模型基于文本统计信息(如词项频度统计、文档频度统计等)和统计自然语言处理方法进行文本相似度计算。统计模型从布尔模型的“精确匹配”发展到“最优匹配”,可以说真正把信息检索与传统的数据搜索区别开来。而具体来说,其又包括向量空间模型(Vector Space Model)和概率模型(Probabilistic Model)两类。向量空间模型把文档和查询表示成一个高维空间中的向量,用距离作为相似度的度量。而概率模型则把检索看作是文档表示和查询之间匹配成功的概率估计问题,使用概率理论做指导。统计模型是当前应用最广泛的检索模型,在从小规模纯文本信息检索系统到搜索引擎在内的各种检索系统中广泛应用。
3. 语言与知识模型(Linguistic and Knowledge-based Model)。与统计模型不同,基于语言和知识的检索模型试图考察查询背后的用户真实需求,从而更加准确的理解用户意图,获得更好的检索效果。目前较常用的做法是通过考察用户查询和相关文档之间的语言模型的相似程度,来进行文档相关度的计算,即计算按照文档的语言模型有多大可能性生成用户查询。语言和知识模型在本世纪初以来得到了较为广泛的应用,目前信息检索研究领域应用的较为广泛的Lemur/Indri系统,就是基于此模型进行内容相似度计算的。