中文搜索引擎指南网

标题: [搜索引擎技术普及 - 5]信息检索的一些初步知识 [打印本页]

作者: sowang    时间: 2007-4-26 23:40
标题: [搜索引擎技术普及 - 5]信息检索的一些初步知识
内容出自:搜狗实验室


最近吧上有不少朋友讨论搜索引擎的结果相关性排序问题,所以这次知识普及的重点想放在与之相关的信息检索知识上




以上是一个信息检索系统的基本架构和运行示意图,引自信息检索一本很好的入门教科书《modern information retrieval》(现代信息检索),现在貌似机械工业出版社有了中文版,大家有兴趣可以买来或者借来看看。


传统意义的文本信息检索系统是由文本处理、内容索引、查询处理、用户界面等模块组成的。


从数据处理对象的角度分析,信息检索系统面对的处理对象则包括文本语料库与检索用户两方面的内容。具体的运行流程上,系统将语料库中的文本经过取词根(英文)、分词(中文)、去除停用词等操作后输入进索引模块,索引模块以词项(term)为中心组织倒排索引(inverted index),从而完成系统准备工作。用户进行检索时,首先通过用户界面输入其查询需求(query),系统通过查询模块在倒排索引中定位相关文档集合,再依据相关文档与查询需求的相似度对相关文档进行排序(ranking),并通过用户界面反馈给用户检索结果。


检索系统中,使用何种模型进行查询需求与文档的相似度计算是关键性的研究问题,信息检索研究中的模型研究,大多是针对这类相似度计算模型而进行的。从20世纪60年代中期以来,人们提出了大量的相似度评价模型。从最初的为一些较小的和较为结构化的文档所设计的特殊模型(如文献记录,包括题目、作者和主题码等),发展到现在具有较强理论基础和能处理多种文档格式的模型。总的来说,当前应用比较广泛的检索模型有如下三种:


1.布尔模型(Boolean Model)。布尔模型又称精确匹配模型,是许多商业信息检索系统尤其是早期联机信息检索系统的理论基础。在布尔模型中,文档和查询都被表示为索引项的集合。其优势在于:实现简单,计算复杂度低,支持结构化查询等,因此在计算机硬件水平较低的早期信息检索系统应用中得到了青睐。目前,不少图书馆信息检索系统还是基于布尔模型进行搭建的。


2.统计模型(Statistical Model),统计模型基于文本统计信息(如词项频度统计、文档频度统计等)和统计自然语言处理方法进行文本相似度计算。统计模型从布尔模型的“精确匹配”发展到“最优匹配”,可以说真正把信息检索与传统的数据搜索区别开来。而具体来说,其又包括向量空间模型(Vector Space Model)和概率模型(Probabilistic Model)两类。向量空间模型把文档和查询表示成一个高维空间中的向量,用距离作为相似度的度量。而概率模型则把检索看作是文档表示和查询之间匹配成功的概率估计问题,使用概率理论做指导。统计模型是当前应用最广泛的检索模型,在从小规模纯文本信息检索系统到搜索引擎在内的各种检索系统中广泛应用。


3. 语言与知识模型(Linguistic and Knowledge-based Model)。与统计模型不同,基于语言和知识的检索模型试图考察查询背后的用户真实需求,从而更加准确的理解用户意图,获得更好的检索效果。目前较常用的做法是通过考察用户查询和相关文档之间的语言模型的相似程度,来进行文档相关度的计算,即计算按照文档的语言模型有多大可能性生成用户查询。语言和知识模型在本世纪初以来得到了较为广泛的应用,目前信息检索研究领域应用的较为广泛的Lemur/Indri系统,就是基于此模型进行内容相似度计算的。


以上我们对信息检索系统的整体运行流程和其中的相似度计算模型进行了简单介绍,总体而言,信息检索系统的架构设计自上个世纪五十年代信息检索问世以来没有经历过大的改动,而直到今天,这个架构即使在处理海量规模网络文本数据的问题上也是能够满足应用需求的。当前信息检索研究的重点,一方面在于利用自然语言处理方面的研究成果对检索相似度模型框架进行修正;另一方面则在于对检索系统的应用对象加以拓展,针对专门检索系统如网络信息检索系统、多媒体检索系统等开展研究和分析。


关于这部分内容的详细数学描述,有兴趣的读者可以参考http://www.scils.rutgers.edu/~aspoerri/InfoCrystal/InfoCrystal.htm,MIT毕业的Spoerri博士的一个开放项目。




欢迎光临 中文搜索引擎指南网 (http://sowang.com/bbs/) Powered by Discuz! X3.2