|
2#
楼主 |
发表于 2006-10-27 17:08:32
|
只看该作者
搜索引擎技术的现状和热点(下)
http://www.cjr.com.cn 中国新闻传播学评论(CJR) 2006年10月27日
搜索引擎的技术热点
针对基于关键词搜索引擎所存在的不足,各搜索引擎网站纷纷向智能化、个性化方面发展,世界各国计算机科学界和信息产业界也都在积极的探索解决之道,搜索引擎已成为一个新的研究、开发领域。
1、多媒体搜索技术
基于内容的检索,是指直接对媒体内容特征和上下文语义环境进行的检索。一般而言,可用于网络检索的多媒体信息的内容特征大致包括:图像的颜色、纹理、形状等;声音的音频、响度、频度和音色等;影像的视频特征、运动特征等。这种类型的搜索引擎还不多见,并且主要用于图像检索,如QBIC、WeebSeek、ImageRover等。目前的多媒体搜索引擎覆盖面小,检索功能不够完善,效果也不太理想,因此,多媒体搜索技术尤其是音频、视频数据的检索仍是搜索引擎的一个研究重点。
2、对等搜索技术
目前的互联网是以服务器为中心的,人们向服务器发送请求,然后浏览服务器回应的信息,而对等搜索技术P2P(Peer to Peer)将以用户为中心,所有的用户都是平等的伙伴。相隔万里的用户可以通过P2P共享硬盘上的文件、目录甚至整个硬盘。把这一理念具体运用到搜索引擎技术上来:P2P将使用户能够深度搜索文档,而且这种搜索无须通过Web服务器,也可以不受信息文档格式和宿主设备的限制,可达到传统目录式搜索引擎无可比拟的深度。
P2P网络的一个很大的问题在于搜索信息时所产生的网络通信量非常巨大,在时间和网络资源方面造成很大的浪费。为方便P2P网络中的信息检索,有关专家提出了三种建立在特征文件基础上的检索机制:对语义路由进行详细分析,提出了一个建立在此技术和RDF技术基础上的新方法。
3、用户行为分析
一个以西班牙语的目录式搜索引擎的用户日志为样本分析了网络用户的搜索行为,发现网络搜索用户与传统检索系统的用户其行为存在差别,例如,网络用户一般只查看最前面的几个结果页面,网络用户很少使用操作符构造提问式等。该研究还对搜索次数与用户每分钟查看的文献或目录数进行了分析。
4、智能检索技术
智能检索主要包括自然语言处理、个性化搜索等技术,目前涉及这一领域的研究较多。
智能工具MySpiders是一个线性多代理系统,可以在用户提问时对网络信息进行挖掘,实现实时的动态查询,从而加强搜索引擎的功能。智能检索系统——ACIRD使用机器学习技术组织和检索网络文献。它由知识获取模块、文献分类器和搜索引擎组成。
5、检索结果的后处理
目前这方面的研究内容主要集中在结果排序的优化算法以及结果的聚类及可视化等领域。
对内容敏感的排序算法的研究表明,传统的PageRank算法是与提问无关的,只计算一个向量值用以衡量网页的重要性。而事实上,对于不同的提问,网页的重要性也不相同。
检索结果可视化并可修正提问的交互系统Webrat不依赖事先计算好的元数据,而是直接从搜索引擎的结果列表中获取所有必要信息,将结果文献实时动态聚类,并以图示方法提供给用户。用户可以利用选择关键词以及类别的方式与系统交互,从而修正提问获取更满意的结果。该系统独立于语言,适用于大量数据来源及可视化模型。
结束语
要想真正解决网络搜索问题,完全满足用户的各种信息查询需求,搜索引擎要解决的难题还很多。这些难题包括:科学组织和管理索引数据库,保持索引的更新与完整,包括对隐藏内容的索引;鉴别站点的优劣,向用户推荐质量高的内容,鉴别并移除恶意内容及链接;研究开发能充分表达用户查询要求的查询语言、方式和模式,提高查询语言的功能和查询的准确性;挖掘研究用户反馈,提高网络搜索的智能性,为用户提供个性化的服务;实现网络信息的自动化处理等。
参考资料:
①张莉扬.Yahoo的信息组织方式及其在数字图书馆信息资源建设中的应用.图书情报知识,2001(3):48-50
②曹军.Google的PageRank技术剖析.情报杂志,2002(10):15-18
③Hang Cui Etc. Query Expansion By Mining User Logs. IEEE Transactions on Knowledge and Data Engineering, Vol.15, No.4, 2003, 829-839 |
|