|
||
每日搜索评论1--摆平中文搜索引擎的分词错误 |
||
|
||
|
||
搜索引擎9238
2002.1 搜索结果不理想,有很多原因,其中一种是中文搜索引擎特有的,叫分词(或切词)。 举例来说,你搜索关键词“品行”可能搜到大量“商品行情”,又如搜索关键词“和会”,得到的搜索结果可能大量包含“展览和会议”“吉祥物和会歌”“商务中心和会务”“被物化和会过期的”“亚太经和会议”。它们文字中都有“和会”,但不是你要找的“巴黎和会”“中东和会”。这是中文本身特点导致的搜索缺陷,中文搜索引擎技术人员在努力改善它,但不会完全解决。 在这里,我不谈分词原理,想了解更多的自己去搜。 方法很简单:减去错误分词的衍生词。 比如刚才的“和会”,你可以改用以下这个关键词来搜索: 这是个示范,一般情况下不用减那么多,减去几个曝光率高的就行了。
这是一个完美的搜索技巧,因为无论加法还是减法,它们的缺陷之一是可能被你用的关键词屏蔽了不应该屏蔽的网页,但这种减去含主关键词的衍生关键词,则几乎没有这个问题。你放心减吧,那些含有被减去词中独立单字或词组(如歌、议、防御、务、物化、员、计、音乐)的网页,都好好在呢,你可以用如“和会
-和会歌 歌”找出来。 这个技巧,也可以对付一些有衍生词的关键词,如搜索关键词“曹溪”,你发现有个版主叫曹溪、有个地方叫曹溪镇、有个派别叫曹溪宗、有个庙叫曹溪寺、有条路叫曹溪路。 另外,如果你输入的关键词多了,google只会搜一部分,并提示说搜索框中只能支持最多10个字词(10个字词是google现在的规矩,可能也是专对中文或双字节语言的规矩,英文搜索支持的关键词要长一点。google以前甚至曾对汉字搜索只支持最多6个,差点没把我气晕了,不过不到一周它就醒悟了),我不明白它的10个字词是怎么计算的,用不用语法,用什么语法和词组长短差别很大,反正我既碰到过超过10个字词就不能查的,也查过21个字的。以我的经验,用空格能搜的关键词多一点,用减法能搜的关键词就少一点,10个多不了多少的。所以如果要减的衍生关键词超过10个字,可以选用baidu,baidu的搜索框支持最多三十几个字词。
|
||
|
||