中文搜索引擎指南网

标题: 深度搜:一个生物科学家的搜索梦想 [打印本页]

作者: sowang    时间: 2010-4-14 14:01
标题: 深度搜:一个生物科学家的搜索梦想


 胡前进,深度搜董事长兼总经理,1985年中国第一批开放留学赴美深造的生物科学家,向网易科技讲述了他的搜索梦想。

  做学术搜索 让知识发挥最大价值

  网易科技:先简单介绍一下深度搜吧。

  胡前进:深度搜定位是知识信息搜索平台,目前主要是以学术论文为主,还包含了百科知识等等。

  网易科技:但这些内容用谷歌、百度也可以搜到。

  胡前进:常规的搜索引擎,往往有几百万结果,很难排序。你真正要的结果可能排在非常后面,经常还要第二次第三次搜索,效率比较低。

  网易科技:我记得谷歌是按照访问量来排序的。

  胡前进:这个是对的,这是谷歌最大的技术突破。一般而言,大家都去的站就是好的。

  但是科学文章不能这样,我关心跟研究相关的东西,只要跟研究有关,就要去读,而不是关心大家都去访问的内容。否则就是有偏见的,比如中国人喜欢看中国人研究结果,美国人喜欢看美国人的研究结果。

  网易科技:那深度搜是怎么解决这个问题的?

  胡前进:在内容上,深度搜数据库只收录学术论文、专利、百科知识等,保证了质量。在技术上,深度搜的算法是,根据每个字所附带的信息量,赋予其不同的权重。搜索的时候,根据关键字匹配的数量和权重来判断结果的相关性,相关性高的放在前面,低的则放在后面。

  还可以把整个段落粘贴、复制,进行搜索,常规的搜索引擎超过32个字符就无效了。

  网易科技:每个字的权重是系统判定还是人工?

  胡前进:系统来做的。这是依据信息学的原理,常见的字,比如“的”,信息量是很少的,几乎没有,因为每个文章里都有“的”。而某些特殊的字,信息量是很大的。我们是把重要的信息、把这个文章区别于其他文章的字,来进行寻找。

  网易科技:我记得以前上学时,在中国知网的平台上也可以搜到很多专业学术文章。

  胡前进:其实它是个内容集成商,但是搜索技术很差,稍微打的不对,就找不到。像中国知网这样的网站,还有万方和维普两家,这三家几乎集合了中国所有的专业文献。

  深度搜希望能提供一个专业的知识搜索引擎。这些知识都是人类的财富,应该让它容易被找到,发挥最大价值。

  从生物信息学出发的搜索逻辑

  网易科技:您是学生物出身的。

  胡前进:1982年复旦生物学毕业,1985年第一次开放留学时候,到美国去。第一晚住旅馆之后,用剩下的5美金开始了20年漫长的美国生涯。读博士和博士后,一直从事生物、医学方面的科学研究。

  你也知道,硅谷是一个高科技发源地,不仅IT,也包括生物学。当时硅谷在风险投资的催化下,有很强的创业氛围。1997年我和几个朋友出来成立了生物技术公司,把一些技术和产品引进中国。

  网易科技:那怎么从生物转到了搜索?

  胡前进:2004年谷歌上市和互联网发展,让我们认识到互联网搜索巨大的市场前景。另外,做研究经常要搜索科技文献和专利,而当时几乎所有的搜索引擎都非常低效。

  那时我们就认为这是一个机会,可以去开发一个新的搜索引擎。

  其实在生物学中,为了发现蛋白质包含的信息以及它与疾病的相关性,常常需要将正常蛋白质和病变蛋白质进行比较,在大量的数据库中迅速找到发生变化的点。这是研究的一个基本工具,也可以用来做文字的搜索。

  网易科技:什么时候开始实质性动作?

  胡前进:2006年在美国成立了公司,借用生物信息学的原理来做文字搜索。希望解决两个问题,一个是查准,一个是完整性。就是要准确地找到我想要的内容,而且要能找全。

  那时出于成本考虑,在上海建立了研发团队,在美国团队的带领下做一些辅助性的研发。这也是深度搜公司的前身。

  2009年我接管了上海团队,成立深度搜,针对中国市场来做。

  网易科技:国内的搜索引擎竞争激烈,接受上海团队是有风险的。

  胡前进:中国有2.6亿搜索引擎网民,受过大专及以上教育的占到40%。在互联网搜索内容上,除了音乐和视频,第三类就是新闻和专业文献。这是个需求量并不小的市场。

  但是在对谷歌、百度满意度的调查中,用户满意度不到50%,也就是说一大半人不满意,其中主要是对搜索精准度的不满意。通用搜索引擎为了满足大多数人的需要,把很多杂乱的内容都放了进来。

  这就给我们提供了机会。我们不要和百度、谷歌去竞争,只满足这部分人就好了。

  网易科技:深度搜现在的用户定位是什么?

  胡前进:科研人员、写论文的学生,还有其他在生活中需要专业搜索的人群。

  从学术平台向知识平台扩张

  网易科技:我上网搜了下,在深度搜上可以看到论文全文,这是否涉及到版权问题。

  胡前进:就检索本身而言,并不涉及版权问题,主要是通过标题、摘要、作者来找。

  你提到的全文,是我们跟维普在商业上的合作。我们主要是给科研人员和大学生提供内容,如果读全文要付钱,可能就不会看了,影响了文章的受众面。

  现在和维普的合作是,读者免费阅读,维普通过增加流量获得广告收入,由广告商间接支付版权费用。对广告商而言,也接触到更多的读者,是一个三赢的模式。

  这个模式依靠的就是我们的搜索引擎比维普的要好,读者可以更容易找到维普的文章,增加流量。

  网易科技:和其他两家是否已经有合作?

  胡前进:其他两家只是抓取了标题,摘要,维普是开放内容。这几家之间内容80%-90%都是重叠的。

  目前我们收录最多的是学术论文,但这只是知识的高端,还有其他健康、教育、金融、法律等各种知识,长远来看,想在内容上扩展,把深度搜变成一个知识型一站式网站。

  网易科技:在盈利上,深度搜是怎么考虑的?

  胡前进:流量带动的广告。深度搜现在是百度广告联盟成员,以后希望能自己卖广告,比如专业医疗仪器广告等等。

  现在主要考虑先增加流量,接下来还会和更多的垂直类网站谈合作,丰富数据库内容。等用户做起来之后,开始考虑融资。

原文出自【比特网】,转载请保留原文链接:http://net.chinabyte.com/113/11214613.shtml




欢迎光临 中文搜索引擎指南网 (http://sowang.com/bbs/) Powered by Discuz! X3.2