中文搜索引擎指南网

 找回密码
 禁止注册

QQ登录

只需一步,快速开始

搜索
查看: 14970|回复: 1
打印 上一主题 下一主题

中国工程院院士方滨兴:大搜索促进大数据价值挖掘

[复制链接]
跳转到指定楼层
1#
发表于 2015-9-22 19:24:42 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
央广网科技9月18日消息(记者 杜阳)第三届绵阳科博会分论坛如期举行,在17日的国际电子信息发展论坛上,中国工程院院士方滨兴发表了“大搜索促进大数据的价值挖掘”的主题演讲。

    方院士从搜索引擎的角度,以实例为证,具体阐释了大数据核心价值。他表示,移动互联网、大数据、社交网络、物联网、云计算五大IT新技术催生了网络空间大搜索。大数据追求的是价值挖掘,其背后则是发现服务,智慧搜索需要知识支撑,存在很大空间。

    在面向网络空间的大搜索引擎研究上,中国应力争突破技术前沿,为今后信息技术发展奠定更好基础。

    以下是他的演讲全文:

    大家好。我今天演讲的题目是大搜索促进大数据的价值挖掘,让网络展示智慧。我准备从大数据来考虑,我们知道大数据有5V。一个是它的规模巨大,一个是它的产生速度快,一个是它的类型形式多样,还有一个是它的数据的不确定性。还有一个不是它自身的诉求,是我们追求的诉求。所以我们搞大数据,本质是什么呢?我们对大数据挖掘出来的价值,是大数据的一个根本。大数据发现能够带来很多的用处。比方说我们可以看到哪一个企业的产值最高,这是一个什么方式呢?我们称之为是统计的方式。这个会比较简单。

    还有一个,近期会出现什么热点,你事先不知道。我们会得出什么结论,前面,我们知道总会某一个企业产值最高。这个,是可以预期的。

    还有一种情况,比如说看病,怎么走最近,这个比较复杂。我们讲这是可以的。也许那个医院排队人非常多,你去得快,到了排很长队。那么你可能找一个排队少的,但是那个医院不太擅长,这也不合适,一系列的因素。我们就要得出一个解决方案。

    发掘大数据价值,推动大数据的本质就是说这么多企业挖掘的价值,可以极大的提升它的价值。比如说亚马逊,提前销售额超过30%,中移动的客户投诉识别系统,年节约成本达到540万。

    但是我们注意到这些案例,数据是自己的我用自己的数据挖掘未知的。如果这个数据是开放的,这个数据别人也会拿到,会带来什么呢?我们非常期盼。如果这个数据能够开放出来,大家可以看到更多的东西。这样的话,我们把数据挖掘,公众可以获得利益。比如说社交网络,新浪微博的社交网络,就是利用这个开放数据,人人都可以获得这个数据,试图获得一些新的需求,这可能是一种传播,情感分析,关键帐户等提供分析。那么新浪微博提供了。

    还有一种例子,这个是鹰击微博监控。我刚才从大数据的角度来考虑。我现在从搜索引擎的角度来思考。大数据很重要,现在我们搜索是怎么样的呢?我们可以搜到简单的信息,通过二维码,上面哪里有啊?什么价格,物流合作怎么样,走到哪里了,我还可以搜索人物,这个人是什么情况,我们可以按地域搜索。我还可以说微信摇一摇,周边谁。我做飞机,一搜,我认识的人。我还可以搜联网式的,他能够搜到所有的联网式,包括门禁系统,包括路由器,包括打印机等。当然,不仅仅是为了搜,还要去发现这些漏洞,有没有弱点。它联网的设备居然有漏洞,让你轻易的进去了。这种搜索都有。

    还有搜索移动的设备,智能自行车,GPS,GSM模块,现在到哪儿了。还可以搜索传感器,这块要传感器感受我们现在的空气的净化程度,或者某个传感器感受一下压力等等。如果它这个传感器是对公众开放的,就能搜索到。

    所有这些我们看到什么呢?搜到是一种存在式搜索。我们通过搜索引擎找到的。我们看到还有一些什么搜索。我们先说存在性搜索是什么。是将以存在的,符合用户需求的提交给客户,在于如何给车符合用户信息。存在性搜索可能存在用户需求的搜索结果提示用户。对大家在怎么筛选最有用的信息。

    存在性搜索还有一些什么呢?搜时间,我们在搜索引擎,打北京时间马上告诉你现在几点钟。而并不是告诉你哪一个网站有北京。首先它认为你是想要用一种服务,是想让它告诉你现在是什么服务。你说北京天气,马上就告诉你北京天气,这是提供一种服务,这种服务就是天气。比如说机票,机票哪一天到哪一天,这是提供什么呢?提供一种服务,服务是什么呢?是机票的一种情况。

    你说今日汇率,就会给你提供人民币,汇率情况。你要敲今日限行。在北京,你输入今日限行,尾数为3,8限行。当然,你要是在广州,会告诉你很多限行情况。你要说测网速,马上提供你现在网速是多少。这都是一种服务。你说速度游戏,马上就给你提供诸多的速度游戏,随便点哪一个。甚至你说爸爸去哪儿,会把这个电视和电影提供给地,直接一点就可以去看。由此,我们看到是什么呢?我们看到的是服务,是一种服务搜索,服务搜索是什么呢?我们说服务搜索就是一个尽力而为的原则,不能保证你要的是精准的。各大搜索引擎都汇聚,这种需求是不是你想要的,也许你要的是服务,而不是信息。就把你要的需求提供。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
2#
 楼主| 发表于 2015-9-22 19:25:06 | 只看该作者
我们看还能搜索什么呢?还能我搜索一个人物的关系。取一个名字,告诉你这个人物跟谁有关系,而且有些关系是什么关系,师生关系,同事关系等等给你列出来。学术搜索,就告诉你这个人参加什么活动,参加什么会议,学术背景的信息都给你提供出来。

    路径搜索,大家知道,我导航从成都到绵阳。所以我们说这些是一些什么搜索呢?这些搜索是一种知识搜索,为什么呢?因为已经不是客观存在,如果没有这样的服务,没有的信息,但是给你现组织起来,对不对不一定,所以我们路径搜索也许你知道更好的路径,但是按照他的知识来。 知识搜索根据用户需求给我们提供了一个答案,这个答案取决于搜索自己。

    首先是大数据,我们追求是价值挖掘,价值挖掘背后是什么呢?知识发现服务。搜索引擎我们圆存在性搜索,现在演变到服务搜索,现在是知识搜索,他们俩开始并轨,是一个什么呢?基于搜索引擎的知识发现服务。也就是说这就是一个大搜索。我们想是智慧搜索,后来想如果没有知识支撑,还走不到。

    那么看看,如果搜索引擎我们提供知识发现服务,会怎么样呢?大家大家知道导航,导航现在不仅仅是有地理位置的信息,还有一个交通流量信息,实时导航。我用的是搜索导航系统,我差不多注意到五分钟变一次,原来是4道变一道,肯定变了。他会告诉你一个绕远的路,但是告诉你这个知识也是实时的交通流量的信息,甚至有线路的信息。你现在选的道,尽管是20公里,但是进入的这一道是每小时20小时的时间。这么精准,我们说这个是知识发现。

    这样的话,我简单说,什么是大搜索,我们说搜索引擎和知识发现结合,简单一个定义,面向泛在网络空间中的人,物体和信息。而且还要正确理解用户意图基础上的,基于从网络空间大数据获取的知识,给出满足用户需求的智慧解答。所以这个大数据,大搜索就有这么几个要素。

    我们看看,是基于一个搜索引擎的知识发现,首先获取数据。你说获取很容易嘛,我们传统的获取是互联网获取,现在大数据要增加新的,比如说地图,流量从哪里来的呢?当然,更多的是甚至是搜狐百度,我们用了搜狐地图,就给我们发信息,从你的所向获得了一个信息,然后再告诉别人,这个移动怎么样。为什么呢?因为你一条道上,总得有一个,很多人用它的东西。这些就是算得很精准的数据,这个获取一定是在空间中获取。我们叫做网络空间。不仅仅是互联网,还有电信网,传感网等。获取信息这个问题,我要占整个空间,包括传感网,互联网。

    第二个是传感感知。作为一个大搜索,还有一个特别的挑战,正确利用用户的信息。我要搜天涯海角,知道什么意思吗?某个公共汽车站是天涯海角,甚至一个影视片是天涯海角,所以这里面涉及到很多。你要在一个城市里面车展给你推过来,需要分析你的需求。

    那么再一个要素就是知识。这个问题很大,很关键。有点像传感专家系统,但是巨大的差别是什么呢?专家系统看一个遍,但是当搜索引擎,对不起,我写一个,我要到天涯海角怎么走,两小时告诉我肯定不行,你要迅速的告诉我。一定要事先把各式各样知识都摆出来了。首先是挖掘大量的问题,每个问题我都事先排了很多答案,有些答案是可以带参数的。这个是参数获取,因为是实时的。这个结构要构建好。

    第四个就是我们要给出一个方案。这个方案一定是符合你的。美国说现在我们要竞选,谁有戏。调研过了四千人,但是有更多的信息来,大家在网上是怎么议论的,这边的变化怎么样。这个人逐渐变那个人,就可以为各方面算,可能谁能赢,那个答案就是智慧解决答案。

    最后一个,隐私保护。我这个数据来了,发现有个人隐私,我们就做实验,我们看到一个研究所说,本项目获得了国家科技进步一等奖,一定是保密项目。但是很简单,大家叫什么,其实就给什么。找了以后,发现这个所原来是一个什么所,这个所是研究什么的,然后看它的历史发展文章,特别的战术武器方面发表文章,里面无意中说这个型号,一定达到国际水平了,最后我们就能带出来说,这个实际上是某一个型号武器。通过大数据把你的隐私挖掘出来。隐私怎么保护好?关心孩子走到哪儿呢?绑架者也可能找到你的孩子,这个也是一种风险。

    大搜索的5S,五个核心能力。一个是用户感知,多源综合,安全可信,智慧解答,泛网获取。怎么看5S呢?第一个S呢?泛网获取。一定是在整个公众号获取。第二我S是感知能力。第三个感知是多源综合能力。第四个是安全可信。第五个S是智慧解答。大搜索系统是通过从不同通道获取海量信息,通过理解用户搜索需求。

    泛网获取,我们说泛网获取是定向性的获取。我们现在针对这个问题的答案需要哪些信息,这样的话,我所有准备好,都是一些答案类。我们说传统搜索是从网页上爬取互联网数据。大搜索是根据给定的目标和任务,在泛在网络都通道中获取包括,人物,事件时间,空间等各类信息,,所以我们要获取,清洗,关联和索引。

    我们拿这个举一个例子。我们将来的物联网购物。我要买衣服,你该开车开车,走路走路,附近有人卖衣服,因为走到哪儿都有实时的沿路信息。我们现在买衣服不一样,挑一天不一定买,男人买衣服,说好了这个号,有没有,没有,再跑。所以就解决了走过路过错过的信息。就把这个关键给你推送过来。

    第二个是用户感知。你需要的意图理解精确化,基于肠镜感知的意图理解。传统搜索只关心所提交的查询词。大搜索是不仅能够在语义级别上对用户搜索意图进行理解,还能根据用户的时空位置,情绪状态以及历史偏好等信息来感知用户的需求,并以恰当的方式进行表示,提交给搜索引擎。比如说你说关心,就会细化,你说不关心,就走别的。你说大爆炸,给你很多知识。

    马尔代夫度假,这句话怎么说呢,因为到了搜索,就告诉你,这个理由有很多游,豪华游,经济游等等都给你推出来。如果点一个豪华游,你不在乎钱,就告诉你哪一个更奢华,给你推荐这个。如果你说经济游,可能是学生,就尽可能的告诉你哪一个有单身宿舍,大家可以拼车等等。所有这些都是对你的判断,才可能往下再走。

    第三个是多源综合。传统的搜索只是根据PageRank给出最相关结果。排在最前面是别人点击最多的,这个肯定最没有人最关注的。当然,国内游一些搜索引擎,根本不理这个,谁给的钱多,就给你排在前面。我今天遇到一个解放军的医院,把我们甲医院都排在前面了。位置,传感器,网络数据中,进行关联综合。形成相应的知识框架及索引体系,并以知识仓库的形式存储和管理网络知识,服务于为求解用户智慧答案的知识索取。医生的看病时间长,时间短,病人的什么情况,报医院的位置,病人对医院的评价等等,所有这些都是这些要素,如果你说到医院的话,就给你这个。

    比如说,我要到达银行,马上给你算,周边多元有哪些医院。比如说银行周边,一公里有,两公里有,但是当地有牌号序,尽管离你近,但是排队人数是20人,每个人处理人数,一小时内,你要是一小时才到,一小时会增加15人,这个一小时增加26人,服务太慢了,最后告诉你,哪一个方法可能是最好的,可能最后告诉你哪一个医院最好,尽管远点,要70分钟,但是速度最快。所以这就是它背后存的。我们现在存的就是简单所以,这个网页里面,有这个词,那个词,产生了哪一个文字。所以它两个差别是很得大。

    好,安全,安全很重要。刚才说了,我们说传统的安全,只有简单信息规律。传统搜索只有简单的信息过滤措施,根据什么什么原因,我这个某一个结果忽略了,你要是想知道为什么,你见进去一看,德国监管部门告诉你是错误信息。大搜索,我们对数据来源进行确认,并对之进行标签,我们进行点评。恶评就是不是真实评,因为大众是一个经典的你那个故意的就是非经典的。这个都是我们在安全中,所要做的。当然,我们还有一些,像360搜索,我得有防控者,什么人都搜,360自己不也知道嘛,怎么办呢?可能这里就做变换,这个手环出门前,按一下,那个随机参数,发的地址跟这个随机参数偏离,在成都,他偏离。因为我的手机接受了,就会把参数校正了,这个时候,绑架人并不知道你的参数,找不到,这样的话,就获得了真实信息。

    所以我们搜索了一系列的像隐私保护,行为隐私保护等等。如果是一个安全搜索引擎,可以屏蔽掉。谷歌现在说了,所以有过滤能力,从这个来讲。比如说我搞一个安全,我要搜一个人的位置,那么我做一个配置,我是按照我的情况来做位置。这是我的隐私,不知道我在哪儿。如果是我的同事,我的同事是在工作时间,你搜索我的距离,可以定位10米,我可能在这个办公室,不在那个办公室。但是在休息时间,你给我的定位是在3公里。但是,知道我不是在绵阳。对好友工作时间就不管那么多了,但是呢,你休息时间,可能找我,我们干点什么事,喝茶,你可以在一百米以内。这样的话,就是一种安全的方式。

    最后一个是解决方案。我们说这个搜索,大搜索跟传统搜索不一样,大搜索就是给一个解决方案。所以传统搜索给我一个存在信息,大搜索是给我一个答案。这个答案要判断你的搜索意图。比如说你周围是协和,北大,309,北大等候一小时,309不用等,交通呢,到协和还拥堵,到北大比较堵,309比较堵。

    比如说,人物简历,谁来演讲,我公布的简历都是十年前的简历。现在网上就是这样的,我们说到大搜索这个年代,就是需要智慧。不是说网上什么信息拿什么信息。比方说一个时间段,一个地段。智慧搜索,会自动到网站走。给你确认,你说放心,有他的名就对了。靠一个认证,或者是旁证。这个摄像头怎么样,给你提供了一个简历,自动搜成的简历是精准的。

    这样我给他一个定义,什么是大搜索。我们有存在性搜索,一个是在互联网,一个是在物联网空间的,一个是在电信空间的。三个空间,首先在搜索范围,就已经是一种多网,这种多网是泛在空间。我们捉传统搜索引擎范围,是由互联网+电信网+传感网。我们刚才搜索,重新组合,发现有搜索信息的,搜索的内容也发生了变化。现在除了信息还有物体,还有信息,还有人物。大搜索的搜索内容信息扩展到了物体,信息和人物。我们说内容维,有信息,人,物。这样的话,我们通过这个重新定义,什么是泛在大搜索。根据一定的信息和方法,从互联网,物联网,电信网等泛在网络上实时,快速,精准地,获取各种物理实体,人物,信息等,具备洞察理解用户搜索意图的智能,能够对网络空间各种对象进行高效地组织和管理,建模和索引,具备为用户构建尽可能符合用户需求答案的智慧,能够以向量的方式提供智慧解答。搜索内容由信息扩展到物体,信息和人物,从传统搜索面对的虚拟世界扩展到了互联网。

    从历史的演变看今天的机遇。搞搜索引擎的人没有机会了,百度早出来了,这个时候,就要搞很精的搜索引擎。像搜狗啊这些,从地图开始走,走一些别的路,然后再来推搜索。但是那个时候,其实已经从精,从精的角度来解决。想要我排在最前面,一上来,200个答案,我只要在前50个答案,找到你的满足。

    到了第三代,十年前,根本不用说投资了,搞搜索引擎都是搞别的长再转过来的。像360,都是搞别的然后转到搜索的。语义搜索,基于知识的搜索技术等等这些就出来了。

    网络空间搜索引擎技术的发展。互联网,传感网和物联网都需要信息,但是虚拟世界信息,人,物,我们说大搜索的依赖五大新信息技术。大数据,云计算,社交网络,物联网,云计算等等。所以这五个是现代的信息技术变革最大的。这五个技术,就给我们大搜索提供了它的基础。从网络空间,物联网提供了网络空间,社交网络提供了对人的搜索。

    大搜索有两个重大含义。第一个就是大数据的挖掘从哪里挖掘出来。我们企业内部挖掘就是内部的搜索。我们互联网的搜索引擎,除了百度这些是互联网搜索引擎,其实你上任何服务,你上携程也好,等等都要搜索。我们现在注重是内部挖掘。我们还要做外部挖掘。

    还有一个,搜索引擎要延伸到了物联网空间,延伸到电信空间,传感网空间。如果互联网没有搜索引擎,互联网根本发展不了现在,你做什么东西想要找也找不到。如果物联网搜索引擎还没有,现在没有物联网搜索引擎的今天,我们说要运用物联网大数据,为以后的互联网发展鉴定了基础。现在要做大搜索,你现在花钱去买一个排队信息,这些排队信息,你花钱买,我花一万块钱给我,这个排队信息对它一点意义都没有。只是说现在第几号了,十号了,没有任何意义。一旦卖给你了之后,用你的搜索引擎,到哪儿去看银行帐户,马上到你们那去,用户太多。但是告诉了以后,有什么好处呢?就到人少的医院去。当然,像好医院,301也高兴,现在来我这里看病的都是那种很小病的,排队把我资源都占了。但是,当所有牌号器看到的时候,我们人就分流了。今天的好处,你今天花钱,还给不给我,肯定给你。要不给你的话,机会就没有了。那些事先没有给你说,我给你,对不起,你得给我钱。携程刚开始的时候,到宾馆去要数据,现在你得给我钱了,你看哪一个宾馆不摆携程。所以这就是一个大机会。

    我的报告完了,谢谢大家!
回复

使用道具 举报

Archiver|手机版|小黑屋|教你搜 ( 鲁ICP备16006309号

GMT+8, 2025-6-15 01:33 , Processed in 0.325147 second(s), 20 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表