中文搜索引擎指南网

标题: 搜索引擎未来的3大方向:从索引信息、理解意图到连接真实世界 [打印本页]

作者: sowang    时间: 2015-1-21 23:43
标题: 搜索引擎未来的3大方向:从索引信息、理解意图到连接真实世界

Bata车间(BataStudio),一个有温度的研究分享平台。致力于在TMT喧嚣外衣下,提供好故事、新见解和靠谱的方法论。

搜索引擎不是新东西,但它足够重要。这篇趋势探讨贴,大家可以学习下,原创首发哦!


【标题】从索引信息、理解意图到连接真实世界:搜索引擎未来的3大个方向


这两天“华山求婚妹”火了,但很少有人知道这段在优酷、爱奇艺首页大推的视频内容竟然来自百度一个“实时搜索”的直播项目,一个搜索引擎产品。


搜索引擎曾经是互联网世界的救世主。它帮助人们从无尽的互联网信息中方便的找到自己需要的信息,避免了因为信息大爆炸而崩溃的互联网体验。与此同时,作为产品模式和商业模式都很清晰的互联网基础服务,搜索也带来的巨大的经济联动效应,谷歌、百度等巨头之外,还有一系列基于搜索形态的互联网产品成为比特世界的中流砥柱。


但搜索引擎会永葆青春么?


当信息奇点越来越多、用户需要越发多元和复杂、技术演进方向和呈现模式越来越多样,我们看到,基于复杂算法的结果排序、基于人工智能的信息理解能力乃至基于多维世界的信息获取维度的无限提升,正在将搜索引擎未来带向光明的未来。


复杂算法:信息展现结果的进化


人们曾经习惯用查全率、查准率来衡量搜索引擎的优劣。在信息大爆炸背景下,围绕结果排序本身就能有无限技术含量(算法进化路线)、无数故事可讲(巨额广告收入)。


随着网页功能日益复杂化、智能化,人们的需求也开始上升到更广阔的层面,于是,机器人对网页数据的抽取和结构化也日益复杂。所以在很长一段时间里,基于复杂算法的信息展现排序结果,构成了第二代搜索引擎的核心要务。而在搜索引擎算法世界,一些被广泛认可的要素构建了PageRank的基础,同时这些信息正在不断更迭。


比如,新鲜度(对于一些查询,新近的信息比较早的链接更有价值)和地理位置(百度能获取搜索者的大致地理坐标,会将本地信息排在前面)、唯一结果(人们对于一些答案可以直接获取结果,而非通往结果的网页链接)等要素,不断帮助人们从搜索引擎得到更好的结果。《连线》杂志曾介绍称,“谷歌目前使用200多种信号来帮助确定搜索结果的排序。”此外,用户在搜索过程中产生的数据被证明同样很有价值,这些数据包括他们点击哪些结果、不满意时对关键词的更改、查询关键词与所处地理位置的关系等。


这意味着,谷歌、百度等主流搜索引擎的机器人可以从数百个维度来理解用户的搜索意图,可能是用户所处的情景模式,旅游或是购物;也可能是用户希望要的媒体形式——文字、图片、声音或者动态的实时资讯;也可能是用户所属的国家、地理位置或者使用的语言,甚至上一条搜索关键字的既有信息——对话式结果展现正在被广泛测试;此外还有用户的社交圈——机器人尝试理解用户敲入关键词背后的复杂意图,提供个性化搜索。


此外,基于如此复杂的信息维度外,搜索引擎正在努力给用户提供可信结果(唯一结果)或者富媒体展示多样的多样结果,乃至中间件工具。在这个方向,Google的知识图谱、百度的框计算、微软Bing的实体搜索(Entity Search),都是在解决这个问题:将更丰富的、易理解的、强相关性的信息展现给用户。Facebook基于海量社交数据库推出的图谱搜索(Graph Search),也可以看做在此基础上个性化深耕。
然而,尽管技术算法科学家们已经拥有了更多工具,但在信息的大爆炸时代互联网产生的数据越来越多,没有被纳入搜索引擎的“暗网”以万亿计;同时用户真实信息(用户有时难以准确在搜索框上输入符合自己真实需求的关键字)获取难度的提升,仍然让这项工作十分艰难——比如,当用户输入“一朵白色的花”,搜索引擎会基于现有算法将于此关键字相关的文章标题、视频、图片以及提问信息(百度知道)等展现出来,但用户也许想知道的是自己刚刚看到那朵白色的花叫什么名字、在哪里可以买到,作为母亲节礼物是否合适。


这些困难,引导搜索引擎走向下一个阶段:基于信息理解核心的人工智能模式。

人工智能:信息理解模式的革命


人工智能已经算是“老技术”了,但至今远未达到成熟。在上世纪50年代,人们便将图灵测试当做人工智能的基础标准之一,那时候互联网还没诞生,更别提搜索引擎。而搜索引擎被发明之初,人们对它也没有这种期待——这不过是一种互联网上的检索程序而已。随着各项技术在搜索引擎领域的优先试用,科学家们却发现,搜索引擎通过不断学习可以具备一定的智商,而且智商会越来越高。


Larry Page曾经说过,谷歌不是要开发新的搜索引擎,我们要做的是人工智能。在他看来,搜索引擎是我们的主动意识与互联网世界之间最重要的连接方式,并且在长期数据积累、存储技术、云服务、超级计算和机器学习等方面具有独特优势,或许它们将成为最接近人工智能的互联网应用——这不仅是因为自身积累的数据量达到了质变的水平,还因为硬件存储、云计算、超级计算、模拟神经网络等相关技术的成熟。


于是,朝着这个方向不断演进的搜索引擎离人工智能越来越近,且同时解决了交互与体验难题——几乎所有网民已经被教育用搜索引擎获取信息,这为人工智能技术提供了天然成熟出口。


而一旦将搜索引擎当做人工智能的一个出发点,未来的想象空间就变得更大——人们不仅能够从搜索引擎那里得到个性化,智能化、社会化的检索结果,还能够与之深度互动,并在工作、学习、游戏中让它越来越懂你,最终得到一个属于你自己的“SHE”,也许爱上她也非不可能(美国电影《她》)。


当然,搜索引擎的人工智能之路并不平坦,需要更多底层技术和应用支撑,并且需要足够耐心,但这条路或许能够行得通。这也是为什么谷歌、百度都将多媒体搜索、自然语言理解、机器学习等技术看做重中之重的原因。


此外,即使难度很大、投入很多,但搜索引擎公司门仍然是有动力的。——由于互联网技术的突飞猛进及数据库的积累为人工智能提供了突破的环境与机遇,通过人工智能这条路,使它们从寻常互联网公司变成有一个未来技术想象力的高科技代表。而在这个过程中,同样隐藏着巨大的商业利益——谷歌、百度们为了人工智能在大数据、深度学习领域的推进,能够提高搜索用户体验,催生更多新生服务模式。


而当人工智能范畴下的搜索逐步走向成熟,解决了信息理解的难题之后,那么问题又回到原来的位置:信息已经充分多样、可信、可用了吗?这引导搜索引擎开始走向下一个维度:链接真实世界的无限信息。


链接真实世界:信息获取维度的无限可能


几年前,谷歌开始与Twitter合作,推出以实时微信息为主的“实时搜索”(Real Time Search),一时间引起不少兴趣,效仿者甚广,国内从有道、搜搜到百度,都在那段时间将实时搜索信息当做一个杀手锏。这种情况下的“实时搜索”,解决的仍然是互联网本身信息的时效性——一个重要又很可能产生大量冗余信息的维度。你或许能在微博搜索上检索到某个用户发布最新的消息,但它往往远不是你想要的那个结果。


很快,随着互联网封闭属性越发浓重,加之实时信息冗余过量,这种所谓实时搜索渐渐失去了吸引力。但这种跨越时间间隔(搜索引擎爬虫抓取页面信息的时间以及你检索到所需内容的时间)的体验,仍然被认为是一种颠覆式体验。


而如今,在云端计算成为现实、大数据分析走向成熟,以及物联网传感器遍布世界每个角落,信息获取与处理的能力将得到量级提升,而搜索引擎能够检索和调用的真实、事实信息,也得到更多的可能。

具体的,我们知道,如今百度已经能回答“故宫人多不多”等类似答案,其搜索结果调用百度地图的“热力图”,可以实时给出景区人流密度热力图,供游客参考;而在移动搜索领域,这种模式将变得更加重要——智能手机本身就是一个链接真实世界的“神器”,它的摄像头、音频传感器、重力感应器等多种不见,构成了搜索引擎接触这个世界的一个个触电,于是我们看到拍图搜索、声音搜索甚至气味搜索等产品陆续出现,而交互模式也从简单的键盘输入变为语音、图片等多种模式。


此外,日前在微博和视频网站上走红的“华山求婚妹”,其在被誉为“华山第一险”的30公分悬崖栈道上求婚视频,即来自百度推出的一项实时直播产品——女生让男友定时等电脑前,自己掐好时间出现闯入镜头,从而实现真正将万里之遥的物理和时间间隔消除,并以搜索的形态展示的新模式——搜索引擎链接真实世界、无限提升信息获取维度已经成为现实。从这个维度看,互联网正在连接真实世界,搜索引擎作为接通两个世界的桥梁,势必发挥出更大的商业价值和社会价值。


当然,链接真实世界的搜索仍然需要复杂算法时代积累的各种信息检索技术积累,以及人工智能范畴下的理解能力作为支撑——基于复杂算法的结果排序、基于人工智能的信息理解能力乃至基于多维世界的信息获取维度的无限提升,三者并非互相取代的进化论,亦非互相隔离的三个分支,而是必将有机融合的技术本体。


到那个时候,搜索引擎也许不在是一个搜索框,而是已经隐身在一切新一代智能软件和服务之中,连接真实世界与你自己,跨越时间空间接线,无处不在,永垂不朽。




欢迎光临 中文搜索引擎指南网 (http://sowang.com/bbs/) Powered by Discuz! X3.2