百度主任架构师廖若雪演讲内容

sowang · 发表于 2009-8-18 23:32:44

新浪科技讯 2009年8月18日，2009年百度技术创新大会在北京中国大饭店召开，大会上百度邀请中国互联网技术专家和投资人士，以及互联网技术爱好者，共同探讨互联网技术和未来发展。新浪科技对此次会议进行全程直播报道。

　　图为：2009年百度技术创新大会搜索技术趋势分论坛，百度主任架构师廖若雪演讲。

　　以下为实录：

　　各位来宾大家好！刚才几位嘉宾从各自的角度对搜索引擎的将来做了表述，百度同样认为，搜索引擎的将来会朝着更加满足用户需求，更加智能，更加开放的方向发展，所以我们也办了这样的论坛。我希望跟大家分享一下我们是如何利用技术，包括云技术，包括开放平台如何满足客户的需求，以及我们现在面临的挑战。

　　我今天的演讲大概分为以下几个部分，首先是阿拉丁的起源，接下来我们一起看一下阿拉丁有什么样的特点，这个特点会带给我们什么样的技术问题，我们对这个问题的解决方法，最后跟大家一起看一下阿拉丁会带给我们一个怎样的未来。

　　说到阿拉丁的起源，其实源于我们对于搜索引擎的用户，在搜索引擎需求满足度的一个研究。我们发现，只有75%的用户的需求最终得到了满足，经过对这些不满足用户的需求进行分析我们发现，很大一部分是由于能够满足这部分用户需求的资源，目前的搜索引擎还无法覆盖到。ACS的一个数据可以做一个旁证，37%，不到一半的网页资源和现有的互联网搜索引擎技术覆盖，有绝大部分没有覆盖到的。所以说，我们必须通过挖掘“暗网”才能更好的满足用户的需求。另一个发现的问题是我们现在对于用户表现的需求无法做到精确的分析，综合这两个问题，我们必须要挖掘“暗网”，必须更好的分析用户需求，才能更好的满足用户需求。

　　这里说到“暗网”，其实“暗网”每个人对它的定义都不太一样，在阿拉丁中，我们认为“暗网”就是目前搜索引擎所不能覆盖到的，但是可以满足用户需求的所有资源。包括分歧信息，包括数据库，包括Flash，甚至包括你我大脑中存在的信息。

　　因为这个原因，所以说我们会考虑，我们是不是可以采用用户行为分析，采用自然语言处理这个技术来更好的分析用户需求，结合“暗网”挖掘出来的资源来更好的满足用户需求，这就是阿拉丁平台的诞生。

　　接下来我们看一下阿拉丁有什么样的特点，阿拉丁的第一个特点跟刚才的“暗网”密切相关，我们需要能够容纳互联网上的各种数据，就像刚才所说的结构化的、非结构化的信息，能够把这些数据统一的按照用户的需求容纳到一个系统。第二个阿拉丁的特点是阿拉丁是一个以用户需求为基础的平台，他会分析用户的需求是什么，根据用户的需求去找到需求呼应的资源，最后给用户一个能够满足他需求最适合的展示方式，这就是阿拉丁的一个特点。

　　举个例子，用户的输入“现在几点了”，或者是“现在的时间”这样的问题，那么这样的问题是怎么处理呢？首先我们会分析“现在几点了”这样的问题，用户的需求实际上是想找现有的时间，其次，现有的时间这样的资源，在阿拉丁平台中对应的资源，我们会用标准的时间服务器来获取标准的时间，最后我们知道用户只是想获取时间，我们给他时间就足够了，不需要他再次点击，所以用户会得到一个当前时间的展示。

　　根据阿拉丁的特点来看的话，我们得到了阿拉丁的一些跟现有的搜索引擎不一样的地方。现有的搜索引擎主要的工作方式其实是这样的，比如他会进行内容的分析，对网页进行分析，得到网页和需求之间的相关性，对网页的一些操作进行分析，得到他的权威性，再结合网页的一些因子综合进行的一个排序。阿拉丁的资源，首先，阿拉丁的资源没有这些网页信息，也没有一些插入信息，所以他很难进行排序。另外，阿拉丁的数据一般都是职业化数据，这样对我们的数据分析其实是比较好的，另外他还有一个好处，是他一般是用推送的方式来获取信息，这样的话，他会解决问题的主要方面。

　　归纳一下，技术挑战是两个方面，一个方面是需求如何识别，另外一个方面是如何进行排序。需求识别是一个很大的问题在里面，为什么？这里说两个方面，第一个方面是用户的需求，他的表达方式越来越口语化，越来越倾向于自然语言处理方式，之前俞先生也提过，用户会说某某字，去掉某某偏旁，再加上某某偏旁是什么，这样解决不好。第二个，即便是用户的需求非常的明确，比如今天上午提到的“日全食”，在日全食发生之间，发生之后用户的需求实际上是发生的变化的。在日全食发生之前，用户是找发生的地点，日全食发生之中，用户找的是视频的直播，日全食发生之后，用户要找的是评论。所以排序和识别是两个核心的问题。

　　先来看一下排序问题我们是怎么解决，排序的问题解决方法我们主要是采用自然语言的处理方式，用户的行为实际上是告诉我们他背后真正的需求是什么，举个例子，在用户输入日全食的时候，还有很多是跟之前相关的，比如有一些用户会很精确的表达自己的需求，比如日全食发生的时间，围绕着日全食的需求，可以告诉我们日全食到底是什么，再结合用户点击数据等用户行为数据，我们通过一些统计分析，数据挖掘的方法，最后能够协助我们去了解用户的需求。用户需求识别里面的另外两个问题是，第一，用户的表达方式多样化，他会加很多不必要的或者必要的修饰语，我们会通过分析的方式解决这个问题。通过自然语言处理里面的方法，对用户的修饰词去掉，然后对应用户的需求。

　　还有另外一个是用户的表达方式多种多样，但是有时候他是一次一次的，比如说“百度大厦到中国大饭店有多远”，“百度大厦到中国大饭店的距离是多少”，这样的用户需求形式上不一致，但是语义上是一致的，所以我们用规划的方式，将他规划到一个语义上。

　　第二个问题是排序，其实这个问题本身来说，几个问题来源于对用户需求的满足，我们认为，就应该通过用户需求的方式解决排序的问题。简单的说是我们可以满足用户需求的资源，我们就排在前面，这样是非常的简单，但是这里面可能考虑一些比较复杂的问题，第一是需求即便是在同样的时间，同一个关健词，背后的需求可能都是千差万别的，在日全食发生之后，有的用户可能想找图片，有的用户想找视频，有的用户想找评论，那么如何对这些满足不同需求的资源进行排序？第二个是即便是一个资源能够满足用户需求，但是不是百分之百满足？这个不一定。就拿日全食的例子来说，日全食发生之后，用户想找评论信息，那我是不是给他一个论坛，上面有日全食评论就够了？应该不是这样的，因为还有其他的论坛有评论信息，这个信息并不能百分之百的满足用户的需求。

　　针对这样的问题，我们引入了两个因子来解决，一个称之为“需求满足度”，一个称之为“需求响应程度”，他们分别解决对于一个关健词来说，某一个需求的强烈程度，和一个资源对于某一个需求满足的程度。结合这两种因子来说，最终我们可以对最终的结果排序做出一个比较好的解决。

　　当然，需求其实并不是意味着特征，需求里面可能还有一些比较复杂的情况，比如有的用户的需求并不是简单的，他会包含多种多样的需求在里面。例子比如说像搜索刘德华这样的影视明星，那么这个用户可能他会同时想知道刘德华的近况、图片、新闻、视频，那么我们会通过称之为“泛需求”的方式来解决这个问题。还有一个需求细分类，比如视频需求，具体到电影，具体到网上的视频，具体到连续剧，那么对用户的需求来说并不是完全一致的，在排序和展示上我们会做相应的处理。

　　用户的需求还有一个方面，用户需求并不一定只来源于用户的输入，也可能来源于用户隐含的一些个性化的信息，比如用户所在的地域，地位的识别实际上来说这是一个很成熟的技术，已经不是什么技术难题，但是在阿拉丁中我们遇到的问题是，如何确定某一个需求需要引入地域这个特征。

　　我们来看一下阿拉丁其他技术方面的问题。

　　第一个是结构化数据，前面说了，结构化数据的好处是易于分析，并且有很多的逻辑关系可以拿出来用。结构化数据中的逻辑我们可以满足更加丰富的用户需求。举一个例子，我从北京到拉萨怎么走，这是很常见的用户需求，现在这个需求在网页上应该能得到满足，但是想说我从北京到拉萨中间通过成都怎么走，或者是经过成都再经过西安怎么走，这个时候互联网上没有直接的信息能够满足用户的需求。但是因为我们结构化的数据，我有结构化的火车信息、飞机信息、地图等，通过组合方式能够比较容易的，来满足用户的需求。

　　另一个值得一提的是按需求来进行展示，就是说前面也提到过，用户的需求并不是一个简单的文字就可以满足的，我们会通过图片，通过视频、Flash这样的多媒体形式，用户的需求确实是需要多媒体的方式来满足。另一个是说如果用户需要更精确的数据，或者是需要更多的交互，那么我们可以通过表格，表格的数据就非常的精确，非常的明白，然后对于比如用户输入“火车时刻表”这样的例子，那么我们就会告诉用户，你是不是需要更多的输入说你的起点，终点，这是更丰富的形式。对于刚才举的刘德华的例子，用户需要的是各种需求，我们就用整合的方式提供给用户。

　　这里有一个小细节，我们的结果中有这么多的多媒体信息，那么我们怎么保证用户访问数，传统的搜索引擎很简单，因为传统的搜索引擎基本上是文字信息，文字信息的量很小，用户的速度是可以保证的。但是大量的多媒体信息加入之后，一方面是提升用户的感受，另外一方面对于用户的保证速度是一个挑战。那么我们在这里面主要是通过了我们会分析浏览器中的渲染行为，他的网络行为，我们还会分析服务器和客户端的一些工作方式，分析中国现在互联网上的一些信息，优化结果页，优化我们的服务站，优化我们的DNH，优化我们的互联网布局，优化我们的路由，通过这个方式我们能够保证用户的访问速度。

　　阿拉丁是一个平台，那么这样一个平台上容纳了成千上万的用户信息，这些信息如果是通过人工的方式去一一处理是不可能的，所以我们需要一个很智能化的、很自动化的平台。那么他要实现什么呢？他要实现的就是资源自动整合，我们能够自动的知道这个资源的有效性，资源可靠性，我们不会让一些错误的资源、错误的信息上去误导用户。我们还可以自动的分析这个资源后面所能够满足用户的需求到底是什么，最终对于能够满足用户需求，并且可靠性和能效性都足够的资源，我们会自动的更新到我们的线上，去满足用户需求。

　　在这里，我们主要是通过了机器学习，用户行为反馈这样的技术来解决这些的问题。我们最终的平台下面还有一套智能的用户系统，来支撑整个平台。

　　阿拉丁的技术实际上是属于不停的发展之中的，我们认为将来的阿拉丁会朝着更加智能化，更加技术化的方向发展。举一个例子，是这样的，明天我休假，想出去玩儿，再现有的搜索引擎当中，你拿到的东西几乎没办法看，但是阿拉丁怎么解决这个问题的？首先我们通过自己语言处理，挖掘出来他想干什么，休假、游玩，两天之中的需求，那么隐含的需求，他所在的城市，甚至他的游玩习惯，这样隐含的需求，结合我们的一些阿拉丁的数据源，包括什么，包括机票、火车票、住宿这样的信息，还有签证、天气这样的信息，最终我们希望是通过整合这样的信息，结合用户的需求，最终给出一个完整的展示。

　　我们可以看到，阿拉丁其实实现的一个目标是什么？他利用一个简单的搜索框，就能够满足用户的全部需求。那么实际上这就是今天上午的同志提到的“框计算”的雏形。我今天演讲就到这里，谢谢大家。

		自动登录	找回密码
密码			禁止注册

百度主任架构师廖若雪演讲内容

浏览过的版块