中文搜索引擎指南网

 找回密码
 禁止注册

QQ登录

只需一步,快速开始

搜索
查看: 10739|回复: 0
打印 上一主题 下一主题

抓住大数据机遇 百度专家北大开讲

[复制链接]
跳转到指定楼层
1#
发表于 2015-10-9 22:53:37 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
大数据时代,海量信息通过互联网汹涌袭来。世界经济论坛的报告将大数据认定为新财富,发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。如何抓住大数据时代的大机遇,成为广大莘莘学子考虑的问题。

  2015年春季学期,北京大学软件与微电子学院研究生邀请来自百度搜索业务群组(SSG)负责搜索引擎构架、自然语言处理、互联网产品设计、机器学习、搜索排序技术、互联网推荐技术等方面的六位特殊“导师”,在《海量数据处理》的课堂上向北大学子集中展示了大数据领域的前沿成果与第一手实战经验。

  第一讲:搜索引擎架构——搜索引擎是各种尖端技术的试验田

  “搜索是极复杂的系统,是各种尖端技术的试验田。”百度SSG主任架构师蒋锦鹏认为,“搜索引擎的架构是一项把想法变成现实的艺术。”在他加入百度的7年间,百度的数据量增长了2个数量级,这对作为大搜索在线检索架构负责人的他来说是个不小的挑战。作为第一个登上讲台的导师,他从演示系统与真实搜索引擎系统的差距入手,介绍了大数据处理、搜索结果的时效性、稳定性、搜索速度、成本控制、研发效率、数据安全等搜索引擎架构面临的主要问题。“说实话,一开始心里还真是没底,不知道同学们能不能消化这么深入和贴近实际产品的技术,真没想到同学们对技术那么感兴趣!”蒋锦鹏课后终于长长的松了一口气。

  第二讲:自然语言处理——百度在做“有互联网特色”的NLP

  现任百度高级研究员的赵世奇博士,不仅是百度搜索业务群组技术委员会联席主席,还是中国中文信息学会青年工作委员会主任。他认为:“无论是百度的"框计算"所追求的"即搜即得、即搜即用"还是近来倡导的"连接人与服务",背后都需要自然语言处理(Natural Language Processing: NLP)技术来对用户需求进行精准理解、对互联网资源进行深度分析,以及实现需求与资源的语义匹配。因此自然语言处理是百度最核心的基础技术之一。”

  本次课上,赵世奇为学生介绍了百度NLP技术的全貌,而百度NLP的一大特色便是与互联网产品和用户实际需求紧密结合,用赵世奇的话说,是“有互联网特色的NLP”。此外,他还在授课形式上做了一次创新性的尝试,进行课上互动练习,要求学生基于已经学到的自然语言处理和信息检索技术,现场设计出一个“微博搜索系统”和一个“问答搜索引擎”。学生以小组形式介绍自己设计的系统,由老师现场点评。不同小组之间互相“PK”也互相学习,课上火药味十足却又笑声掌声不断。


第三讲:搜索产品设计——让产品在最合适的场景触及到用户
  在大学课堂上关于产品设计的课程很少,更何况是出自百度大搜索产品架构师——景鲲的“亲传”。景鲲负责百度搜索整体产品规划和创新突破,他基于百度真实产品案例,介绍了搜索产品的设计思路和理念,分享了让搜索产品更加简单便捷、智能化、富于格调与情怀的心得与经验。此外,景鲲还以语音图像搜索以及机器翻译这两款产品为例,向学生完整介绍了产品的设计过程。他传递了一个理念“让产品在最合适的场景触及到用户”,从语音搜索、图像搜索,到“筷搜”、“盲搜”、“神灯搜索”,百度产品设计师不断捕捉用户使用搜索引擎的各种场景,并为每种场景量身定制搜索引擎产品。

  第四讲:机器学习技术——机器学习是人工智能的基石

  机器学习,是人工智能的核心技术。于佃海作为百度自然语言处理部主任架构师,在百度一直从事机器学习与自然语言处理方面的工作。在这次课中,于佃海介绍了百度的机器学习算法,同时还揭秘了百度在机器学习算法创新、超大规模数据并行训练等方面的工作。他从应用实践出发,告诉学生,很多机器学习模型都不是生而有效的,而是通过无数轮的数据优化、特征选择、参数调优、错误分析等细致周密的工作之后才能打磨出效果来。学生对机器学习技术的应用感到很“震撼”,这也让于佃海感到惊喜:“很多同学特别想了解机器学习具体是如何在百度的产品中发挥巨大作用,以及如何优化迭代等,这些都是在一般教科书和论文中难以学习到的。”

  第五讲:搜索引擎排序技术——用户说好才是真的好

  百度的核心产品是搜索,而搜索的核心技术之一便是排序。来自百度的导师首先为学生介绍了搜索排序所依赖的机器学习模型,尤其是“学习排序(Learning To Rank:LTR)”模型;如何通过优化查询改写和匹配算法,以及引入深度学习模型来改善搜索结果的相关性;以及如何基于“用户搜索日志”,通过点击反馈模型来进一步优化排序效果。正如百度的导师在课上所说的,“文本相关性是远远不够的,用户说好才是真的好”。他的课程向学生展示了用户行为数据对于搜索引擎、甚至所有互联网产品的重要价值。

  第六讲:互联网信息推荐技术——从“即搜即得”到“不搜即得”

  搜索和推荐是搜索引擎的两个重要组成部分,就如同硬币的两面。当用户不明确知道自己所需或不知如何搜索时,推荐则成为系统启发用户搜索灵感、延展用户搜索需求的途径。作为百度主任架构师、百度搜索推荐技术负责人的黄际洲,主要介绍了基于大数据的搜索推荐技术。对每个用户的搜索需求进行深入理解与智能分析后,推荐富有吸引力的内容,使用户获得从“搜索”到“发现”的一体化搜索体验。2009年,百度提出“即搜即得、即搜即用”的搜索引擎新理念。而随着推荐技术发展,百度搜索引擎也在进化,不仅是“即搜即得”,更要“不搜即得”。在讲课过程中,学生对百度搜索推荐技术表现出了浓厚的兴趣,围绕具体的技术策略问题进行了热烈讨论。

  六个星期六堂课,北大学子既大呼过瘾又意犹未尽。国内外众多名校都在积极探索大数据学科的设置和发展,此次百度技术和产品专家走上北大讲台,不仅展示了百度的最新技术和成果,同时也为学生带去了独到的技术视角和丰富的实战经验。如果说大数据是这个时代赠与年轻人的大机遇,百度则愿凭借自身在技术、产品等方面的优势,助有梦想的年轻人一臂之力。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏

Archiver|手机版|小黑屋|教你搜 ( 鲁ICP备16006309号

GMT+8, 2024-12-26 11:13 , Processed in 0.224559 second(s), 21 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表