中文搜索引擎指南网

标题: 手机百度“高考热力图”让每一分都不浪费 [打印本页]

作者: sowang    时间: 2014-6-28 00:45
标题: 手机百度“高考热力图”让每一分都不浪费
高考成绩出来了,楼顶天台上赌球的朋友们让一让、让一让!  所谓“七分考、三分报”,每到这个时间点,就有很多人来问杨姐,怎么报考啊,怎么选择啊。这个其实见仁见智,我就不在这絮叨了。不过有一点可以肯定的是,现在科技这么发达,可以用大数据啊。
  这不,最近有一个大数据玩意:“高考热力图”,只要在手机百度里面输入“高考”通过“高校热力图”入口就可以进入,主打推荐学校和“防志愿撞车”两大功能。
  主要通过搜索框中输入预估成绩或实际成绩,选择文/理科,点击“我要查询”,可得到系统“推荐报考的学校”。考生所处的地区不用手动输入,系统会根据用户手机所在的位置自动判定所处考区。
1


1


  


  这个功能跟之前景区热力图有着相通之处,就是通过对现实中的信息进行实时加工处理,照这个路子来看,这种热力图的使用范围将会很大,这是基于对移动互联网中,人与信息关系变革的一个理解。
  先说一下对大数据在日常中的应用理解。很多时候,我们多数的竞争都呈现“橄榄球”式的竞争,也就是说中间部分的压力是最大的,而这个也是整个社会中最容易出现矛盾的地方,而搜索最早的时候就是为了解决这一问题,找到最靠谱的方法。
  而移动互联网的发展,其实是可以把这个“橄榄球”挤的更扁一些,而方法就是利用移动互联网中的全天候链接。
  原因在于,PC时代的链接是有间隔、不连续的,所以我们能看到的需求是不连续,而且是有滞后的。而移动互联网下,智能设备的传感器使得地理位置、行为都被连续记录,真正意义上实现了链接,而这种链接背后则真实反映了各种需求。这也是为什么能用Twitter判断疟疾的一个重要因素。
  所以,从这个意义上来说,未来的搜索是通过挖掘需求,给出解决方案,给出链接服务的。
  怎么说呢?比如,你走着走着,突然肚子疼,传感器可以通过检测知道你是要上厕所还是中毒了,然后就可以推荐给你具体的地点。而这个是不需要用户去挖空心思去想关键词。
  回到话题上来,这个热力图里面的一些细节的设计就是链接服务的思维。
  比如它给到的推荐是TOP10,而且也给出一个判断,激烈程度、分数分布。而且页面是根据用户的地理位置,默认为用户推荐的,省下用户筛选,非常的智能化。
  值得注意的是,这个判断是通过数值+分布进行的。通过这两个关键指标是可以给到一个较好的判断的,就不需要你自己进行繁琐的搜索、判断。


1


1


  


  看起来呈现的很简单,但是真正的要深挖,这是很有难度的,在跟产品经理沟通的时候,就能知道做这个内容的不易:脏数据的处理、难度预测、样本量、数据的挖掘,这些都是海量的处理内容。
  比如:全国100多万用户“分数和高校关注”数据、许多“热心的测试用户”等等,这些都是需要“程序猿”们做的功课。
  另外,这个产品的关键在于让用户知道他所关注的学校,还有多少人在关注,以及这些关注这个学校的人的分数情况,手机百度利用网民搜索高校记录:ID+高校+地区,搜索分数的时候记录:ID+分数+地区,最终这两个数据通过ID进行对接。
  在这个功能中,同时还结合了学校往年的高考分数线,并且对学校的波动进行处理,再结合今年关注该学校的考生分数分布,对各个维度赋值,保证推荐的学校真正与学生的分数相匹配,现在看来,这个功能对于判断起到了不少作用。
  据百度的程序猿GG介绍,这个功能高峰时已经有十几万人来用。
  从百度的热力图我们可以想象得到,在未来每一台智能设备就是一个ID,就是一个元神经,通过万亿个神经元,整个互联网真的就智能了起来。而大数据的用处就在此,在繁杂的信息中抽离出关键信息,这就像在筛矿,真正需要做的就是抓住服务核心点。
  以下是采访产品经理的实录:
  背景介绍:
  小白不菜:请先简单介绍一下自己。
  程序猿:我是百度移动云资深产品设计师,主要是负责移动搜索教育类目的呈现。
  小白不菜:“高校热力图”这个想法是怎么形成的?为什么要做这么一款产品?
  程序猿:在做高考项目的时候,团队的出发点不是给搜索带来多少量,而是设身处地想,我们百度能帮助用户做些什么,用户最痛苦的事情是什么。团队顺着思路往下琢磨,高考之后最大的痛点是报考,报考最大的痛点是如何避免撞车,尤其是中等分数的考生。
  确定目标之后,进一步分析得出“让用户了解到关注同一所大学的分数分布”,算出自己在考生的排名情况,就可以让考生做到心中有谱。举个例子:北京580分,选择四川大学,发现多数关注四川大学在600以上,就提醒考生报考时需要三思。
  小白不菜:这款产品的开发从想法到实际上线,一共花了多长时间?用了多大的人力?
  程序猿:产品从有想法到实现前前后后花了三周的时间,我们后端有专人加班加点,花了大量时间收集、整理、处理数据,数据模型进行多次打磨和优化,大家非常渴望数据、模型能够帮助到考生。
  小白不菜:这款产品的背后,都用到了百度的什么技术、什么数据积累?
  程序猿:产品背后的主要两个模型:脏数据的处理和难度预测。脏数据处理为保证收集到数据规避掉“热心的测试用户”,他们用假数据来测试我们,这部分假数据的去除是基础,有了靠谱的数据,近一步把数据输入到难度预测模型,难度预测模型主要是结合今年的分数线、往年的分数线、今年的搜索热度、往年的搜索热度、今年考生的分数分布,给出报考的难度。
  上线后,大家对产品认同,有大量的用户填入自己的分数进行预测,并且会针对自己感兴趣的学校进行搜索,积累全国100多万用户“分数和高校关注”数据,大量数据的积累,进一步丰富模性的准确性。
  小白不菜:为什么产品设计成现在的这种形态?(地点由GPS确定、输入分数后推荐10所院校、不推荐专业)
  程序猿:为了方便用户,我们的页面是根据用户的地理位置,默认为用户推荐的,省下用户筛选,非常的智能化。在用户输入分数后,我们为用户推荐最值得上的大学,而大学数量是取自于中国用户爱好的TOP10。
  针对专业的推荐,是原本我们计划的一部分,但是专业对应的分数数据,收集到的不够多,就没有给大家使用,明年做的更好之后,再推荐给考生使用。
  小白不菜:开发这款产品的过程中,有没有什么令人印象深刻的事儿?比如遇到了什么难点之类的。
  程序猿:产品开发过程中,让我印象最深的事情,整个项目在落地的过程,开发的时间都是挤出来的,可是大家想到事情本身的意义“让考生的每一分更有意义”,就迎着困难往前走,坦率地说第一版出来之后,有很多脏数据,我们开发同学就一直琢磨什么样的模型,能够区分出来脏数据,都差点放弃,最终我觉得还是“想为考生做点事”这种朴素的想法,支撑大家逐步地实现最终要的效果。
  关于数据挖掘及使用:
  小白不菜:如何保证推荐的学校真正与学生的分数相匹配?
  程序猿:推荐学校的时候,我们结合了学校往年的高考分数线,并且对学校的波动进行处理,再结合今年关注该学校的考生分数分布,对各个维度赋值,最终计算得出推荐的学校。
  小白不菜:这个产品的关键是:让用户知道他所关注的学校,还有多少人在关注,以及这些关注这个学校的人的分数情况,这两方面数据是如何在这个产品中做到的?
  程序猿:我们会把考生查询的高校、点击过的高校,记录下来,再记录下来用户输入的分数,生成一个多维的字段表:考生+关注高校+分数+地区,在这个基础上进行筛选。而我们收集到这些数据,是通过用户的百度ID进行串联起来的。
  举个例子:你搜索高校的时记录:ID+高校+地区,你搜索分数的时候记录:ID+分数+地区,最终这两个数据通过ID进行对接。
  小白不菜:是不是样本量越大,推荐的准确度、报考难度的参考值越真实?
  程序猿:样本量越大,我们对群体的行为把握的越准,推荐的准确度就越好,报考的参考价值就越大。
  关于效果及预期:
  小白不菜:截止到目前为止,这款产品取得了什么样的成绩?
  
程序猿:截止目前,高峰时有十几万人来用,用户越来越认可它的价值,但是我个人觉得做的还不够,期望明年有机会做专业相关,真正为用户节约每一分。同时呢,我们在琢磨把相同的思路适用到其他考试上,敬请期待。




欢迎光临 中文搜索引擎指南网 (http://sowang.com/bbs/) Powered by Discuz! X3.2