中文搜索引擎指南网

标题: 手机百度“高考热力图”让每一分都不浪费 [打印本页]

作者: sowang 时间: 2014-6-28 00:45
标题: 手机百度“高考热力图”让每一分都不浪费
高考成绩出来了，楼顶天台上赌球的朋友们让一让、让一让!　　所谓“七分考、三分报”，每到这个时间点，就有很多人来问杨姐，怎么报考啊，怎么选择啊。这个其实见仁见智，我就不在这絮叨了。不过有一点可以肯定的是，现在科技这么发达，可以用大数据啊。
　　这不，最近有一个大数据玩意：“高考热力图”，只要在手机百度里面输入“高考”通过“高校热力图”入口就可以进入，主打推荐学校和“防志愿撞车”两大功能。
　　主要通过搜索框中输入预估成绩或实际成绩，选择文/理科，点击“我要查询”，可得到系统“推荐报考的学校”。考生所处的地区不用手动输入，系统会根据用户手机所在的位置自动判定所处考区。

1

　　

　　这个功能跟之前景区热力图有着相通之处，就是通过对现实中的信息进行实时加工处理，照这个路子来看，这种热力图的使用范围将会很大，这是基于对移动互联网中，人与信息关系变革的一个理解。
　　先说一下对大数据在日常中的应用理解。很多时候，我们多数的竞争都呈现“橄榄球”式的竞争，也就是说中间部分的压力是最大的，而这个也是整个社会中最容易出现矛盾的地方，而搜索最早的时候就是为了解决这一问题，找到最靠谱的方法。
　　而移动互联网的发展，其实是可以把这个“橄榄球”挤的更扁一些，而方法就是利用移动互联网中的全天候链接。
　　原因在于，PC时代的链接是有间隔、不连续的，所以我们能看到的需求是不连续，而且是有滞后的。而移动互联网下，智能设备的传感器使得地理位置、行为都被连续记录，真正意义上实现了链接，而这种链接背后则真实反映了各种需求。这也是为什么能用Twitter判断疟疾的一个重要因素。
　　所以，从这个意义上来说，未来的搜索是通过挖掘需求，给出解决方案，给出链接服务的。
　　怎么说呢?比如，你走着走着，突然肚子疼，传感器可以通过检测知道你是要上厕所还是中毒了，然后就可以推荐给你具体的地点。而这个是不需要用户去挖空心思去想关键词。
　　回到话题上来，这个热力图里面的一些细节的设计就是链接服务的思维。
　　比如它给到的推荐是TOP10，而且也给出一个判断，激烈程度、分数分布。而且页面是根据用户的地理位置，默认为用户推荐的，省下用户筛选，非常的智能化。
　　值得注意的是，这个判断是通过数值+分布进行的。通过这两个关键指标是可以给到一个较好的判断的，就不需要你自己进行繁琐的搜索、判断。

1

　　

　　看起来呈现的很简单，但是真正的要深挖，这是很有难度的，在跟产品经理沟通的时候，就能知道做这个内容的不易：脏数据的处理、难度预测、样本量、数据的挖掘，这些都是海量的处理内容。
　　比如：全国100多万用户“分数和高校关注”数据、许多“热心的测试用户”等等，这些都是需要“程序猿”们做的功课。
　　另外，这个产品的关键在于让用户知道他所关注的学校，还有多少人在关注，以及这些关注这个学校的人的分数情况，手机百度利用网民搜索高校记录：ID+高校+地区，搜索分数的时候记录：ID+分数+地区，最终这两个数据通过ID进行对接。
　　在这个功能中，同时还结合了学校往年的高考分数线，并且对学校的波动进行处理，再结合今年关注该学校的考生分数分布，对各个维度赋值，保证推荐的学校真正与学生的分数相匹配，现在看来，这个功能对于判断起到了不少作用。
　　据百度的程序猿GG介绍，这个功能高峰时已经有十几万人来用。
　　从百度的热力图我们可以想象得到，在未来每一台智能设备就是一个ID，就是一个元神经，通过万亿个神经元，整个互联网真的就智能了起来。而大数据的用处就在此，在繁杂的信息中抽离出关键信息，这就像在筛矿，真正需要做的就是抓住服务核心点。
　　以下是采访产品经理的实录：
　　背景介绍：
　　小白不菜：请先简单介绍一下自己。
　　程序猿：我是百度移动云资深产品设计师，主要是负责移动搜索教育类目的呈现。
　　小白不菜：“高校热力图”这个想法是怎么形成的?为什么要做这么一款产品?
　　程序猿：在做高考项目的时候，团队的出发点不是给搜索带来多少量，而是设身处地想，我们百度能帮助用户做些什么，用户最痛苦的事情是什么。团队顺着思路往下琢磨，高考之后最大的痛点是报考，报考最大的痛点是如何避免撞车，尤其是中等分数的考生。
　　确定目标之后，进一步分析得出“让用户了解到关注同一所大学的分数分布”，算出自己在考生的排名情况，就可以让考生做到心中有谱。举个例子：北京580分，选择四川大学，发现多数关注四川大学在600以上，就提醒考生报考时需要三思。
　　小白不菜：这款产品的开发从想法到实际上线，一共花了多长时间?用了多大的人力?
　　程序猿：产品从有想法到实现前前后后花了三周的时间，我们后端有专人加班加点，花了大量时间收集、整理、处理数据，数据模型进行多次打磨和优化，大家非常渴望数据、模型能够帮助到考生。
　　小白不菜：这款产品的背后，都用到了百度的什么技术、什么数据积累?
　　程序猿：产品背后的主要两个模型：脏数据的处理和难度预测。脏数据处理为保证收集到数据规避掉“热心的测试用户”，他们用假数据来测试我们，这部分假数据的去除是基础，有了靠谱的数据，近一步把数据输入到难度预测模型，难度预测模型主要是结合今年的分数线、往年的分数线、今年的搜索热度、往年的搜索热度、今年考生的分数分布，给出报考的难度。
　　上线后，大家对产品认同，有大量的用户填入自己的分数进行预测，并且会针对自己感兴趣的学校进行搜索，积累全国100多万用户“分数和高校关注”数据，大量数据的积累，进一步丰富模性的准确性。
　　小白不菜：为什么产品设计成现在的这种形态?(地点由GPS确定、输入分数后推荐10所院校、不推荐专业)
　　程序猿：为了方便用户，我们的页面是根据用户的地理位置，默认为用户推荐的，省下用户筛选，非常的智能化。在用户输入分数后，我们为用户推荐最值得上的大学，而大学数量是取自于中国用户爱好的TOP10。
　　针对专业的推荐，是原本我们计划的一部分，但是专业对应的分数数据，收集到的不够多，就没有给大家使用，明年做的更好之后，再推荐给考生使用。
　　小白不菜：开发这款产品的过程中，有没有什么令人印象深刻的事儿?比如遇到了什么难点之类的。
　　程序猿：产品开发过程中，让我印象最深的事情，整个项目在落地的过程，开发的时间都是挤出来的，可是大家想到事情本身的意义“让考生的每一分更有意义”，就迎着困难往前走，坦率地说第一版出来之后，有很多脏数据，我们开发同学就一直琢磨什么样的模型，能够区分出来脏数据，都差点放弃，最终我觉得还是“想为考生做点事”这种朴素的想法，支撑大家逐步地实现最终要的效果。
　　关于数据挖掘及使用：
　　小白不菜：如何保证推荐的学校真正与学生的分数相匹配?
　　程序猿：推荐学校的时候，我们结合了学校往年的高考分数线，并且对学校的波动进行处理，再结合今年关注该学校的考生分数分布，对各个维度赋值，最终计算得出推荐的学校。
　　小白不菜：这个产品的关键是：让用户知道他所关注的学校，还有多少人在关注，以及这些关注这个学校的人的分数情况，这两方面数据是如何在这个产品中做到的?
　　程序猿：我们会把考生查询的高校、点击过的高校，记录下来，再记录下来用户输入的分数，生成一个多维的字段表：考生+关注高校+分数+地区，在这个基础上进行筛选。而我们收集到这些数据，是通过用户的百度ID进行串联起来的。
　　举个例子：你搜索高校的时记录：ID+高校+地区，你搜索分数的时候记录：ID+分数+地区，最终这两个数据通过ID进行对接。
　　小白不菜：是不是样本量越大，推荐的准确度、报考难度的参考值越真实?
　　程序猿：样本量越大，我们对群体的行为把握的越准，推荐的准确度就越好，报考的参考价值就越大。
　　关于效果及预期：
　　小白不菜：截止到目前为止，这款产品取得了什么样的成绩?
　　
程序猿：截止目前，高峰时有十几万人来用，用户越来越认可它的价值，但是我个人觉得做的还不够，期望明年有机会做专业相关，真正为用户节约每一分。同时呢，我们在琢磨把相同的思路适用到其他考试上，敬请期待。

欢迎光临中文搜索引擎指南网 (http://sowang.com/bbs/)