中文搜索引擎指南网

标题: 要搜索？拍个照吧（关注·新技术新体验）(图) [打印本页]

作者: sowang 时间: 2014-10-10 14:34
标题: 要搜索？拍个照吧（关注·新技术新体验）(图)

　桌面“百度识图”页面截图，用户可以通过上传本地图片找到匹配的结果。

　　资料图片

　　图像搜索能做什么？可能你对它的认识还停留在令人尴尬的初级阶段：上传图片，结果只是搜出一堆不明所以的所谓“类似图片”；自拍一张照片在某个识图软件上搜索“像哪位明星”，显示的结果却是一位异性。

　　如今，在移动互联网提供了更多可能与机会的情况下，图像搜索还那么“不堪大用”吗？

　　应用现状—

　　花卉识别已和植物学专家不相上下，皮肤病预诊准确率超过90%

　　想必很多人都遇到过这样的情况，看到一种漂亮的花，想知道它的名字，就打开电脑求助于网络。当在搜索框里输入“关键词”时，却发现很难准确描述花的颜色和特征。

　　前不久，百度图像搜索正式上线，为类似问题提供了更直接简便的方法。打开手机百度的客户端，搜索框的右侧就有一个相机符号，对准植物拍照后，不一会儿就会出现图片匹配结果，显示“您的图片可能是某种植物”，并给出百度百科中的相关解释。

　　手机百度产品经理国玉晶介绍，百度图像搜索已经拥有数万种物体和场景的图像识别，不仅利用了自身拥有的海量图片库，还对接中科院植物研究所、唯品会商品等合作数据库，在果蔬、花卉、服装箱包、人脸上的搜索表现尤为出色，“花卉识别已和植物学专家不相上下”。

　　微软必应搜索的图像垂直搜索，也可以根据用户上传的图像，为其搜索匹配相同或相似图像的其他图片。微软亚洲研究院一项名为“神笔马良”的图像搜索技术，可以将线条和色彩信息作为图像特征进行搜索，通过手绘的线条图在海量图片中找到与之形状相似的图像，像神笔马良一样实现“所画即所得”。

　　百度董事长李彦宏说，目前图像搜索应用中需求表达最多的一个类型与生活方式相关，占到拍照搜索的35.5%，比如拍下箱包衣服搜索网购地址，这种搜索有极高的商业价值；占比第二位的是人脸搜索，比如拍下在街上偶遇的人上传搜索类似照片等。

　　微软亚洲研究院副院长芮勇博士介绍说，人脸搜索是图像搜索中非常重要且特别的一个领域，因为相比于其他图像识别，人们对人脸是更加敏感。人脸相关的图像技术包括人脸检测、人脸识别、人脸跟踪等。

　　人脸搜索的类别中也包括对人体的其他部位拍照进行识别。据百度高级副总裁王劲介绍，目前百度试运营了一项与图像搜索有关的应用：对皮肤病患者的患病部位拍照并上传，通过在存储数据库中的比对分析，能够给出初步的预诊建议，告诉患者病情严重程度，应该到什么样的医院就诊，找哪位医生看病。“从试运营的效果来看，皮肤病预诊准确率达到93%。”王劲说。

　　对于百度来说，发展图像搜索技术的终极目的不是识别出景物，而是提供后续的服务。“识别出图像之后，更重要的是通过分析满足用户的需求，比如寻找同款、价格比对等等。”国玉晶说。

　　芮勇认为，真正的图像实体搜索还未达到普及实用阶段，由于图像搜索需要相应的如摄像头硬件的便利性支持，并具有实际使用场景的移动、户外等多样性特点，它天然地与移动互联网的发展息息相关。随着移动互联网的高速发展，在未来二至五年内，图像搜索将迎来新一轮的应用高潮。

　　背后支撑—

　　“像人脑一样思考”的深度学习技术，持续提升图像识别和检索能力

　　事实上，百度不是最近才拥有图像搜索功能。只不过，与现在通用图像识别功能相比，此前的图像搜索过程中用户需要多加一道工序：在拍照前，先确认这一物体属于哪个类别，比如服装、植物、动物等等，选中类别后才能进行搜索。而如今的“通用识别”则适用于任意景物，用户不用先对搜索对象分门别类。

　　通用图像识别的实现，仰仗的是“像人脑一样思考”的深度学习技术。传统图像搜索只识别对比图像本身，比如颜色、纹理这些要素，而基于深度学习的图像搜索加入了人脸、人的姿态、地理位置、字符等语义特征。国玉晶举例说，比如用户上传了一张宝塔的照片，图像搜索在对其形态特征进行分析的同时还加入了对拍摄地点的考量，如果在杭州拍摄，那么最大的可能是雷峰塔。 “这种识别模式更像人脑的思维模式，更聪明灵活。”国玉晶说。

　　王劲描绘了这一基于深度学习的识别技术过程。拍一张花的照片，上传后被转化为“0”和“1”组合的数字流，输入到深度神经网络里，经过层层的分析、复杂的学习算法和大数据比对，最后还原并识别出这是一朵花。这一过程就是“百度大脑”的思考过程。同时，基于百度大数据进行持续学习，图像识别和检索能力持续提升，类似于人随着年龄增长、知识拓宽和深入，智商也随之增长。

　　芮勇介绍说，以往搜索引擎采取的是手工设计的特征点。而深度神经网络将特征提取技术又往前推进了一步，不仅能够自动进行特征提取，还能够更好地选择特征点，从而更加准确地描述图像中的物体。在过去的几年中，深度神经网络接连在图像分类、语音识别、文本分析的各类学术界大赛中折桂。

　　未来，人工智能技术的突破将为图片搜索带来更大飞跃。新近加盟百度的世界人工智能专家吴恩达认为，机器学习从标签化走向非标签化可能是未来人工智能的一大突破口。如今的机器学习大多还是通过标签数据的学习，即“如果让电脑识别笔记本，找出大量笔记本照片并告诉电脑这就是笔记本，然后让它在看到类似图片时识别出来。”今后非标签式的机器学习会更加主动，“让电脑像小孩子一样学习，仍然给它看大量笔记本照片，但是不告诉电脑这叫什么，而是通过描述概念让电脑慢慢学会分辨这一物体。”

　　未来畅想—

　　图像搜索能用于教学、生活服务、医疗、公益救助等多个领域

　　虽然图像搜索的应用已有大幅拓展和深入，但尚未真正全面触及生活中的物理世界。然而，这也并不妨碍对图片搜索各种应用前景的想象。比如，随手拍参与公益事业，图像搜索可以用于寻找走失、被诱拐儿童等公益救助行为。拍下街边乞讨的儿童的面貌，可以在走失人员的数据库中进行检索或登记；没见过的生物，拍张照片一搜，立马就有百科全书式的详尽答案；如果引入增强现实的技术和交互方式，用户只要拿起手机打开摄像头，就可以在屏幕上看到现实世界物体的扩展信息，比如一栋大楼内有哪些商户、餐馆……

　　芮勇认为，从多媒体搜索这个范围更广的概念来看，搜索请求（即信息输入）方式和搜索结果（即信息输出）方式都可以是多样化的。搜索请求可以是一段文本、一张图片、一段语音、一个视频，甚至可以用你的笔或者鼠标画一个简单的草图。同样，输出的搜索结果也可以是各种各样的多媒体信息。

　　专家认为，综合多媒体和移动化的特点，未来搜索技术的发展将为用户提供更加灵活、多样化的搜索请求方式，以及综合音频、视频、图片、文本等多媒体信息的搜索结果，使得搜索领域的人机交互更加自然、有效。

　　据李彦宏预测，未来5年，语音图像等非文字输入方式将超50%。

　　作者：赵展慧 netease 本文来源：人民网-人民日报

欢迎光临中文搜索引擎指南网 (http://sowang.com/bbs/)