爬取网页时要分析 HTML 页面以及处理爬取到的网页内容时,需要对起进行解析、分词、变换等,这十分依赖自然语言处理技术。搜索引擎要听懂用户的「人话」,用户的搜索请求又是千奇百怪的,关键词组合的方式越来越少,直接用自然语言搜索已成为不少人的习惯,人们更倾向于搜索「广州到北京的航班信息」而不是「广州 北京 航班」,因此搜索引擎必须理解用户意图才可以帮助其去找到准确答案。
每一个环节自然语言处理都十分重要。这是 NLP 技术致力于解决的问题。自然语言处理(Natural Language Processing:NLP)是计算机科学、人工智能以及语言学的交叉学科,旨在解决计算机与人类语言之间的交互问题,这其中包括对自然语言的分析、理解、生成、检索、变换及翻译等方面。
不只是搜索本身,搜索引擎衍生产品大都会应用到 NLP 技术。譬如百度、Google 均提供的翻译服务就是最经典的自然语言应用,它可以智能化地翻译大段文章,支持多种语言之间的互相翻译。还有百度知道,它可以智能化地识别相似的问题避免用户重复提问。再比如 Siri 掀起的语音助手浪潮最后反而被百度、Google 等搜索玩家抢得先机,就是因为搜索引擎更擅长于 NLP 技术,百度语音助手和 Google Now 在中文和英文语音领域表现都比 Siri 更为突出。