中文搜索引擎指南网

标题: Google 搜索的工作方式(面向新手) [打印本页]

作者: sowang    时间: 2021-2-7 00:28
标题: Google 搜索的工作方式(面向新手)
将网站纳入到 Google 搜索结果中是完全免费的,且操作简单;您甚至不需要向 Google 提交网站。

Google 是一个全自动搜索引擎,它会使用名为“网页抓取工具”的软件定期探索网络,以查找可向 Google 索引中添加的网站。实际上,Google 搜索结果中收录的大多数网站都不是手动提交的,而是我们的网页抓取工具在探索网络时找到并自动添加的。

您可能无法从当前所在的区域访问此资源。

Google 搜索的工作流程主要分为三个阶段:

抓取:Google 会使用名为“抓取工具”的自动程序搜索网络,以查找新网页或更新后的网页。Google 会将这些网页地址(或网页网址)存储在一个大列表中,以便日后查看。我们会通过许多不同的方法查找网页,但主要方法是跟踪我们已知的网页中的链接。

编入索引:Google 会访问它通过抓取得知的网页,并会尝试分析每个网页的主题。Google 会分析网页中的内容、图片和视频文件,尝试了解网页的主题。这些信息存储在 Google 索引中,而 Google 索引是一个存储在很多很多计算机中的巨大数据库。

呈现搜索结果:当用户执行 Google 搜索时,Google 会尝试确定最优质的搜索结果。“最佳”结果取决于许多因素,包括用户的位置、语言、设备(桌面设备或手机)以及先前用过的查询。例如,在用户搜索“自行车维修店”后,Google 向巴黎用户显示的答案与向香港用户显示的答案有所不同。Google 不会通过收取费用来提高网页排名,网页排名是完全依靠算法完成的。

如果您有兴趣,不妨深入了解一下搜索的工作方式。

作者: sowang    时间: 2021-2-7 00:29
Google 搜索的工作方式

Google 的工作方式是什么?下文将依次提供简要版和详尽版的回答。
Google 会从很多不同的来源获取信息,包括:
  • 网页;
  • 用户提交的内容,例如“Google 我的商家”和地图用户提交的内容;
  • 图书扫描;
  • 互联网上的公共数据库;
  • 以及许多其他来源。
但是,此页面内容将重点介绍 Google 如何通过网页获取信息。
简要版
Google 按照以下三个基本步骤来生成基于网页的结果:
抓取
第一步是找出网络上存在哪些网页。不存在包含所有网页的中央注册表,因此 Google 必须不断搜索新网页并将其添加到已知网页列表中。由于 Google 之前已经访问过某些网页,因此这些网页是 Google 已知的网页。当跟踪已知网页上指向新网页的链接时,Google 会发现其他网页。当网站所有者以列表形式([color=var(--devsite-link-color,#1a73e8)]站点地图)提交一系列网页供 Google 抓取时,Google 也会发现其他网页。如果您使用受管的网站托管服务,如 Wix 或 Blogger,这些服务可能会让 Google 抓取您更新后的网页或添加的新网页。
Google 发现网页网址后,会访问或抓取该网页以了解其中的内容。Google 会呈现该网页,并分析文字和非文字内容以及整体视觉布局,确定该网页应显示在搜索结果中的什么位置。Google 越了解您的网站,就越能准确地将您的网站与正在查找您内容的用户相匹配。
如何改善网站抓取效果:
您无法通过向 Google 付费来提高网站抓取频率或网站排名。任何关于 Google 会在收取费用后提高网站抓取频率的消息均是子虚乌有。

编入索引
发现网页后,Google 会尝试了解该网页的内容。此过程称为“编入索引”。Google 会分析该网页的内容、为网页上嵌入的图片和视频文件编制目录,并通过其他方式尝试了解网页。这些信息存储在 Google 索引中,而 Google 索引是一个存储在很多很多计算机中的巨大数据库。
如何改善网页索引编制效果:
呈现(和排名)
当用户输入查询时,Google 会根据许多因素尝试从其索引中找到最相关的答案。Google 会努力确定最优质的答案,并会考虑其他因素(例如,考虑用户所在位置、使用的语言及设备(桌面设备或手机)等因素),以便提供最佳用户体验和最恰当的答案。例如,在用户搜索“自行车维修店”后,Google 向巴黎用户显示的答案与向香港用户显示的答案有所不同。Google 不会通过收取费用来提高网页排名,网页排名是以编程方式完成的。
要改善您的网页呈现和排名效果,请注意以下事项:
详尽版
想要了解更多信息?下文是:
[url=]详尽版[/url]抓取
抓取是指 [color=var(--devsite-link-color,#1a73e8)]Googlebot 访问要添加到 Google 索引中的新网页和更新后的网页的过程。
我们使用大量计算机提取(或“抓取”)网络上的数十亿个网页。执行抓取任务的程序叫做 Googlebot(也称为漫游器或“蜘蛛”程序)。Googlebot 使用算法流程确定要抓取的网站、抓取频率以及要从每个网站抓取的网页数量。
Google 首先会根据一份网页网址列表开始其抓取过程,该列表是在之前进行的抓取过程中生成的,且随着网站所有者所提供的站点地图数据的增多而不断扩大。Googlebot 在访问某个网页时,会查找该网页上的链接,并将这些链接添加到它要抓取的网页的列表中。它会记录新建立的网站、对现有网站进行的更改以及无效链接,并据此更新 Google 索引。
在抓取过程中,Google 会使用 Chrome 的最新版本呈现网页。在呈现过程中,它会运行找到的所有网页脚本。如果您的网站使用动态生成的内容,请务必[color=var(--devsite-link-color,#1a73e8)]遵循 JavaScript SEO 基础知识页面上的要求
主要抓取/辅助抓取
Google 使用两种不同的抓取工具抓取网站:移动版抓取工具和桌面版抓取工具。每种抓取工具类型都会使用该类型的设备模拟访问您网页的用户。
Google 使用 1 种抓取工具类型(移动版或桌面版)作为网站的主要抓取工具。网站上被 Google 抓取的所有网页都是使用主要抓取工具抓取的。对所有新网站使用的主要抓取工具都是移动版抓取工具。
此外,Google 还会使用其他类型的抓取工具(移动版或桌面版)重新抓取网站上的一些网页。这称为辅助抓取,目的在于了解其他设备类型对您网站的适用情况。

Google 如何得知哪些网页无法抓取?改善抓取质量
利用以下这些技术帮助 Google 发现您网站上正确的网页:
编入索引
Googlebot 会处理它抓取的每个网页,以便了解每个网页的内容。这包括处理文字内容、关键内容标记和属性,例如 <title> 标记和 Alt 属性、图片、视频等。Googlebot 可处理多种类型的内容,但并不是所有类型的内容都能处理。例如,我们无法处理某些富媒体文件的内容。
在抓取和编入索引的间隙,Google 会确定网页是否是另一网页的[color=var(--devsite-link-color,#1a73e8)]重复网页或规范网页。如果该网页被视为重复网页,Google 便不会频繁地抓取它。类似网页会归入一个文档中,其中列出了一个或多个网页,包括规范网页(这组网页中最具代表性的网页)和找到的所有重复网页(可能只是访问同一网页的备用网址,或者可能是同一网页的备用移动版或桌面版)。
请注意,Google 不会将包含 [color=var(--devsite-link-color,#1a73e8)]noindex 指令(标头或标记)的网页编入索引。但前提是 Google 必须能够看到该指令;如果网页被 [color=var(--devsite-link-color,#1a73e8)]robots.txt 文件、登录页或其他设备屏蔽了,那么即使 Google 并未访问该网页,也可能会将其编入索引!
改善编入索引的效果
您可以通过多种技巧使 Google 更加了解您的网页内容:
什么是“文档”?
Google 在内部将网页表示为大量文档。每个文档都表示一个或多个网页。这些网页完全相同或非常相似但本质上内容相同,可以通过不同网址访问。文档中的不同网址可能会指向完全相同的网页(例如,example.com/dresses/summer/1234 和 example.com?product=1234 可能会显示同一网页),或同一网页对使用不同设备的用户来说具有细微差别(例如,example.com/mypage 适合桌面设备用户,m.example.com/mypage 适合移动设备用户)。
Google 会从文档中选择 1 个网址,并将其定义为该文档的规范网址。文档的规范网址是 Google 最常抓取和编入索引的网址;其他网址会被视为重复网址或备用网址,并且可能会偶尔被抓取,或根据用户请求将其作为结果呈现:例如,如果文档的规范网址是移动网址,Google 仍可能会为用桌面设备搜索的用户提供桌面(备用)网址。
Search Console 中的大多数报告都会将数据归到文档的规范网址名下。某些工具(例如网址检查工具)支持测试备用网址,但检查规范网址也应提供有关备用网址的信息。
您可以告知 Google 您希望哪个网址是规范网址,但 Google 仍可能会因各种原因而选择其他网址作为规范网址。
下面简要说明了这些术语,以及这些术语在 Search Console 中的用法:
‡采用不同语言但具有相同内容的网页会存储在不同文档中,这些文档使用 hreflang 标记相互引用;这就是为什么务必要用 hreflang 标记翻译内容的原因。

呈现结果
用户输入查询时,我们的机器会在索引中搜索匹配网页,并返回我们认为与用户搜索最相关的结果。相关性是由数百个因素决定的,我们一直在努力改进算法。Google 在选择结果和对其进行排名时会考虑用户体验,因此请务必确保您的网页能[color=var(--devsite-link-color,#1a73e8)]快速加载且[color=var(--devsite-link-color,#1a73e8)]适合移动设备
改善结果呈现







作者: sowang    时间: 2021-2-7 00:31
Google 搜索的运作方式
https://www.google.com/search/howsearchworks/

您每次进行搜索时,都会在搜索结果中看到成千上万个含有实用信息的网页,有时甚至是数百万个。早在您输入搜索内容之前,Google 就已开始算计要显示哪些结果,并秉持向您提供最佳信息的承诺。


整合网上内容
早在您开始搜索之前,Google 便已将有关网页的信息整合在 Google 搜索索引中。该索引就像是一个图书馆,只不过它包含的信息比全世界所有图书馆加起来的信息还要多。


瞬间即可提供与您的搜索查询相符的结果
Google 的搜索算法会对 Google 搜索索引中数以千亿的网页进行整理,以便根据您查询的内容为您提供最相关、最实用的结果,而且整个过程瞬间即可完成。

以实用方式显示搜索结果
为了协助您快速找到所需内容,Google 会以多种实用格式提供搜索结果,其中包括图片、视频、故事、包含路线的地图等格式。与此同时,我们仍在不断改进搜索服务,以便推出更多新方式来提供相关信息。

我们只销售广告,不销售搜索结果
虽然广告主可以通过付费使广告显示在页面中的醒目位置,但任何人都无法通过付费在搜索结果中获得更高的排名。

不断改善您的搜索体验
我们知道 Google 搜索始终有可以改进的空间。因此,Google 工程师每天都会对其进行测试,每年都会进行数十万次实验,并做出数千项改进。







欢迎光临 中文搜索引擎指南网 (http://sowang.com/bbs/) Powered by Discuz! X3.2