【海拓学院】搜索引擎是如何建立索引的?

搜索引擎如Google和Bing拥有数万亿个网页的搜索索引,因此,在我们讨论排名算法之前,让我们更深入地了解构建和维护Web索引的机制。

Google 提供的基本流程:

图源:海拓孵化器

分解之后就是:

URL

抓取

处理 & 渲染

索引

小提示

 这个过程专门适用于 Google,但对于其他网络搜索引擎(如 Bing)来说,可能非常相似。

还有其他类型的搜索引擎,例如A mazon,YouTube 和 Wikipedia,它们仅显示其内部的页面结果。

URL

一切始于已知的URL列表。Google通过多种方式发现这些URL,其中最常见的三种方式是:

Photo by Remotar Jobs on Unsplash

1. 外链:Google拥有包含数万亿个网页的索引库。如果其他页面链接到你的网站,Google就能从这些页面中找到链接。

2. 站点地图:站点地图列出了你网站上的所有重要页面。将站点地图提交给Google可以帮助他们更快地找到你的网站。

3. URL提交:通过Google Search Console,你可以提交单个URL给Google。

抓取

抓取是一种称为蜘蛛的抓取程序(例如 Googlebot)访问并下载发现的页面的过程。

重要的是要注意,Google 并不总是按照发现页面的顺序对其进行抓取。

Photo by Luca Bravo on Unsplash

Google 会根据以下因素对要抓取的 UR L进行排序,其中包括:

– URL 的 PageRank

– URL 多久更改一次

– 是否是新的

这很重要,因为这意味着搜索引擎可能会在某些页面之前对其他页面进行抓取和索引。如果你的网站很大,搜索引擎可能需要一段时间才能完全抓取它。

处理&渲染

在处理过程中,Google从抓取的页面中提取关键信息。Google 以外的人都不知道有关此过程的细节,但是我们认为重要部分是提取链接和存储内容并进行索引。

Photo by Eftakher Alam on Unsplash

Google 必须渲染页面以对其进行完全处理,而 Google 会运行页面的代码以了解外观对用户的影响。

索引

索引是将抓取页面中的信息添加到名为搜索索引的大型数据库中。

搜索索引可以看作是一个由数万亿个网页组成的数字图书馆,搜索引擎的搜索结果就来自于这个索引。

Photo by Nathan da Silva on Unsplash

如果网页不在搜索索引中,搜索引擎用户将无法找到它。因此,在Google、Bing等主要搜索引擎中建立索引对你的网站至关重要。

通过揭示这些关键步骤,我们能更好地理解搜索引擎索引的运作方式,从而优化网页在搜索结果中的排名。

来源:本文综合整理自网络。
声明:本平台转载分享的文章,旨在传递行业资讯,  
版权归原作者所有,如涉及版权等问题,请与我们联系。

Articles You Might Like

Share This Article

Get Your Weekly Sport Dose

Subscribe to TheWhistle and recieve notifications on new sports posts