《Google 搜索工作原理深度指南》读书笔记

豆包推荐30分钟可以读完的内容，用了好几天才读完。可能是因为文章内不断出现的链接，破话了阅读的节奏，总是读着读着就要跳转到其他页面去看这个名字解释，或者特别说明。有时候跳着跳着就忘了看到哪里了。另外电子版的内容让人无法集中注意力，容易打瞌睡。总之这篇文章花了几个小时才看完。问了确保还记得其中的也写内容，把还有印象部分写下来，避免遗忘。

抓取

抓取应该是我们最关心的内容。搜索引擎是怎么找到我们的网站的？什么样的内容才会被搜索引擎抓取？怎样向搜索引擎提交页面？下面是从文章种得到的一些信息。

搜索引擎如何找到你的网页？

这也是我一直有疑问的点。我们都知道搜索引擎通过爬虫去爬取网站信息。可是世界上有这么多网站，各式各样的域名。搜索引擎怎么知道到哪里取抓取呢？之前以为google或者百度公司对接了域名服务商，可以从域名服务商那里获得注册的域名列表，一个个去爬就可以了。

通过已知的网站链接

实际上类似，也不完全是。搜索引擎是先爬取一些已知的网站，然后通过网站的链接，去爬取相关的其他网站。这些数据越来越多的时候，搜索引擎就监理了一张网站链接的大网。后期再有新的网站出来，这些网站总会想办法去连上这张大网，成为这张大网的一个节点。这样搜索引擎就可以保证爬取全部的网站了。

当然搜索引擎不可能爬取到所有的网站，总有一些网站没有和任何其他网站建立连接。所以，如果你新建了一个网站必须想办法在其他网站添加一个入口链接，这样搜索引擎才可以找到这个网站。

主动提交站点

当然，如果你有一个新站，暂时还没有找到合适的外链网站，或者不想和别人的网站建立连接。就可以采用自主提交的方式。Google、百度、360、搜狗等这些搜索引擎，都建立了站长平台，提供主动提交站点的入口。

站点地图

如果站点页面过多，有上亿或者数十亿，或者页面比较复杂，没有办法将所有内容进行连接。可以使用站点地图进行提交。

站点地图支持xml,txt,rss几种格式，在搜索引擎的站长平台可以提交。

什么样的内容才会被搜索引擎抓取？

这个问题需要从几个方面来说。从内容上来说，当然是原创、有价值的内容。内容需要通过代码来书写和展示，清晰的代码结构、直接的展示方式也是重要的指标。

原创、有价值的内容

互联网上存在大量的借鉴、抄袭和引用。搜索引擎会去判断抓取的内容是否属于同一类，同类的内容会被归类在同一个合辑，然后再根据一些综合的指标，判断展示的顺序。从这一点判断，原创的内容当然可以有更好的排序。

清晰、标准的代码结构

搜索引擎主要抓取的肯定是文字内容，所以网站上的元素，都需要清楚的文字描述。最好的作法是遵循html的规范，标签的辅助属性要进行充分地利用。

a标签尽量添加包裹文字，如果无法添加，必须要标注title属性。图片、视频等多媒体，需要通过alt属性、其他标签描述具体的内容，避免搜索引擎无法识别。使用背景图去展示图片，就不是正确的作法。

当然文字描述要指出具体的内容，比如下面的代码：

html
<a href="#">点击查看详情</a>

就无法告知搜索引擎具体的内容。可以站在用户的角度去想，没有人会去搜索“点击查看详情”，或者“详情”。

链接如何书写？

内部页面的链接可以帮助搜索引擎找到站点所有的重要页面，想让搜索引擎抓取的页面，都需要通过内部链接去标明。建议使用相对于根目录的链接和相对于当前目录的链接，不建议使用相对于父目录的链接。

站点上还会有连接外部的链接，这些链接需要根据情况是否添加nofollow。如果是引用的外部资源文件，比如css、js等，可以添加nofollow禁止搜索引擎继续探索。反之，如果使关联网站，互相交换的外链，就不需要添加。

robots.txt如何书写？

通过站点根目录的robots.txt文件，可以指定搜索引擎抓取的规则，比如禁止某些目录被搜索引擎抓取，禁止某些搜索引擎抓取。站点地图的位置也可以在robots.txt指定。当然不是所有的搜索引擎都会遵循robots.txt文件的规范，想要阻止这些搜索引擎还是需要采取一些非常手段。

如果是隐私页面，最好设置成登录用户才能访问，或者添加访问密码。


// robots.txt示例

Disallow: /peixun
Disallow: /u
Disallow: /b

User-agent: SemrushBot
Disallow: /
User-agent: SemrushBot-SA
Disallow: /

User-agent: YisouSpider
Disallow: /

Sitemap: https://www.yoursite.com/sitemap.xml

可访问性

想要获得搜索引擎的青睐，除了上述的因素，还有更关键的是可访问性。就是网站可以稳定、持续地提供服务。如果网站隔三岔五不可访问，或者抛出异常，对于搜索引擎的抓取是不利的。

我们也可以利用这一点，如果某个网页不想让搜索引擎抓取，可以临时性地返回500错误，组织搜索引擎抓取。

索引

网页被抓取以后，搜索引擎就会对其进行索引。索引的主要内容是文字，比如title、alt属性，a标签的文本，一定记得这一点。

搜索引擎会检查网页的内容是否与其他网页的内容重复，重复的内容会被归为一组，再根据一定的规则排序展示。

我们也可以通过代码控制页面是否被索引，比如使用noindex，禁止网页内容被索引。

html
<!--禁止搜索引擎索引-->
<meta name="robots" content="noindex">

<!--禁止google索引-->
<meta name="googlebot" content="noindex">

呈现

Google的搜索结果展示有很多种，比较常见的就是标题-描述-链接形式，当然也支持图片和视频。这里不一一赘述。

如果想要在Google的搜索页面展示结构化的数据，可以使用json-ld来进行定义。

原文链接：Google 搜索工作原理深度指南