编辑
2026-01-16
开发
00

目录

抓取
搜索引擎如何找到你的网页?
通过已知的网站链接
主动提交站点
站点地图
什么样的内容才会被搜索引擎抓取?
原创、有价值的内容
清晰、标准的代码结构
链接如何书写?
robots.txt如何书写?
可访问性
索引
呈现

豆包推荐30分钟可以读完的内容,用了好几天才读完。可能是因为文章内不断出现的链接,破话了阅读的节奏,总是读着读着就要跳转到其他页面去看这个名字解释,或者特别说明。有时候跳着跳着就忘了看到哪里了。另外电子版的内容让人无法集中注意力,容易打瞌睡。总之这篇文章花了几个小时才看完。问了确保还记得其中的也写内容,把还有印象部分写下来,避免遗忘。

抓取

抓取应该是我们最关心的内容。搜索引擎是怎么找到我们的网站的?什么样的内容才会被搜索引擎抓取?怎样向搜索引擎提交页面?下面是从文章种得到的一些信息。

搜索引擎如何找到你的网页?

这也是我一直有疑问的点。我们都知道搜索引擎通过爬虫去爬取网站信息。可是世界上有这么多网站,各式各样的域名。搜索引擎怎么知道到哪里取抓取呢?之前以为google或者百度公司对接了域名服务商,可以从域名服务商那里获得注册的域名列表,一个个去爬就可以了。

通过已知的网站链接

实际上类似,也不完全是。搜索引擎是先爬取一些已知的网站,然后通过网站的链接,去爬取相关的其他网站。这些数据越来越多的时候,搜索引擎就监理了一张网站链接的大网。后期再有新的网站出来,这些网站总会想办法去连上这张大网,成为这张大网的一个节点。这样搜索引擎就可以保证爬取全部的网站了。

当然搜索引擎不可能爬取到所有的网站,总有一些网站没有和任何其他网站建立连接。所以,如果你新建了一个网站必须想办法在其他网站添加一个入口链接,这样搜索引擎才可以找到这个网站。

主动提交站点

当然,如果你有一个新站,暂时还没有找到合适的外链网站,或者不想和别人的网站建立连接。就可以采用自主提交的方式。Google、百度、360、搜狗等这些搜索引擎,都建立了站长平台,提供主动提交站点的入口。

站点地图

如果站点页面过多,有上亿或者数十亿,或者页面比较复杂,没有办法将所有内容进行连接。可以使用站点地图进行提交。

站点地图支持xml,txt,rss几种格式,在搜索引擎的站长平台可以提交。

什么样的内容才会被搜索引擎抓取?

这个问题需要从几个方面来说。从内容上来说,当然是原创、有价值的内容。内容需要通过代码来书写和展示,清晰的代码结构、直接的展示方式也是重要的指标。

原创、有价值的内容

互联网上存在大量的借鉴、抄袭和引用。搜索引擎会去判断抓取的内容是否属于同一类,同类的内容会被归类在同一个合辑,然后再根据一些综合的指标,判断展示的顺序。从这一点判断,原创的内容当然可以有更好的排序。

清晰、标准的代码结构

搜索引擎主要抓取的肯定是文字内容,所以网站上的元素,都需要清楚的文字描述。最好的作法是遵循html的规范,标签的辅助属性要进行充分地利用。

a标签尽量添加包裹文字,如果无法添加,必须要标注title属性。 图片、视频等多媒体,需要通过alt属性、其他标签描述具体的内容,避免搜索引擎无法识别。使用背景图去展示图片,就不是正确的作法。

当然文字描述要指出具体的内容,比如下面的代码:

html
<a href="#">点击查看详情</a>

就无法告知搜索引擎具体的内容。可以站在用户的角度去想,没有人会去搜索“点击查看详情”,或者“详情”。

链接如何书写?

内部页面的链接可以帮助搜索引擎找到站点所有的重要页面,想让搜索引擎抓取的页面,都需要通过内部链接去标明。建议使用相对于根目录的链接和相对于当前目录的链接,不建议使用相对于父目录的链接。

站点上还会有连接外部的链接,这些链接需要根据情况是否添加nofollow。如果是引用的外部资源文件,比如css、js等,可以添加nofollow禁止搜索引擎继续探索。反之,如果使关联网站,互相交换的外链,就不需要添加。

robots.txt如何书写?

通过站点根目录的robots.txt文件,可以指定搜索引擎抓取的规则,比如禁止某些目录被搜索引擎抓取,禁止某些搜索引擎抓取。站点地图的位置也可以在robots.txt指定。当然不是所有的搜索引擎都会遵循robots.txt文件的规范,想要阻止这些搜索引擎还是需要采取一些非常手段。

如果是隐私页面,最好设置成登录用户才能访问,或者添加访问密码。

// robots.txt示例 Disallow: /peixun Disallow: /u Disallow: /b User-agent: SemrushBot Disallow: / User-agent: SemrushBot-SA Disallow: / User-agent: YisouSpider Disallow: / Sitemap: https://www.yoursite.com/sitemap.xml

可访问性

想要获得搜索引擎的青睐,除了上述的因素,还有更关键的是可访问性。就是网站可以稳定、持续地提供服务。如果网站隔三岔五不可访问,或者抛出异常,对于搜索引擎的抓取是不利的。

我们也可以利用这一点,如果某个网页不想让搜索引擎抓取,可以临时性地返回500错误,组织搜索引擎抓取。

索引

网页被抓取以后,搜索引擎就会对其进行索引。索引的主要内容是文字,比如title、alt属性,a标签的文本,一定记得这一点。

搜索引擎会检查网页的内容是否与其他网页的内容重复,重复的内容会被归为一组,再根据一定的规则排序展示。

我们也可以通过代码控制页面是否被索引,比如使用noindex,禁止网页内容被索引。

html
<!--禁止搜索引擎索引--> <meta name="robots" content="noindex"> <!--禁止google索引--> <meta name="googlebot" content="noindex">

呈现

Google的搜索结果展示有很多种,比较常见的就是标题-描述-链接形式,当然也支持图片和视频。这里不一一赘述。

如果想要在Google的搜索页面展示结构化的数据,可以使用json-ld来进行定义。


原文链接:Google 搜索工作原理深度指南

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:谭三皮

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!