豆包推荐30分钟可以读完的内容,用了好几天才读完。可能是因为文章内不断出现的链接,破话了阅读的节奏,总是读着读着就要跳转到其他页面去看这个名字解释,或者特别说明。有时候跳着跳着就忘了看到哪里了。另外电子版的内容让人无法集中注意力,容易打瞌睡。总之这篇文章花了几个小时才看完。问了确保还记得其中的也写内容,把还有印象部分写下来,避免遗忘。
抓取应该是我们最关心的内容。搜索引擎是怎么找到我们的网站的?什么样的内容才会被搜索引擎抓取?怎样向搜索引擎提交页面?下面是从文章种得到的一些信息。
这也是我一直有疑问的点。我们都知道搜索引擎通过爬虫去爬取网站信息。可是世界上有这么多网站,各式各样的域名。搜索引擎怎么知道到哪里取抓取呢?之前以为google或者百度公司对接了域名服务商,可以从域名服务商那里获得注册的域名列表,一个个去爬就可以了。
实际上类似,也不完全是。搜索引擎是先爬取一些已知的网站,然后通过网站的链接,去爬取相关的其他网站。这些数据越来越多的时候,搜索引擎就监理了一张网站链接的大网。后期再有新的网站出来,这些网站总会想办法去连上这张大网,成为这张大网的一个节点。这样搜索引擎就可以保证爬取全部的网站了。
当然搜索引擎不可能爬取到所有的网站,总有一些网站没有和任何其他网站建立连接。所以,如果你新建了一个网站必须想办法在其他网站添加一个入口链接,这样搜索引擎才可以找到这个网站。
当然,如果你有一个新站,暂时还没有找到合适的外链网站,或者不想和别人的网站建立连接。就可以采用自主提交的方式。Google、百度、360、搜狗等这些搜索引擎,都建立了站长平台,提供主动提交站点的入口。
如果站点页面过多,有上亿或者数十亿,或者页面比较复杂,没有办法将所有内容进行连接。可以使用站点地图进行提交。
站点地图支持xml,txt,rss几种格式,在搜索引擎的站长平台可以提交。
这个问题需要从几个方面来说。从内容上来说,当然是原创、有价值的内容。内容需要通过代码来书写和展示,清晰的代码结构、直接的展示方式也是重要的指标。
互联网上存在大量的借鉴、抄袭和引用。搜索引擎会去判断抓取的内容是否属于同一类,同类的内容会被归类在同一个合辑,然后再根据一些综合的指标,判断展示的顺序。从这一点判断,原创的内容当然可以有更好的排序。
搜索引擎主要抓取的肯定是文字内容,所以网站上的元素,都需要清楚的文字描述。最好的作法是遵循html的规范,标签的辅助属性要进行充分地利用。
a标签尽量添加包裹文字,如果无法添加,必须要标注title属性。 图片、视频等多媒体,需要通过alt属性、其他标签描述具体的内容,避免搜索引擎无法识别。使用背景图去展示图片,就不是正确的作法。
当然文字描述要指出具体的内容,比如下面的代码:
html<a href="#">点击查看详情</a>
就无法告知搜索引擎具体的内容。可以站在用户的角度去想,没有人会去搜索“点击查看详情”,或者“详情”。
内部页面的链接可以帮助搜索引擎找到站点所有的重要页面,想让搜索引擎抓取的页面,都需要通过内部链接去标明。建议使用相对于根目录的链接和相对于当前目录的链接,不建议使用相对于父目录的链接。
站点上还会有连接外部的链接,这些链接需要根据情况是否添加nofollow。如果是引用的外部资源文件,比如css、js等,可以添加nofollow禁止搜索引擎继续探索。反之,如果使关联网站,互相交换的外链,就不需要添加。
通过站点根目录的robots.txt文件,可以指定搜索引擎抓取的规则,比如禁止某些目录被搜索引擎抓取,禁止某些搜索引擎抓取。站点地图的位置也可以在robots.txt指定。当然不是所有的搜索引擎都会遵循robots.txt文件的规范,想要阻止这些搜索引擎还是需要采取一些非常手段。
如果是隐私页面,最好设置成登录用户才能访问,或者添加访问密码。
// robots.txt示例 Disallow: /peixun Disallow: /u Disallow: /b User-agent: SemrushBot Disallow: / User-agent: SemrushBot-SA Disallow: / User-agent: YisouSpider Disallow: / Sitemap: https://www.yoursite.com/sitemap.xml
想要获得搜索引擎的青睐,除了上述的因素,还有更关键的是可访问性。就是网站可以稳定、持续地提供服务。如果网站隔三岔五不可访问,或者抛出异常,对于搜索引擎的抓取是不利的。
我们也可以利用这一点,如果某个网页不想让搜索引擎抓取,可以临时性地返回500错误,组织搜索引擎抓取。
网页被抓取以后,搜索引擎就会对其进行索引。索引的主要内容是文字,比如title、alt属性,a标签的文本,一定记得这一点。
搜索引擎会检查网页的内容是否与其他网页的内容重复,重复的内容会被归为一组,再根据一定的规则排序展示。
我们也可以通过代码控制页面是否被索引,比如使用noindex,禁止网页内容被索引。
html<!--禁止搜索引擎索引-->
<meta name="robots" content="noindex">
<!--禁止google索引-->
<meta name="googlebot" content="noindex">
Google的搜索结果展示有很多种,比较常见的就是标题-描述-链接形式,当然也支持图片和视频。这里不一一赘述。
如果想要在Google的搜索页面展示结构化的数据,可以使用json-ld来进行定义。
原文链接:Google 搜索工作原理深度指南


本文作者:谭三皮
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!