robots.txt 和 sitemap.xml 对 SEO 的影响

域名申请开通、网站放了好久近期才开始着力来做,发现博客只被 Google 收录,基础的 robots.txt 和 sitemap.xml 都有相应缺失,了解了一下 SEO 相关的只是,发现欠缺的东西挺多。

关于 robots.txt,权威的参考资料是 Google Console 创建 robots.txt 文件,相关的作用和创建方法此处不再赘述,更棒的是如果你一开始就能按照搜索引擎优化 (SEO) 新手指南来做,那么问题将会减少很多。

没有 robots.txt

默认情况下,搜索引擎是可以抓取所有页面的;简而言之如果允许搜索引擎完全抓取站点可以不设置 robots.txt 文件

如果不设置,请保证搜索引擎访问 robots.txt 文件时能够返回 404 错误码,防止搜索引擎误解。

如果设置,可以参考如下设置:

User-agent: *

没有 sitemap.xml

正常使用情况下站点地图是百利而无一害的,提交站点地图可以加速搜索引擎爬取速度,影响内容的更新,在站点结构不佳,功能板块和内容较为分散的情况下站点地图是改善最终要的一个环节。
但是 sitemap 不会影响搜索引擎对站点的收录情况、搜索权重,相关数据还是得看搜索引擎根据内容计算。

大多数博客和文档系统如 wordpress hexo 都带有站点地图生成功能,有关 sitemap 的权威资料详见 Google Console 管理您的站点地图

在 robots.txt 中添加 sitemap.xml
以 Hexo 为例

  1. 可以使用 hexo-generator-sitemaphexo-generator-baidu-sitemap 插件生成 sitemap.

  2. 编辑站点的 _config.yml 文件,添加并启用插件:

    # hexo sitemap网站地图
    sitemap:
    path: sitemap.xml
    baidusitemap:
    path: baidusitemap.xml
  3. source 目录下添加 robots.txt 文件,内容如下,生成站点后将自动出现在 public

    User-agent: *

    Sitemap: https://wivwiv.com/sitemap.xml
    Sitemap: https://wivwiv.com/baidusitemap.xml