通过Nginx日志分析百度蜘蛛的爬行抓取情况

做网站 SEO优化的朋友会特别关注蜘蛛爬行的次数、频率等,而做好网站优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,如果蜘蛛爬行出现异常怎么办?下面将结合 Linux 系统中的几个 Linux 命令,如 cat 命令 \grep 命令 \awk 命令等可以让你清楚的知道蜘蛛的爬行情况。

seo_sem_marketing_optimization_business_web_internet_search-878753.jpg

下面我们针对 ng­inx 服务器进行分析,日志文件所在目录:/usr/local/nginx/logs/access.logaccess.log 这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大 (超过 50MB) 建议别用这些命令分析,因为这些命令很消耗 CPU,或者更新下来放到分析机上执行,以免影响网站的速度。

Shell命令

1、百度蜘蛛爬行的次数

cat access.log | grep Baiduspider | wc

2、百度蜘蛛的详细记录 (Ctrl C 可以终止)

cat access.log | grep Baiduspider

也可以用下面的命令:

cat access.log | grep Baiduspider | tail -n 10
cat access.log | grep Baiduspider | head -n 10

只看最后 10 条或最前 10 条,这用就能知道这个日志文件的开始记录的时间和日期。

3、百度蜘蛛抓取首页的详细记录

cat access.log | grep Baiduspider | grep "GET / HTTP"

百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。

4、百度蜘蛛派性记录时间点分布

cat access.log | grep "Baiduspider" | awk '{print $4}'

5、百度蜘蛛爬行页面按次数降序列表

cat access.log | grep "Baiduspider" | awk '{print $7}' | sort | uniq -c | sort -r

文中的 Baiduspider 改成其它蜘蛛名称,例如改成 Googlebot 就可以查看谷歌的数据,国内主要以百度蜘蛛的爬行日志为主。

关于通过Nginx日志分析百度蜘蛛的爬行抓取情况的相关内容;如有侵权,请联系老文删除。

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
老文的头像老文
上一篇 2021年8月25日 上午12:49
下一篇 2021年8月25日 下午7:53

相关推荐

  • WordPress 纯代码实现页面锚文本链接(免插件)

    WordPress 纯代码实现页面锚文本链接 WordPress 实现页面锚文本链接的方法很多,由于装插件比较繁琐,所以这里老文笔记介绍一个WordPress 纯代码实现页面锚文本链接方法,在网站主题目录找到该文件 functions.php,具体路径:网站根目录:wp-content/themes/主题目录/ functions.php //自动TAG转内…

    2021年10月8日
    425
  • WordPress新建页面没有评论框的解决方法

    WordPress是一个功能非常丰富的系统。对于新手而言,有些功能的开启关闭真的不太好找。不过,WordPress教程,如果大家善于使用度娘或者谷歌等炒鸡流弊的搜索引擎,发动你们的小拇指,去搜索百度一下,基本都可以找到答案。 现在分享一个比较常见的功能(其实是我被问得有点多,有点烦躁) 就是无论是新建的文章还是新建的页面,有些小伙伴都会问:怎么不见评论框?不…

    2021年11月7日
    335
  • WordPress开启HTTPS后正文图片改为HTTPS两种方法

    WordPress 站点开启 HTTPS 后,文章中引用的图片就很有必要把 HTTP 统一改为 HTTPS,要不然会地址栏上的绿锁就会有黄色的三角,感觉是很不爽的。为了解决这个问题,我们有两种方法:一个是治标不治本的办法,就是在主题的  functions.php 文件中加入字符替换语句,这样读者在每次访问的时候会相应的把图片的 http 链接替换为 htt…

    2021年9月28日
    711
  • 宝塔linux面板命令大全(最全宝塔linux面板命令)

    宝塔linux面板命令大全 安装宝塔 CentOS安装脚本 yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh Ubuntu/Deepin安装脚本 wget -O inst…

    2024年10月3日
    520
  • 比较热门的域名 XYZ域名和COM的域名的区别和选择建议

    如今COM域名新注册和续费成本越来越高,有朋友开始动摇准备选择其他后缀域名做网站。比如有网友提到用.XYZ域名后缀做网站成本低,有服务商首年还甚至免费。对于XYZ和COM域名的选择和区别我们简单的介绍。 第一、XYZ和COM域名介绍 1、XYZ域名 .xyz是一种通用顶级域名,于2014年推出。旨在提供一个简单、独特且广泛适用的域名选项。.xyz域名在开始时…

    2023年9月18日
    377