通过Nginx日志分析百度蜘蛛的爬行抓取情况

做网站 SEO优化的朋友会特别关注蜘蛛爬行的次数、频率等,而做好网站优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,如果蜘蛛爬行出现异常怎么办?下面将结合 Linux 系统中的几个 Linux 命令,如 cat 命令 \grep 命令 \awk 命令等可以让你清楚的知道蜘蛛的爬行情况。

seo_sem_marketing_optimization_business_web_internet_search-878753.jpg

下面我们针对 ng­inx 服务器进行分析,日志文件所在目录:/usr/local/nginx/logs/access.logaccess.log 这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大 (超过 50MB) 建议别用这些命令分析,因为这些命令很消耗 CPU,或者更新下来放到分析机上执行,以免影响网站的速度。

Shell命令

1、百度蜘蛛爬行的次数

cat access.log | grep Baiduspider | wc

2、百度蜘蛛的详细记录 (Ctrl C 可以终止)

cat access.log | grep Baiduspider

也可以用下面的命令:

cat access.log | grep Baiduspider | tail -n 10
cat access.log | grep Baiduspider | head -n 10

只看最后 10 条或最前 10 条,这用就能知道这个日志文件的开始记录的时间和日期。

3、百度蜘蛛抓取首页的详细记录

cat access.log | grep Baiduspider | grep "GET / HTTP"

百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。

4、百度蜘蛛派性记录时间点分布

cat access.log | grep "Baiduspider" | awk '{print $4}'

5、百度蜘蛛爬行页面按次数降序列表

cat access.log | grep "Baiduspider" | awk '{print $7}' | sort | uniq -c | sort -r

文中的 Baiduspider 改成其它蜘蛛名称,例如改成 Googlebot 就可以查看谷歌的数据,国内主要以百度蜘蛛的爬行日志为主。

关于通过Nginx日志分析百度蜘蛛的爬行抓取情况的相关内容;如有侵权,请联系老文删除。

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
老文的头像老文
上一篇 2021年8月25日 上午12:49
下一篇 2021年8月25日 下午7:53

相关推荐

  • 《荒野大镖客2》最快刷经验技巧 怎么刷经验快?

    荒野大镖客2怎么刷经验快?线上模式一直在不停的更新,在当前版本,有些玩家不知道怎么刷经验快,小编这里给大家带来了荒野大镖客2最快刷经验技巧分享,一起来看下吧。 荒野大镖客2最快刷经验技巧分享 目前版本经验获取最快方法是去竞速模式杀人,竞速模式90%都是挂机的,个人实测15分钟竞速模式可获得(5000经验)(0.36金条)击杀一名玩家获得经验大约在50-60之…

    2023年1月13日
    252
  • WordPress主题存放在哪个文件夹?怎样快速删除WordPress主题?

    WordPress主题存放在哪个文件夹?今天老文遇到一个网友问到这个问题。我们都知道WP程序是一款后端程序,所有的功能都通过主题和插件实现的,程序有单独的存储主题的位置,我们只需要在对应的位置放上主题即可在后台激活当前主题使用。 1、WordPress主题存放文件夹 WordPress主题存放在 “wp-content/themes/&#8221…

    2022年4月3日
    531
  • 如何为WordPress设置自定义静态首页?

    首先我们设置一个php文件,文件名和代码都可以自定义,如show.php及下方代码为例: 代码语言:javascript 复制 <!DOCTYPE HTML> <html> <head> <meta http-equiv=”Content-Type” content=”text/html; charset=utf-8…

    2024年7月31日
    283
  • 安装zblog提示“创建c_option.php失败”的原因和解决办法

    有zblog用户反应在安装zblog的最后一步时提示“创建c_option.php失败”,如下图: 本文来说明下这个问题的原因和解决办法。 问题产生的原因: c_option.php是zblog的数据库配置文件,当安装完成的时候程序会自动创建这个文件。如果你的主机权限不足,那么程序就创建不了这个文件,就会出现这个提示了。 所以这个问题的原因就是你的主机权限不…

    2021年11月18日
    605
  • 自动将文章中的链接转为超链接

    最近在做一个论坛系统,使用了一下代码作为正文展示: 代码语言:javascript 复制 <div class=”article-content”> <?php echo $article[‘content’]; ?> </div> 这里用到的样式是“article-content”所以我直接在JS中对这个元素进行处理即可…

    2024年7月31日
    259