`

linux下常用分析日志命令(1)

阅读更多

grep是一个很强大的命令。这里我们主要来讲使用grep命令来分析网站日志的方法和技巧。

1、合并网站日志

使用ls查看下待合并的日志

合并网站日志

  1. cat *.log >example.log #合并后缀名为log的日志文件,你也可以合并指定的日志

2.拆分我们想要的日志文件

比如拆分百度蜘蛛的日志文件

  1. grep "Baiduspider+" example.log >baiduspider.txt

比如拆分404错误日志

  1. grep "404" example.log >404.txt

还可以同时拆分百度和谷歌的蜘蛛。

这里我们使用的是egrep来实现这一功能。

  1. egrep "Baiduspider+|Googlebot" example.log >spider.txt

3、我们还可以结合awk命令来格式话我们的日志文件

awk倾向于分析一行中的字段,我们需要来看一下网站的日志格式

我们截取百度蜘蛛访问的来源IP、时间、抓取的URL、返回码和抓取的大小。

  1. grep "Baiduspider+" example.log |awk '{print $1 "\t" $4 "\t" $7 "\t" $8 "\t" $9 "\t" $10}' >Baiduspider.txt

这里使用[tab]是为了导入excel文件中更加方便你的分析。

更新:可以不用[tab]来格式化日志,直接选择空格作为分隔符就好。

如何使用命令删选不重复的URL的,由于很多日志的参数设置不一样,具体到详细命令命令会有所不同
首先我们还是要知道蜘蛛抓取你的URL位置在你的日志记录行的位置,拿上面的图为例子

如图,由于每条记录的时间戳等不一样,我们不能直接使用sort命令去重,再者我们需要的只是蜘蛛抓取的URL这个参数,那么我们就直接拎出$7这个URL参数后再去重。

如我们要计算蜘蛛抓取的不重复URL个数

  1. cat access.log |grep Baiduspider+ |awk '{print $7}'|sort -u|wc

要把蜘蛛抓取的不重复URL导出来,就可以去掉wc后加上>baiduspiderurl.txt等就可以了

  1. cat access.log |grep Baiduspider+ |awk '{print $7}'|sort -u  >baiduspiderurl.txt

我们还可以在导出的时候自动给每个URL加上抓取的次数

  1. cat access.log |grep Baiduspider+ |awk '{print $7}'|sort |uniq -c  >baiduspiderurl.txt

摘自:http://www.gnbase.com/thread-2-1.html

分享到:
评论

相关推荐

    linux 查看日志常用命令

    linux 查看日志常用命令 linux 查看日志常用命令 linux 查看日志常用命令

    Linux系统中查看日志的常用命令

    # free -m # 查看内存使用量和交换区使用量 # df -h # 查看各分区使用情况 # du -sh <目录名> # 查看指定目录的大小 # grep MemTotal /proc/meminfo # 查看内存总量 # grep MemFree /proc/meminfo # 查看空闲内...

    linux常用命令学习日志

    包括一些linux常用的命令。常用脚本的编写

    Linux下db2常用命令总结

    Linux下,DB2开发最常用命令总结,全面、使用、正确。希望能对各位有所帮助

    nginx-log-analysis:用于分析 nginx 日志文件的很棒的 linux shell 命令的精选列表

    nginx日志分析用于分析 nginx 日志文件的很棒的 linux shell 命令的精选列表。

    linux部署基本常用命令

    linux基本操作命令,包含,进程、日志查看、文件操作、权限、解压缩、文本操作、磁盘、防火墙、自定义命令、查找文件

    RedHat Linux常见的日志文件和常用命令

    Linux日志都以明文形式存储,所以用户不需要特殊的工具就可以搜索和阅读它们。还可以编写脚本,来扫描这些日志,并基于它们的内容去自动执行某些功能。本文介绍了RedHat Linux常用的日志文件和常用的操作命令。

    常用Linux命令.pdf

    最常用的Linux命令总结,十分全面,大家可以去下载查看!会给你全面性的知识点哦! 查看日志,查看服务器资源、服务的安装、查找、卸载等等命令。 欢迎大家下载!

    4_Linux 常用命令.ppt

    2019年最新linux手册,包含linux 函数语法 以及 较linux之前版本迭代的日志

    linux常用的经典命令

    监控日志、搜索、设置系统参数、配置权限、tomcat等命令

    linux 常用命令 自制自用

    linux常用命令 查看内核、操作系统、cpu、日志信息、环境变量、分区等

    linux常用的命令大全

    linux常用的命令大全,涉及: 1、目录操作,如新建、删除、编辑、重命名、复制、移动、查看 2、赋予权限:添加权限、所有者等 3、文件打包:解压、压缩等 4、文件上传、下载 5、根据关键词搜索日志:find、grep、sed...

    Linux常用命令、日常开发常用

    linux常用命令; 定义全局环境变量; 查看日志并查找关键字; 设置防火墙开机自启; 防火墙开放或移除端口; 解压缩文件为压缩包; 从Linux中上传或下载文件到本地(lrzsz); shell编辑命令快捷键; 配置命令开机...

    linux日志管理

    linux服务器日志一些查看、处理技术,介绍一些常用的命令和工具

    linux系统中如何查看日志(常用命令)定义.pdf

    linux系统中如何查看日志(常用命令)定义.pdf

    Shell+Linux命令实现日志分析

    主要介绍了Shell+Linux命令实现日志分析,本文给出了结合grep命令、awk命令等实现了几个常用的日志分析统计长命令,需要的朋友可以参考下

    Linux常用命令大全.docx

    Linux常用命令大全 比如编辑文件,启动tomcat,查看tomcat日志,等等都有。

    Liunx.zip Linux常用命令

    Linux必会的60个命令:1、说一些你比较常用linux指令2、查看进程(例:如何查看所有xx进程)3、杀掉进程 3、杀掉进程 5、查看日志 6、查看端口:(如查看某个端口是否被占用)

    常用的Linux命令

    本文档囊括了包括开发或运维人员日常用的日志查看、服务器内存使用情况查看等常用的命令,可帮助你快速的上手linux系统以及在日常工作中迅速定位以及解决Linux服务器上的问题。

Global site tag (gtag.js) - Google Analytics