grep是一个很强大的命令。这里我们主要来讲使用grep命令来分析网站日志的方法和技巧。
1、合并网站日志
使用ls查看下待合并的日志
合并网站日志
- cat *.log >example.log #合并后缀名为log的日志文件,你也可以合并指定的日志
2.拆分我们想要的日志文件
比如拆分百度蜘蛛的日志文件
- grep "Baiduspider+" example.log >baiduspider.txt
比如拆分404错误日志
- grep "404" example.log >404.txt
还可以同时拆分百度和谷歌的蜘蛛。
这里我们使用的是egrep来实现这一功能。
- egrep "Baiduspider+|Googlebot" example.log >spider.txt
3、我们还可以结合awk命令来格式话我们的日志文件
awk倾向于分析一行中的字段,我们需要来看一下网站的日志格式
我们截取百度蜘蛛访问的来源IP、时间、抓取的URL、返回码和抓取的大小。
- grep "Baiduspider+" example.log |awk '{print $1 "\t" $4 "\t" $7 "\t" $8 "\t" $9 "\t" $10}' >Baiduspider.txt
这里使用[tab]是为了导入excel文件中更加方便你的分析。
更新:可以不用[tab]来格式化日志,直接选择空格作为分隔符就好。
如何使用命令删选不重复的URL的,由于很多日志的参数设置不一样,具体到详细命令命令会有所不同
首先我们还是要知道蜘蛛抓取你的URL位置在你的日志记录行的位置,拿上面的图为例子
如图,由于每条记录的时间戳等不一样,我们不能直接使用sort命令去重,再者我们需要的只是蜘蛛抓取的URL这个参数,那么我们就直接拎出$7这个URL参数后再去重。
如我们要计算蜘蛛抓取的不重复URL个数
- cat access.log |grep Baiduspider+ |awk '{print $7}'|sort -u|wc
要把蜘蛛抓取的不重复URL导出来,就可以去掉wc后加上>baiduspiderurl.txt等就可以了
- cat access.log |grep Baiduspider+ |awk '{print $7}'|sort -u >baiduspiderurl.txt
我们还可以在导出的时候自动给每个URL加上抓取的次数
- cat access.log |grep Baiduspider+ |awk '{print $7}'|sort |uniq -c >baiduspiderurl.txt
摘自:http://www.gnbase.com/thread-2-1.html
分享到:
相关推荐
linux 查看日志常用命令 linux 查看日志常用命令 linux 查看日志常用命令
# free -m # 查看内存使用量和交换区使用量 # df -h # 查看各分区使用情况 # du -sh <目录名> # 查看指定目录的大小 # grep MemTotal /proc/meminfo # 查看内存总量 # grep MemFree /proc/meminfo # 查看空闲内...
包括一些linux常用的命令。常用脚本的编写
Linux下,DB2开发最常用命令总结,全面、使用、正确。希望能对各位有所帮助
nginx日志分析用于分析 nginx 日志文件的很棒的 linux shell 命令的精选列表。
linux基本操作命令,包含,进程、日志查看、文件操作、权限、解压缩、文本操作、磁盘、防火墙、自定义命令、查找文件
Linux日志都以明文形式存储,所以用户不需要特殊的工具就可以搜索和阅读它们。还可以编写脚本,来扫描这些日志,并基于它们的内容去自动执行某些功能。本文介绍了RedHat Linux常用的日志文件和常用的操作命令。
最常用的Linux命令总结,十分全面,大家可以去下载查看!会给你全面性的知识点哦! 查看日志,查看服务器资源、服务的安装、查找、卸载等等命令。 欢迎大家下载!
2019年最新linux手册,包含linux 函数语法 以及 较linux之前版本迭代的日志
监控日志、搜索、设置系统参数、配置权限、tomcat等命令
linux常用命令 查看内核、操作系统、cpu、日志信息、环境变量、分区等
linux常用的命令大全,涉及: 1、目录操作,如新建、删除、编辑、重命名、复制、移动、查看 2、赋予权限:添加权限、所有者等 3、文件打包:解压、压缩等 4、文件上传、下载 5、根据关键词搜索日志:find、grep、sed...
linux常用命令; 定义全局环境变量; 查看日志并查找关键字; 设置防火墙开机自启; 防火墙开放或移除端口; 解压缩文件为压缩包; 从Linux中上传或下载文件到本地(lrzsz); shell编辑命令快捷键; 配置命令开机...
linux服务器日志一些查看、处理技术,介绍一些常用的命令和工具
linux系统中如何查看日志(常用命令)定义.pdf
主要介绍了Shell+Linux命令实现日志分析,本文给出了结合grep命令、awk命令等实现了几个常用的日志分析统计长命令,需要的朋友可以参考下
Linux常用命令大全 比如编辑文件,启动tomcat,查看tomcat日志,等等都有。
Linux必会的60个命令:1、说一些你比较常用linux指令2、查看进程(例:如何查看所有xx进程)3、杀掉进程 3、杀掉进程 5、查看日志 6、查看端口:(如查看某个端口是否被占用)
本文档囊括了包括开发或运维人员日常用的日志查看、服务器内存使用情况查看等常用的命令,可帮助你快速的上手linux系统以及在日常工作中迅速定位以及解决Linux服务器上的问题。