什么是网站日志
网站日志也叫web日志,是对网站访问用户的访问情况做记录,类似视频录像一样的意思。每天我们的访问不但有访客,还有搜索引擎蜘蛛访问,网站日志就可以有效记录所有访客的访问情况,访客的来源,什么时间点来访问,访问了哪些页面,用什么浏览器,什么操作系统等等,网站日志能够把这些数据都记录下来。对于搜索引擎蜘蛛抓取,会记录它是百度蜘蛛,还是google蜘蛛或360蜘蛛,是什么时间过来抓取了哪些页面,抓取的返回值是什么等等这些数据都记录到网站日志文件里。如果我们能很好的读取和分析网站日志就可以换一个角度观察网站的情况,进而解决网站存在的一些问题。
分析网站日志的目的
一般来说有以下几个目的:
- 新建网站发布后一段时间没看到搜索引擎收录,这个时候需要下载网站日志分析搜索引擎是否抓取过内容,是不是我们自己的原因屏蔽了蜘蛛抓取等;
- 原来网站排名还不错后来发现异常了,就要下载网站日志志看看搜索引擎这段时间过来抓取网站情况是否正常;
- 发现网站被攻击或入侵,下载网站日志分析攻击IP的详细情况,攻击时间,攻击方式,攻击特征等;
如何获取网站日志
- 空间一般都去查找 /wwwlogs/ 这一类的目录,名气差不多都有 logs 字样;
- 主机、服务器会在 /www/wwwlogs/这一类的目录中看到网站日志,比如宝塔面板就是这个目录下,在宝塔面板>安全,右侧的上方看到 Web日志就是了;
- 空间和主机要下载网站日志到本地,我们一般使用 ftp软件,宝塔面板也可以直接在上面提到的路径中下载;
- 如果遇到网站日志尺寸过大,几百M甚至超过 1G了,可以用宝塔面板的日志切割功能分成小尺寸文件再下载;
如何分析网站日志
要想分下网站日志,我们还需要一款日志分析软件。找了几款软件都不太好用,最后搜索到了一款 logviewer pro的小软件,用起来还不错。
用这个软件直接打开网站日志文件就行了,也不会限制文件大小,看到的就是一行行的日志记录,如下图所示。是不是看着头皮发麻,感觉无从下手啊,本站在下面会拿出具体例子来分析,你看了之后会觉得还不是那么难以理解的。
从上图中拿出一行来分析如下:
14.18.183.126 – – [06/Sep/2020:16:41:42 +0800] \”GET /13264.html HTTP/1.1\” 200 10177 \”-\” \”Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0; Trident/5.0)\”
IP地址,访问时间精确到秒,+0800是访问者所在时区,get是抓取方式,/13264.html是访问页面地址,http是访问协议,200是http状态码代表访问成功。10177是被访问页面大小。Mozilla后面是访问者浏览器信息、操作系统信息等等。
以上信息我们不用全都分析,只取自己需要的那部分内容综合分析就行了。
再举个例子 ,还是上图中的一行拿过来
- 203.208.60.98 – – [06/Sep/2020:16:42:09 +0800] \”GET /21283.html HTTP/1.1\” 200 9337 \”-\” \”Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)\”
- 在2020年9月6日16:42:09秒的时候 IP为 203.208.60.98的google蜘蛛抓取了 /21283.html页面,抓取成功,页面大小9KB
同样的百度蜘蛛,360蜘蛛,头条蜘蛛都会留下类似的日志痕迹。每一家蜘蛛留下的记号都不相同,但是都有自己品牌的名字。
如何分辨真假搜索引擎蜘蛛
当然了有很多是假的搜索引擎蜘蛛,所以我们要学会分析真假蜘蛛。
Windows系统按下键盘 视窗+R,在弹窗输入 cmd命令。在如下图的命令行中输入
nslookup 203.208(请记得收藏本站-A5云,以便获取更多好玩内容).60.98
命令和IP地址之间有空格。
这样就得到了下图所示的主机名称,里面有 googlebot字样,再结合网络上搜索到的这个 IP段是google蜘蛛的结果,综合判断这是真的google蜘蛛。
本站提醒:
- 很多恶意IP会挂羊头卖狗肉,实际上是有攻击目的,或者采集,大家要注意分辨;
- 恶意攻击会采用代理IP方式攻击,所以有时候你看到的IP未必是访问者的真实IP;
网站日志http状态码
网站日志分析http状态码很重要吗?是的,就刚才我们举例子第一张截图中能看到http状态码,有200或304,意思是搜索引擎蜘蛛或用户来访问网站的结果如何。
- 200代表抓取成功;
- 304自从上次请求后,请求的网页未修改过。主机返回此响应时,不会返回网页内容;
- 404代表抓取时这个链接不存在,所以给访问者就返回404;
Http状态码特别多,200,300,400或500都可以细分出很多常见状态码数字。我们只要大概的知道这几个常见数字代表什么含义:200代表成功抓取,404代表错误链接,500代表主机出错。大体知道这几个数字含义就行了,不用记住所有的。而如果想要了解更多http状态码含义可以问度娘搜索一下。
如果你的网站日志中总是出现 404错误代码,就要去查查这些页面都发生什么情况了,为什么总是提示 404,这样就有助于我们改进网站问题。
发现恶意IP如何屏蔽拉黑
遇到恶意 IP可以添加到主机防火墙IP黑名单中,比如使用安全狗等软件。你也可以在宝塔面板防火墙中屏蔽恶意IP。
宝塔防火墙有系统防火墙(网络层面)和付费防火墙(软件层面),网络层面大于软件层面,可以这么理解:网络层面是在外层最先接触到访问流量,如果你在这里限制了那么这些IP是无法访问主机的。软件层面是主机中的某个web应用,付费防火墙仅限制对这个web应用的访问与否。
拉黑IP难免会遇到“误伤”的时候,从IP黑名单中删除就行了。
本站提示:
如果是CC攻击的话,拉黑是没用的,不影响下次继续用这个“代理IP”攻击。所以要添加到主机防火墙中,比如安全狗,宝塔面板防火墙等。用防火墙来屏蔽CC攻击。
扩展阅读: 宝塔面板网站防火墙如何使用
本站总结
对于大部分新手、小白来说,分析网站日志是一个挺费“眼神儿”和累脑子的工作。平时网站没什么问题的时候也可以多看看网站日志,那里面能发现很多“外表”无法发现的东西。当发现网站异常情况后就要从网站日志中分析问题所在,及时做出相应处理,保障网站的正常运转。