记录内容:
1 http方法
2 客户端和服务器的http版本
3 所请求资源的url
4 响应的http状态码
5 请求和响应报文的尺寸 包含所有实体主体部分
6 事务开始的时间戳
7 referer首部和user-agent 首部的值
日志格式:
常用日志格式:有很多商用及免费工具可以辅助解析。
字段:
remotehost 请求端机器的主机名或IP地址
username 如果执行了ident查询,就是请求端已认证的用户名
auth-username 如果进行了认证,就是请求端已认证的用户名
timestamp 请求的日期和时间
request-line 精确的http请求行文本,get/index.html http/1.1
response-code 响应中返回的http状态码
response-size 响应主体中的content-length.如果响应中没有返回主体,就记录 0
组合日志格式:在常用日志格式基础上添加了两个字段。User-Agent字段用于说明是哪个http客户端应用程序在发起已被记录的请求,而Referer字段则提供了更多与请求端在何处找到这个url的有关信息
Referer:referer首部 的内容
User-Agent:user-agent 首部的内容
两个新字附加在日志条目的末尾
命中率测量:
原始服务器通常会出于计费的目的保留详细的日志记录。内容提供者需要知道url的受访频率,广告商需要知道广告的出现频率,网站作者需要知道所编写的内容的受欢迎程序。客户端直接访问web服务器时,日志记录可以很好地跟踪这些信息。
缓存服务器位于客户端和服务器之间,要处理很多http请求,并在不访问原始服务器的情况下满足它们的请求,服务器中没有客户端访问其内容的记录,导致日志文件中出现遗漏。
由于日志数据会遗失,所以,内容提供者会对其最重要的页面进行缓存清除。缓存清除是指内容提供者有意将某些内容设置为无法缓存,这样,所有对此内容的请求都会被导向原始服务器,但会减缓原始服务器和网络的请求速度,并增加其负荷。
命中率测量协议是对http的一种扩展,它为这个问题提供了一种解决方案。命中率测量协议要求缓存周期性地向原始服务器汇报缓存访问的统计数据。