网站访问统计术语和度量方法–点击、带宽

2009-06-08 / 数据分析 / 0 Comments

带宽(Bandwidth)

  定义:网站流量的度量标准(以数据传递的千字节为单位)。

  度量方法:使用分析日志文件的方式进行统计可以根据日志文件中每条记录中返回文件的大小来统计网站的带宽。

  重载(Reload)

  定义:访问者点击浏览器中的重载(Reload)按钮或者是刷新(Refresh)按钮重新载入当前的页面的动作。

  度量方法:用分析访问日志文件的方式进行统计,当访问者执行重载操作时都会重新发起对该页面的请求,可以将30秒内相同的请求判断为访问者执行了重载的操作,记录重载次数。

  评论:重载操作的数目无法完全准确的被判断。我们建议并列页面阅览数和重载数,而不必从页面阅览数中减去重载数。迎程度和访问者对网站的忠诚度。

  点击(Click)

  定义:一次点击是指访问者的鼠标在一个超文本链接上的一次单击,目的是为了沿着它的链接获得更多访问者感兴趣的信息。

  度量方法:只有使用分析日志文件的方式可以统计出对于某个超文本链接点击次数。

  评论:点击数量(Click-Through、Clickthrough)和点击是同一术语。点击通常被用于网络广告的统计。

  点击率(Click Rate)事实上,目前的点击率所用的英文是Click Through Rate,简写为CTR,引用者注

  定义:点击链接的百分比。

  度量方法:点击数除以链接所在页面的请求数。(更容易理解的方法是,点击率 = 链接被点击的次数/链接被曝光的次数。点击率一般用在横幅广告即Banner上,因此更简单的公式是,CTR = Click / Impression,引用者注)

  评论:收益(Yield)和点击率是同一术语。点击率有多方面的价值,在网络广告中,它是广告有效性的表现,它表示访问者已到达广告客户的网站,而且这些网站还可以提供其它信息。

  广告请求(Ad Request)

  定义:指访问者对页面中广告元素的请求。

  度量方法:广告请求的度量方法参考页面阅览的度量方法。

Read More

网站访问统计如何标识访问者

2009-06-08 / 数据分析 / 0 Comments

 标识网站的访问者是网站访问统计的基础。不恰当的对访问者的标识是目前多种访问统计服务提供的报告难以比较的根本原因。目前还没有十全十美的标识访问者的方法,因此多种访问统计服务使用了不同的标识访问者的方法是可以理解的。我们希望能够提出一种具有可比性的、可被广泛接受的网站访问统计度量的标准。

  访问者(Visitor)定义:一个与网站有交互操作(Engage)的个人。

  度量方法:

  我们建议采用以下方法作为度量、识别访问者的方法。先采用IP地址来标识访问者,不同的IP地址表明不同的访问者。当来访的IP地址相同的时候试图通过跟踪文件(Cookie)来标识访问者,不同的跟踪文件(Cookie)表明不同的访问者。在服务器端加入的模块生成的含有扩展内容的日志文件可识别出访问者的跟踪文件(Cookie),这将弥补原始日志文件未记录跟踪文件(Cookie)的不足。跟踪文件(Cookie)是指由服务器向浏览器发送带有Set-cookie头信息的HTTP响应,支持跟踪文件(Cookie)的浏览器将在本机硬盘上保留一小片用于标识自己身份的信息。不同的跟踪文件(Cookie)可以表明不同的访问者。

  评论:标识网站的访问者是网站访问统计的基础。用户(User)和访问者是同一术语,它们的含义相同。

  1,单纯使用跟踪文件(Cookie)的方法存的问题。(1)并不是所有浏览器都支持跟踪文件(Cookie)。(2)支持跟踪文件(Cookie)的浏览器中有些允许采用不接受任何跟踪文件(Cookie)的策略。(3)跟踪文件(Cookie)可以被某些程序或被手工删除掉。(4)如果用户同时使用多种浏览器,则每个浏览器会保存不同的跟踪文件(Cookie)。(5)当用户重新安装操作系统或重新安装浏览器时,跟踪文件(Cookie)都有可能丢失,除非用户手工保存它们。(6)浏览器只能保存总共300个跟踪文件(Cookie),每个跟踪文件(Cookie)有4K的容量限制,每个域或服务器只可以在客户端放置20个跟踪文件(Cookie)。(7)存在着关于跟踪文件(Cookie)侵犯访问者隐私权的争论。

  跟踪文件(Cookie)存在着种种争议,但它仍然是值得推荐的方法之一,支持使用跟踪文件(Cookie)的意见包括:(1)由Web服务器响应的包含Set-cookie的头信息不会被代理服务器(Proxy)缓存(Cache),代理服务器(Proxy)将传送Set-cookie头信息给客户浏览器。同样地,包含Cookie的客户请求的头信息也将被代理服务器(Proxy)转发给Web服务器。因此,跟踪文件(Cookie)是目前简单而有效的识别使用代理服务器(Proxy)访问网络的用户的方法。(2)目前国内使用最广泛的浏览器Internet Explorer 3.x4.x5.xNetscape 3.x4.xOpera 3.x均支持跟踪文件(Cookie),只有1%的访问者使用除此之外的其它浏览器。 3)在默认状态下,上述浏览器都采用接受所有跟踪文件(Cookie)的策略。(4)对于大多数友善的网站,跟踪文件(Cookie)提供了一种方便访问者访问的机制,而不是一种偷窥用户访问路径的工具。

  2,通过IP地址识别访问者是一种很常用而且值得推荐的方法之一,使用IP地址识别访问者的优点是:(1)对于直接连接在互联网络上具有唯一IP地址的计算机,IP地址可以准确地标识计算机及其来源。(2)相对跟踪文件(Cookie)来讲,IP地址跟踪到计算机,而跟踪文件(Cookie)跟踪到浏览器。同一IP地址的计算机有可能由于同时使用多种浏览器而保留有多个跟踪文件(Cookie),因此IP地址更好地标识了单独的计算机。

  通过IP地址识别用户也存在一些问题。从Web服务器的访问日志中无法全部识别通过代理服务器(Proxy)访问网络的用户。尽管有时可以从HTTP_USER_AGENT环境变量看出访问者使用了某种代理服务器(Proxy),但仍然无法得知他到底是哪个访问者。因此我们选择采用IP地址为主,跟踪文件(Cookie)为辅的方式来标识访问者。

Read More

网站访问日志的统计实现方式

2009-06-08 / 数据分析 / 评论关闭Comments

  对网站的访问信息的统计,我们建议采用如下的实现方式:

  这种方式是对Web服务器生成的日志文件进行分析,这种日志文件有时是原始的文件,有时是由第三方统计机构在服务器端加入的模块生成的。这种方式的优点是可以定制自己格式的日志文件,采用加密算法和压缩日志文件的技术,以保证日志文件的真实性和可靠性,并且降低传递日志文件所产生的网络流量,适用于第三方机构进行网站访问量的认证度量工作。当然这种方式也有自己的不足之处,包括难以做到实时的统计分析,而且在服务器端的附加模块有可能降低服务器的性能。

  在文档中,当提及此方式时,我们称为分析日志文件的方式。

Read More

数据分析与访问统计

2009-05-25 / 数据分析 / 0 Comments

数据是些什么东西?

我们经常提网站数据分析,但是网站数据又是一些什么东西呢?其实电子商务公司也没有什么特别,跟传统企业一样,电子商务公司要分析的数据,本质上也是企业与顾客的交往记录。并且相对于传统企业,电子商务公司的各类网站,如果要想记录企业与顾客之间的交往记录,与以往大部分的传统商务活动都方便得多。

服务器或网站代表着电子商务公司,而顾客就是一个个访问者,网站与访问者两者之间的互动行为,都能够被比较完整地记录下来。网站与访问者之间的互动行为,基本上也分为两大类,一种是最简单的互动,基本上就是访问者通过鼠标或键盘传来“我要访问某个页面”的需求,然后网站服务器收到请求后,将一个动态或静态的页面返回到访问者的浏览器。目前各企业都是用LOG文件来记录这些互动行为;另一种是比较复杂的互动,即为访问者一次跟网站之间要进行多个内容的互动,主要表现为访问者以提交表单的形式去网站之间进行互动,例如会员注册,购买一件商品等,由于内容过多,用LOG来记录这些互动内容基本上是不可行的,所以一般也就选用数据库来记录这些互动内容。

简而言之,我们一般所说的数据分析,就是要将LOG文件与数据库记录内容两大类数据综合起来分析。

为什么要分析数据?

虽然萝卜青菜,各有所爱,但网站的数据分析基本上还是围绕着顾客进行的。首先,管理层面不一样,需要的数据也不一样,公司高层想知道的是一些偏宏观的顾客数据,以便制定公司的战略计划,中层就可能想知道一些微观的顾客数据,以便进行一些日常工作,项目的控制以及短期的战术计划。其次,部门不一样,需要的数据也不一样,采购部门是想知道顾客经常购买哪些商品;内容编辑部比较关心哪些文章最能吸引顾客的眼球;市场部门则侧重哪些广告能带来有价值的顾客。

理想的分析模型

当我们去描述一位顾客,或是顾客群体的时候,经常就会涉及一些分析模型,在这个模型里面,就是要将众多与顾客相关的因素考虑到一起来进行综合分析,但什么时候哪个因素对客户的影响比较大,那则需要数据挖工具或简单点的统计的帮助。

顾客:
    与顾客比较相关的微观数据

时间:不同国家的节假日,正常上班时间,国际上的时差问题…..

兴趣:读书,球类活动,旅游……

所从事的行业:电信-手机销售人员
    ……

与顾客比较相关的宏观数据

国别:时差,节假日,忌讳,喜好
    ……

网站的基本数据

八大类商品,图书类的管理丛书八十本
    …….

网站的事件库:

网站升级;网络不通;商品更新;促销事件

……

Read More