发现现象与目标之间的关系

2009-09-14 / 数据分析 / 0 Comments

发现现象与目标之间的关系就不是那么简单了。有些关系是很直接的——现象本身就和目标直接有因果关系,有些则需要深入的挖掘,还有些则要网站之外数据和信息的帮助。

对于那些和目标之间关系不明显的现象,你可以用下面的思维方式来明确它和目标之间的联系:

现象本身是什么——事实的描述,要求越简洁越好:能够用10个字说明这个现象就不要用11个!
假设现象背后的原因是什么——现象形成的驱动因素,要求想的越多越好:如果有3个原因,就不能仅仅只说明2个!现象背后的原因实在是最重要的部分之一,因此,大家最好不要天花乱坠的瞎猜,不妨按照下面的分类进行:
网站本身的原因;
网站访问者的原因;
其他网络营销活动的影响;
其他线下营销活动的影响;
整个互联网环境甚至社会宏观环境(如特定社会事件)的影响;
证实现象背后的真正的原因——去伪存真,分析现象背后的原因需要”大胆假设小心求证“的思维方式。此外,这个部分我们需要我们的逻辑思维之外,更需要我们去直接进行网站的实验测试,例如A/B Test。
建立或否决现象发生原因与目标之间的联系——这是现象与目标之间关系的本质所在。
关于这一点,需要举一个例子仔细说明。比如,我们的目标是提升网站流量(目标),而通过网站分析工具我们知道了网站bounce rate很大,而new visitors所占的比例在不断提高(现象)。接着我们通过进一步分析和研究了解到,这些现象背后的原因是首页设计不恰当造成用户误认为网站没有信息量,不是好网站(原因)。这样,我们就可能能够通过这个原因建立现象和目标之间的关系——网友觉得网站质量不佳,不值得再次访问,造成访问量下降。
有时候,我们发现了现象,也找出了现象背后的所有可能原因,但发现这些原因与网站的目标之间并没有任何结合点。这个时候,我们需要果断的否决现象与目标之间的关系,然后转而去发现其他现象,寻找其他与目标相关的原因。

Read More

日本最大社交交友网站mixi用户特性数据分析

2009-08-26 / 数据报告 / 0 Comments

在当今的日本,很多日本人可能不知道Facebook和MySpace还有日语网站, 但是创立于2004年2月的Mixi,现在已经成为了日本排名第三的网站,每五个日本网民中就有一个是Mixi用户。Mixi在全球范围也许达不到社交网 站巨头Facebook和MySpace的影响力,但在日本,它是当之无愧的霸主。短短4年,到了2008年6月,这家东京公司的用户达到1500万,与 一年前的1070万相比猛增了40%,Mixi的用户每天有二亿多的网页浏览量,会员中二十几岁的人口占七成左右,可以说Mixi早已取得日本SNS市场 的垄断地位。

截止2009年6月31日,根据未经过确认的内部数据显示,Mixi的用户达到2100万,主要用户集中在经济发达的东京周遍,约占到总用户数的一半左右(见下图)!

1247622629899

  从艾媒市场咨询研究数据显示, Mixi用户多为追赶时尚的年轻人,其中包括中学生、大学生及刚参加工作不久的企业员工,20-29岁占总用户数的54.9%,女性用户明显比男性多,占 52.7%,(见下图)。Mixi的定位受到了日本年轻用户的青睐,并给它取了个“kawaii(日语中“可爱”之意)”的绰号。有日本研究者认 为,Mixi上述市场战略取得了成功,20几岁的年轻人很少看电视,因而Mixi 成为他们进行网上交流的最佳方式。

21

31

  如果Mixi用户每月交纳300日元(约合2.5美元)费用,则可得到更大照片存储空间、更多博客设计工具、永久信息存档及其他服务。Mixi 于2006年9月进行了首次公开招股(IPO),目前市值约为25亿美元,创建人兼总裁Kasahara持有该公司60%股权。相比之下,差不多与 Mixi同时创建的另一家日本社交网站Gree主要定位于年纪较大的职场人士,目前也已经上市。Gree用户经常讨论政治等严肃话题。尽管Gree曾吸引 了大批用户,但流量远不及Mixi。

Read More

了解你的网站访客:网站数据收集与分析

2009-06-08 / 数据分析 / 0 Comments

互联网是一个快节奏的环境。世界各地的人们在任何时间都能来到你的站点,你的每个访客都有不同的目的和需求。不像实体零售商店,你不能看到谁来到了你的商店以及在柜台前浏览了哪些商品。你不了解你的访客,如何才能为所有这些客人展开一个粗略的轮廓呢?

你每天都能从访客在你站点的进行的交互活动得到他们的一些信息,他们有些注册了网站帐户,有些留下了注释,有些给你发送的电子邮件。不过,他们中的大多数是“不可见”的,他们找到您的网站,看看你的这样那样,点一下网站链接然后消失。

当前我们可以结合可见的用户活动(比如:注释/电子邮件)和统计数据(比如:访问频率/访问停留时间)来了解访客目的。不过这些信息对于大多数的商务网站和博客来说已经足够了吗?是的,但是我认为如果能够更多的了解和认识你的听众,这将对你的在线生意更有帮助。

在营销和广告活动中,我们积极主动地确定我们的目标受众。以最终目标为开始,然后以正确的言论和词组组织我们的网站/广告,间距、样式、关键词以及呼吁人们作为消费者/用户/读者的观点。收集访问我们的网站的访客资料,使我们更有效的市场营销。

为你的受众分析和构建一个全面的形象非常有益,即使它可能需要重新定位,因为它提供一系列的资讯,允许你更好的提升内容范围,网站可用性,转换率以及行销活动。我们把这个过程分为两个阶段:统计分析数据收集

统计分析:从你已经了解的开始


图片版权: Mint

依靠你当前使用的统计工具,你能够得到一些关于访客如何使用你站点的信息,他们从何而来以及他们都在寻找什么。很显然有大量不同的指标来参考,不过我们这里只列出一些我们认为通常对理解你的用户更相关的一些指标:

  1. 访客忠诚度,跳出率,回头率,站点停留时间。 这些网站指标衡量了一个重要的事情:访客参与程度。他们访问你的站点多久,最后一次使用网站的访问深度。尽管这些数字无法最终显示现场用户的活动,却是衡量用户热情的标准。
  2. 访客位置。 让你可以揣测访客的文化与语言习惯。如果你知道你的访客多数都来自一个特定的国家或地区,你可能需要以地域文化为重点来创建一个Landing Page或者内容页。
  3. 访客搜索片段及关键词。 包括搜索引擎以及站内搜索。这是最清晰的访客兴趣指示器,搜索片段告诉你他们想要从你的站点获得什么,并且显示了你需要补充什么信息来填补内容的空白。这是特别的数据收集,如果你持续从某个特别的字句获得查询,你就可以有针对性的创建访客感兴趣的内容,并提供更吸引他们注意的相关内容给他们。
  4. 流量来源。 这包含了搜索引擎,引用站点,直接输入/书签流量以及广告活动的流量来源。留意引用站点:它显示了什么样的访客正在阅读或使用。流量来源还可以告诉你哪里能够更好的提高你的知名度。

花一点时间在这些统计数据上面。不要仅仅看到他们在每一个单一的时间点的表现,经常有规则的研究它们会更有意义,把目光放在站点或者营销/广告活动的存在周期上。总体上,他们会给你一个用户想要什么的好主意,什么吸引了用户的注意。

如何获取更多的访客数据:使用投票,调查以及特征

这是非常有趣的一个部分: 积极征求用户信息。代替简单的监视web统计数字,你可以抓住时机,让访客自愿告诉你个人资料以及他们的想法。你可以通过下面的几个办法来实现:

  1. 投票. 一个完美和通俗的方法,依靠用户选择来获取信息,并且在任何网站都非常容易设置和维护。询问形形色色的不同问题,逐步积累大量信息,这是一个不会显得过于具有侵越性的好方法。 运行一个投票两个星期,然后改变需要投票的问题来获得更多信息。把投票问题集成在一篇相关的文章中也是一个很有效的方法,当然你也可以把投票程序放在站点中的其他醒目的位置。
  2. 调查. 基于调查的长度和创建的方式,调查表需要更多的时间和努力才能完成。如果调查太长,一些访客会逃避或者放弃完成他们。适当捆绑一些特别优惠或者刺激性的竞赛在调查中,有利于较长的调查完成。简短的调查可以用在已经存在的客户,或者在用户完成一个特别的购买或付款计划/订阅等之后提供给他们。
  3. 现场用户功能. 如果你运行一个社区,社会化煤体服务,或者一个博课,你则可以通过简单提供更多的用户功能(让用户可以在你的网站交流)来获取更多的信息。比如,允许用户在个人资料中输入更多的传记信息,或者给他们一些选项来为你的博客文章或者其他用户的贡献进行评分。交互功能也为你的用户增加了价值,并且提高了他们在你网站的互动参与活动。在网站策略基础上进行思考,你需要什么样的数据,然后创建一个新功能,让用户间接暴露这些信息给你。 Facebook就是一个很好的例子,通过特别的功能生成大量的可采集数据。当然,这需要有一个良好和适当的隐私协议,并且让用户可以随时容易的选择退出。
  4. 访客回执. 要了解你的访客,确保监视你的反馈通道非常有用。注释,电子邮件,新进的博客链接,在线社区的叙述,这些都可以给你一个直观的感觉,了解人们都是怎么想你的网站的。订阅正确的回馈通道 (Google alerts, blogsearch 等.) 并且天天对他们进行跟踪。你可以选择自己或者是让其他的正式回馈/社区协调人员来为你了解人们的想法。访客回馈常常都是未经同意的,即使你是特别的向他们询问,而且容易的获得更多的注释/电子邮件。访客回执为你提供了如何更好地满足您的目标市场的线索。

本文不是一篇完全详尽的列表,不过我们提供的一些方法可以在线或者离线一起使用。对于投票和调查,你可以为你的网站平台找到一些插件或者软件。当然,你还可以使用一些扩展的在线服务,比如 SurveyMonkey, PollDaddy, 4Q 以及 Wufoo

在获取数据之后,安装一个允许你分段和比较在一个周期内发现的系统。你可以简单的使用一个电子制表工具或者更复杂的工具。当你综合这些访客分析数据后,你将很容易的了解你的客户,你可以更好的调节内容来适应他们的需求和兴趣。

Read More

网站访问统计术语和度量方法–点击、带宽

2009-06-08 / 数据分析 / 0 Comments

带宽(Bandwidth)

  定义:网站流量的度量标准(以数据传递的千字节为单位)。

  度量方法:使用分析日志文件的方式进行统计可以根据日志文件中每条记录中返回文件的大小来统计网站的带宽。

  重载(Reload)

  定义:访问者点击浏览器中的重载(Reload)按钮或者是刷新(Refresh)按钮重新载入当前的页面的动作。

  度量方法:用分析访问日志文件的方式进行统计,当访问者执行重载操作时都会重新发起对该页面的请求,可以将30秒内相同的请求判断为访问者执行了重载的操作,记录重载次数。

  评论:重载操作的数目无法完全准确的被判断。我们建议并列页面阅览数和重载数,而不必从页面阅览数中减去重载数。迎程度和访问者对网站的忠诚度。

  点击(Click)

  定义:一次点击是指访问者的鼠标在一个超文本链接上的一次单击,目的是为了沿着它的链接获得更多访问者感兴趣的信息。

  度量方法:只有使用分析日志文件的方式可以统计出对于某个超文本链接点击次数。

  评论:点击数量(Click-Through、Clickthrough)和点击是同一术语。点击通常被用于网络广告的统计。

  点击率(Click Rate)事实上,目前的点击率所用的英文是Click Through Rate,简写为CTR,引用者注

  定义:点击链接的百分比。

  度量方法:点击数除以链接所在页面的请求数。(更容易理解的方法是,点击率 = 链接被点击的次数/链接被曝光的次数。点击率一般用在横幅广告即Banner上,因此更简单的公式是,CTR = Click / Impression,引用者注)

  评论:收益(Yield)和点击率是同一术语。点击率有多方面的价值,在网络广告中,它是广告有效性的表现,它表示访问者已到达广告客户的网站,而且这些网站还可以提供其它信息。

  广告请求(Ad Request)

  定义:指访问者对页面中广告元素的请求。

  度量方法:广告请求的度量方法参考页面阅览的度量方法。

Read More

vdoing统计数据说明

2009-05-28 / 数据分析 / 0 Comments

准确的基础统计数据

UV(Unique Visitor):独立访客,将每台独立上网电脑(以cookie为依据)视为一位访客,一天之内(00:00-24:00),访问您网站的访客数量。一天之内相同cookie的访问只被计算1次。

PV(Page View):访问量,即页面浏览量或者点击量,用户每次对网站的访问均被记录1次。用户对同一页面的多次访问,访问量值累计。

IP:指独立IP数。00:00-24:00内相同IP地址只被计算一次。

人均PV: 指选择时间范围内,每个访客访问网站的PV数。该数值不是简单的由人均PV=PV/UV得到,考虑到存在不正常手段获取流量的情况,我们采用更为准确的算法得到该数值。

IP质量:根据人均PV的数值来评价某个来源、某个关键字、某个访客的质量和价值。通过对互联网数据的大量统计,确定了评判IP质量的准确的依据。人均PV越高,IP质量就越好,也就表明该来源下访客的忠诚度越好。

在线人数:5分钟内在线访问的UV数。

访问深度:在一次完整的站点访问过程中,访客所浏览的页面数。

停留时间:所有访客的访问过程,访问持续时间的平均值。

最近访客:最近一段时间内(5分钟内)访问您网站的独立访客。

当前访客活跃程度:指当前访问您网站访客的多少。

当前访客活跃度:是指您网站上当前访客的多少,它在一定程度反应了您网站在当前时间的受欢迎程度。

回访人数:某个cookie的再次访问计为一个回访客,它的数目即为回访人数。

回访率:回访访客占所有访客的比例,主要用于揭示网站访问者对网站的忠诚度。

新增访问:某个cookie的首次访问计为一个新访客。

回访次数:是指某个cookie除第一次访问之后,又访问您网站的次数。

停留时间:是指某个访客访问您网站的时间长短。

首次进入页面地址:是指某个访客本次访问您网站时所访问的第一个页面。

最后访问页面地址:是指某个访客本次访问您网站时所访问的最后一个页面。

访问路径:每个访问者从进入您的网站开始访问,一直到最后离开您的网站,整个过程中先后浏览的页面称为访问路径。

访问频度:是指您网站上访问者每日访问的频度,用于揭示您网站内容对访问者的吸引程度。

访问入口:每次访问过程中,用户进入的第一个页面,此页面可以显示网站对外或搜索引擎的一些链接入口。

访问出口:每次访问过程中,用户结束访问,离开前点击的最后一个页面,此页面可以显示网站对外或搜索引擎的一些链接入口。

点击次数:是指用户点击页面上链接的次数。

到达PV:是指通过某个关键字到达您网站的访客所带来的访问量。

UV%:指选择时间范围内,某个类别的UV占总UV的比例。(UV% = UV / 总UV)

PV%:指选择时间范围内,某个类别的PV占总PV的比例。(PV% = PV / 总PV)

历史:该时间指您的网站自开通维度统计系统之日起至今的各数据量的总和。

人口统计学数据定义

性别比例:访问您的网站、网站中的某个页面或者某个关键字的男女各有多少。(已开放)

年纪分布:访问您网站访客的年纪分布情况,它让您更加清楚地了解到访问您网站的人群是个什么样子的群体。(未开放)

收入分析:访问您网站访客的收入情况,它能让您清楚地知道您的访客的消费能力。

用户模型(persona)定义

Persona:(Persona是用户模型的的简称)是虚构出的一个用户用来代表一个用户群。一个persona可以比任何一个真实的个体都更有代表性。一个代表典型用户的persona的资料有性别、年纪、收入、地域、情感、所有浏览过的URL、以及这些URL包含的内容、关键词等等。

Read More

数据分析与访问统计

2009-05-25 / 数据分析 / 0 Comments

数据是些什么东西?

我们经常提网站数据分析,但是网站数据又是一些什么东西呢?其实电子商务公司也没有什么特别,跟传统企业一样,电子商务公司要分析的数据,本质上也是企业与顾客的交往记录。并且相对于传统企业,电子商务公司的各类网站,如果要想记录企业与顾客之间的交往记录,与以往大部分的传统商务活动都方便得多。

服务器或网站代表着电子商务公司,而顾客就是一个个访问者,网站与访问者两者之间的互动行为,都能够被比较完整地记录下来。网站与访问者之间的互动行为,基本上也分为两大类,一种是最简单的互动,基本上就是访问者通过鼠标或键盘传来“我要访问某个页面”的需求,然后网站服务器收到请求后,将一个动态或静态的页面返回到访问者的浏览器。目前各企业都是用LOG文件来记录这些互动行为;另一种是比较复杂的互动,即为访问者一次跟网站之间要进行多个内容的互动,主要表现为访问者以提交表单的形式去网站之间进行互动,例如会员注册,购买一件商品等,由于内容过多,用LOG来记录这些互动内容基本上是不可行的,所以一般也就选用数据库来记录这些互动内容。

简而言之,我们一般所说的数据分析,就是要将LOG文件与数据库记录内容两大类数据综合起来分析。

为什么要分析数据?

虽然萝卜青菜,各有所爱,但网站的数据分析基本上还是围绕着顾客进行的。首先,管理层面不一样,需要的数据也不一样,公司高层想知道的是一些偏宏观的顾客数据,以便制定公司的战略计划,中层就可能想知道一些微观的顾客数据,以便进行一些日常工作,项目的控制以及短期的战术计划。其次,部门不一样,需要的数据也不一样,采购部门是想知道顾客经常购买哪些商品;内容编辑部比较关心哪些文章最能吸引顾客的眼球;市场部门则侧重哪些广告能带来有价值的顾客。

理想的分析模型

当我们去描述一位顾客,或是顾客群体的时候,经常就会涉及一些分析模型,在这个模型里面,就是要将众多与顾客相关的因素考虑到一起来进行综合分析,但什么时候哪个因素对客户的影响比较大,那则需要数据挖工具或简单点的统计的帮助。

顾客:
    与顾客比较相关的微观数据

时间:不同国家的节假日,正常上班时间,国际上的时差问题…..

兴趣:读书,球类活动,旅游……

所从事的行业:电信-手机销售人员
    ……

与顾客比较相关的宏观数据

国别:时差,节假日,忌讳,喜好
    ……

网站的基本数据

八大类商品,图书类的管理丛书八十本
    …….

网站的事件库:

网站升级;网络不通;商品更新;促销事件

……

Read More

数据挖掘的流程

2009-05-20 / 数据分析, 数据报告 / 0 Comments

 1、数据挖掘环境

  数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识.   数据挖掘环境可示意如下图:

数据挖掘环境框图.gif

  2、数据挖掘过程图

  下图描述了数据挖掘的基本过程和主要步骤

  untitled

  数据挖掘的基本过程和主要步骤

  3、数据挖掘过程工作量

  在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据和顾问.图2各步骤是按一定顺序完成的,当然整个过程中还会存在步骤间的反馈.数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成.图3给出了各步骤在整个过程中的工作量之比.可以看到,60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的10%.

  untitled1

  图3数据挖掘过程工作量比例

  4、数据挖掘过程简介

  过程中各步骤的大体内容如下:

  (1). 确定业务对象

  清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的.

  (2). 数据准备

  1)、数据的选择

  搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.

  2)、数据的预处理

  研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型.

  3)、数据的转换

  将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.

  (3). 数据挖掘

  对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成.

  (4). 结果分析

  解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.

  (5). 知识的同化

  将分析所得到的知识集成到业务信息系统的组织结构中去.

  5、数据挖掘需要的人员

  数据挖掘过程的分步实现,不同的步会需要是有不同专长的人员,他们大体可以分为三类.

  业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求.

  数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术.

  数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据.

  从上可见,数据挖掘是一个多种专家合作的过程,也是一个在资金上和技术上高投入的过程.这一过程要反复进行牞在反复过程中,不断地趋近事物的本质,不断地优先问题的解决方案。数据重组和细分添加和拆分记录选取数据样本可视化数据探索聚类分析神经网络、决策树数理统计、时间序列结论综合解释评价数据知识数据取样数据探索数据调整模型化评价。

Read More

数据挖掘的商业和营销应用

2009-05-20 / 数据分析, 数据报告 / 0 Comments

  1、数据挖掘解决的典型商业问题

  需要强调的是,数据挖掘技术从一开始就是面向应用的。目前,在很多领域,数据挖掘(data mining)都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。数据挖掘所能解决的典型商业问题包括:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。

  2、数据挖掘在市场营销的应用

  数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。

  通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。

  商业消费信息来自市场中的各种渠道。例如,每当我们用信用卡消费时,商业企业就可以在信用卡结算过程收集商业消费信息,记录下我们进行消费的时间、地点、感兴趣的商品或服务、愿意接收的价格水平和支付能力等数据;当我们在申办信用卡、办理汽车驾驶执照、填写商品保修单等其他需要填写表格的场合时,我们的个人信息就存入了相应的业务数据库;企业除了自行收集相关业务信息之外,甚至可以从其他公司或机构购买此类信息为自己所用。

  这些来自各种渠道的数据信息被组合,应用超级计算机、并行处理、神经元网络、模型化算法和其他信息处理技术手段进行处理,从中得到商家用于向特定消费群体或个体进行定向营销的决策信息。这种数据信息是如何应用的呢?举一个简单的例子,当银行通过对业务数据进行挖掘后,发现一个银行帐户持有者突然要求申请双人联合帐户时,并且确认该消费者是第一次申请联合帐户,银行会推断该用户可能要结婚了,它就会向该用户定向推销用于购买房屋、支付子女学费等长期投资业务,银行甚至可能将该信息卖给专营婚庆商品和服务的公司。数据挖掘构筑竞争优势。

  在市场经济比较发达的国家和地区,许多公司都开始在原有信息系统的基础上通过数据挖掘对业务信息进行深加工,以构筑自己的竞争优势,扩大自己的营业额。美国运通公司(American Express)有一个用于记录信用卡业务的数据库,数据量达到54亿字符,并仍在随着业务进展不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算(Relation ship Billing)优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大的折扣,这样既可以增加商店的销售量,也可以增加运通卡在该商店的使用率。再如,居住在伦敦的持卡消费者如果最近刚刚乘英国航空公司的航班去过巴黎,那么他可能会得到一个周末前往纽约的机票打折优惠卡。

  基于数据挖掘的营销,常常可以向消费者发出与其以前的消费行为相关的推销材料。卡夫(Kraft)食品公司建立了一个拥有3000万客户资料的数据库,数据库是通过收集对公司发出的优惠券等其他促销手段作出积极反应的客户和销售记录而建立起来的,卡夫公司通过数据挖掘了解特定客户的兴趣和口味,并以此为基础向他们发送特定产品的优惠券,并为他们推荐符合客户口味和健康状况的卡夫产品食谱。美国的读者文摘(Reader’s Digest)出版公司运行着一个积累了40年的业务数据库,其中容纳有遍布全球的一亿多个订户的资料,数据库每天24小时连续运行,保证数据不断得到实时的更新,正是基于对客户资料数据库进行数据挖掘的优势,使读者文摘出版公司能够从通俗杂志扩展到专业杂志、书刊和声像制品的出版和发行业务,极大地扩展了自己的业务。

  基于数据挖掘的营销对我国当前的市场竞争中也很具有启发意义,我们经常可以看到繁华商业街上一些厂商对来往行人不分对象地散发大量商品宣传广告,其结果是不需要的人随手丢弃资料,而需要的人并不一定能够得到。如果搞家电维修服务的公司向在商店中刚刚购买家电的消费者邮寄维修服务广告,卖特效药品的厂商向医院特定门诊就医的病人邮寄广告,肯定会比漫无目的的营销效果要好得多。

Read More

数据挖掘在企业危机管理中的应用

2009-05-20 / 数据分析, 数据报告 / 0 Comments

  危机管理是管理领域新出现的一个热点研究领域,它是以市场竞争中危机的出现为研究起点,分析企业危机产生的原因和过程,研究企业预防危机、应付危机、解决危机的手段和策略,以增强企业的免疫力、应变力和竞争力,使管理者能够及时准确地获取所需要的信息,迅速捕捉到企业可能发生危机的一切可能事件和先兆,进而采取有效的规避措施,在危机发生之前对其进行控制,趋利避害,从而使企业能够适应迅速变化的市场环境,保持长久的竞争优势。但是由于危机产生的原因复杂,种类繁多,许多因素难以量化,而且危机管理中带有大量不确定因素的半结构化问题和非结构化问题,很多因素由于没有历史数据和相应的统计资料,很难进行科学地计算和评估,因此需要应用其它技术和方法来加强企业的危机管理工作。

  随着计算机技术、网络技术、通讯技术、Internet技术的迅速发展和电子商务、办公自动化、管理信息系统、Internet 的普及等,企业业务操作流程日益自动化,企业经营过程中产生了大量的数据,这些数据和由此产生的信息是企业的宝贵财富,它如实地记录着企业经营的本质状况。但是面对如此大量的数据,传统的数据分析方法,如数据检索、统计分析等只能获得数据的表层信息,不能获得其内在的、深层次的信息,管理者面临着数据丰富而知识贫乏的困境。如何从这些数据中挖掘出对企业经营决策有用的知识是非常重要的,数据挖掘便是为适应这种需要应运而生的。

  数据挖掘是一种新的信息处理技术,其主要特点是对企业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助经营决策的关键性数据,它在企业危机管理中得到了比较普遍的应用,具体可以应用到以下几个方面。

   1.利用Web页挖掘搜集外部环境信息

  信息是危机管理的关键因素。在危机管理过程中,可以利用Web 页挖掘技术对企业外部环境信息进行收集、整理和分析,尽可能地收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、消费者等与企业发展有关的信息,集中精力分析处理那些对企业发展有重大或潜在重大影响的外部环境信息,抓住转瞬即逝的市场机遇,获得企业危机的先兆信息,采取有效措施规避危机,促使企业健康、持续地发展。

   2.利用数据挖掘分析企业经营信息

  利用数据挖掘技术、数据仓库技术和联机分析技术,管理者能够充分利用企业数据仓库中的海量数据进行分析,并根据分析结果找出企业经营过程中出现的各种问题和可能引起危机的先兆,如经营不善、观念滞后、产品失败、战略决策失误、财务危机等内部因素引起企业人、财、物、产、供、销的相对和谐平衡体遭到重大破坏,对企业的生存、发展构成严重威胁的信息,及时做出正确的决策,调整经营战略,以适应不断变化的市场需求。

   3.利用数据挖掘识别、分析和预防危机

  危机管理的精髓在于预防。利用数据挖掘技术对企业经营的各方面的风险、威胁和危险进行识别和分析,如产品质量和责任、环境、健康和人身安全、财务、营销、自然灾害、经营欺诈、人员及计算机故障等,对每一种风险进行分类,并决定如何管理各类风险;准确地预测企业所面临的各种风险,并对每一种风险、威胁和危险的大小及发生概率进行评价,建立各类风险管理的优先次序,以有限的资源、时间和资金来管理最严重的一种或某几类风险;制定危机管理的策略和方法,拟定危机应急计划和危机管理队伍,做好危机预防工作。

   4.利用数据挖掘技术改善客户关系管理

  客户满意度历来就是衡量一个企业服务质量好坏的重要尺度,特别是当客户的反馈意见具有广泛效应的时候更是如此。目前很多企业利用营销中心、新闻组、 BBS以及呼叫中心等收集客户的投诉和意见,并对这些投诉和意见进行分析,以发现客户关系管理中存在的问题,如果有足够多的客户都在抱怨同一个问题,管理者就有理由对其展开调查,为企业及时捕捉到发生危机的一切可能事件和先兆,从而挽救客户关系,避免经营危机。

   5.利用数据挖掘进行信用风险分析和欺诈甄别

  客户信用风险分析和欺诈行为预测对企业的财务安全是非常重要的,使用企业信息系统中数据库的数据,利用数据挖掘中的变化和偏差分析技术进行客户信用风险分析和欺诈行为预测,分析这些风险为什么会发生?哪些因素会导致这些风险?这些风险主要来自于何处?如何预测到可能发生的风险?采取何种措施减少风险的发生?通过评价这些风险的严重性、发生的可能性及控制这些风险的成本,汇总对各种风险的评价结果,进而建立一套信用风险管理的战略和监督体系,设计并完善信用风险管理能力,准确、及时地对各种信用风险进行监视、评价、预警和管理,进而采取有效的规避和监督措施,在信用风险发生之前对其进行预警和控制,趋利避害,做好信用风险的防范工作。

  6.利用数据挖掘控制危机

  危机一旦爆发,来势迅猛,损失严重,因此危机发生以后,要采取有力的措施控制危机,管理者可以利用先进的信息技术如基于Web 的挖掘技术、各种搜索引擎工具、E-mail自动处理工具、基于人工智能的信息内容的自动分类、聚类以及基于深层次自然语言理解的知识检索、问答式知识检索系统等快速地获取危机管理所需要的各种信息,以便向客户、社区、新闻界发布有关的危机管理信息,并在各种媒体尤其是公司的网站上公布企业的详细风险防御和危机管理计划,使全体员工能够及时获取危机管理信息及危机最新的进展情况。这样企业的高层管理人员、公关人员、危机管理人员和全体员工就能随时有准备地应付任何复杂情况和危急形势的压力,对出现的危机立即做出反应,使危机的损失降到最低。

  危机就是危险和机遇,企业的每一次危机既包含了导致失败的根源,又蕴藏着成功的种子,发现、培育,进而收获潜在的成功机会,就是危机管理的精髓;而错误地估计形势,并令事态进一步恶化,则是不良危机管理的典型特征。企业应加强危机管理工作,利用先进的数据挖掘技术加强企业的危机管理工作,以便准确及时地获取所需要的危机信息,迅速捕捉到企业可能发生危机的一切事件和征兆,进而采取有效的规避措施,在危机发生之前对其进行控制,趋利避害,从而使企业能够适应迅速变化的市场环境,保持长久的竞争优势,实现可持续发展战略。

Read More

数据挖掘的功能

2009-05-20 / 数据分析, 数据报告 / 0 Comments

  数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。

  1、自动预测趋势和行为

  数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。

  2、关联分析

  数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

  3、聚类

  数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。

  4、概念描述

  概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

  5、偏差检测

  数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。

Read More