TT@电商 2011年09月05日 17:14 阅读(14) 评论(4) 分类:research
汤胤 http://tangyin.tel
这是我真正研究的方向。数据挖掘是个科学技术名词,又叫知识发现。但在商业领域,它基本与商业智能概念等同。其实商业智能属于管理学科概念,有更多的管理属性。我国信息化进程已经有年,这当中企业数据积累多了,必然有挖掘新知识的需求。企业往往希望从以往的业务数据中找到一定的规律,用以辅助未来的经营决策,而这当中,传统的统计学方法是不够用的。尽管数据挖掘并非一定使用数学模型,但数据挖掘思想仍然来源于统计学。
典型的数据挖掘有分类、聚类、孤立点分析、关联规则、预测等。
分类很好理解,是按照一定的规则,将元组划分为若干类别;聚类与分类的差异,就是在于并不会先入为主地给出规则,而是按照集合本身的特点来划分为若干类别,正所谓“物以类聚”。
聚类的思想其实非常简单,举一个信用卡的例子。银行为了有针对性地对信用卡用户进行营销,首先要对用户进行市场细分。你当然可以按照一个简单的规则,如“年龄”,“职业”,“职位”,“收入级别”来对用户进行有规则的分类,但这样子太主观了,谁能保证划分出来的几个用户群体的用卡行为就一定是接近的呢?
为了尽量找到用卡行为相似的用户群体,为什么不从历史以来的用户用卡行为中去寻找呢?既然一个用户以前消费行为是这样,可想而知其未来大致也差不离。再辅之以用户基本信息如上述“年龄”,“职业”,“职位”,“收入级别”等,也就更容易做到准确定位用户,从而实现业界常说的“精准营销”。例如,挖掘发现,有一类用户每隔一段时间习惯性地提取少量现金,而用卡消费往往在一些百货公司的奢侈品柜台,那么大致可以圈定这样一个用户群体,给他们寄账单的时候信封里塞上奢侈品广告也就自然而然了,这样是不是不管青红皂白塞些超市折扣券要精准得多呢?举这个例子是因为我的信用卡账单信封里经常有香港旅游和消费的广告,但我的信用卡记录中其实从来没有在香港有过消费,更不会有旅游信息,营销方只是按照我的基本资料,自以为是地认为我这样的一个人很容易在香港产生旅游和购物而已。
还有一些应用在电信行业,例如根据用户的语音通信历史资料,圈定若干用户群,然后有针对性地设计套餐。例如亲情长途电话,就是这个行业一个很贴心的设计。
关联规则。业界有非常出名的“啤酒和尿布”的经典案例,但有更好玩的例子说明问题。坊间流传着无数股市的技术分析“秘笈”,如果我没记错的话,诸如《短线是银》,《三线开花》,《筹码分布》,《K线力学》书籍等等等等,可称为浩如烟海。我看过若干,发现其实这些书籍都属于实战经验的总结,然而人毕竟不是机器,会受到情绪的影响,无法一折不扣地执行策略,而这个正是计算机的强项。同时总结的经验规则到底靠不靠谱呢?还只是偶尔出现的情况?若只是偶然发生的巧合被当作常用的规律,投资者可就赔惨了!对于这些书中普遍缺乏严谨的验证——没有计算机等工具的话,事实上也没法验证——往往只是举个个例来说明问题。
计算机在历史数据中检索,发现市场上出现情况A时,情况B就很可能会出现。形式化表达为规则:A-->B。不过这样还远远不够。要想这样的规则有效,显然得问两个问题:
(1)情况A在整个市场运行中出现了多少次呢?
(2)情况A出现若干次,随后情况B出现了多少次?占多大比例?
对(1)我们要有个支持度指标 support,说明这样的情况是不是经常出现。
对(2)我们也有个置信度指标 confidence,说明A出现后,B出现的可能性有多大。
再具体一点的例子。一般股价跌到一定程度的时候,在底部都会有不少投资者抄底,从而形成类似蝌蚪似的大头小尾的“甲”字形K线图,这里称作“尾针”。“尾针”出现以后,是不是一定上涨呢?或者说上涨的可能性有多大呢?
抛开用无数形容词天花乱坠吹嘘自己的炒股秘籍吧,这时候我们应该回到数据中。例如在中国股市这么多年,有10000次下跌,其中有7000次出现“尾针”,而这7000次“尾针”中,接下来4000次出现了上涨,而3000次下跌。即支持度为7/10,置信度为4/7。那么可以认为,投资者按照这个规则操作的话,有4/7的几率会成功,3/7的几率会失败——上例纯属虚构,切勿模仿喔。要那样简单的话我自己早发财了。。。实际的挖掘会比这个复杂很多。
数据挖掘的应用非常广泛,这里只是举例一二说明问题而已。学术界研究的则越来越复杂和抽象,但诸如分类、聚类、孤立点分析、关联规则、预测这些基本技术已经发展成熟并且进入业界,也有现成的数据挖掘工具,也很容易找到类似的人才。这些对于提升企业业务水平,又重新开了一扇窗口。
企业咨询中几个实用的研究方法 5 数据挖掘
评论
1 views