TT@电商 2011年07月31日 10:14
汤胤 http://tangyin.tel
(2)回归分析
最近研究金融时间序列的数据挖掘,与金融工程十分接近,发现90%以上金融工程的论文使用的都是回归方法,不能不说其广泛性。回归分析也是个很吓人的词,但其原理同样很简单。
假设有一家连锁店专门供应某种快餐,快餐店的老板随机选了8家店为样本,收集了它们每天用餐的价格和平均用餐人数如下:
每天 用餐人数价格
1 100 15
2 9018
3 8519
4 110 14
5 120 13
6 9019
7 105 16
8 100 14
问题来了:用餐人数是不是受价格影响呢?(这个说法其实是不准确的,回归并没有办法判断因果关系),如果我们把两列作为x,y变量在Excel里打散点图,可以发现,大致呈一条直线的形状,这就有理由让我们相信两个变量之间(或说价格与用餐人数之间)是存在一定关系的,称为“相关”。
那么如何找到这条直线呢?计算有点复杂,但思想却非常简单:假设一条有直线y=a+bx,使得众(x,y)点到这条直线的“距离的平方和”加起来最小,这样一条由a,b决定的直线不就是我们想要的么?计算a,b,高数中有介绍最小二乘法。我只介绍思想,若把头埋进具体计算那就偏离本文主旨了。
回归分析的缺点在于得事先确定数学模型,包括自变量个数和次幂等等,在碰上一些非线性的场合并不适用。举个特别的例子好了,上图中y随着x的增大而围绕一条直线呈螺旋式下降,此时若对(x,y)点集做回归,根据最小二乘法的原理,得到的一样也有可能是同一条直线,这样玩笑可就开大了。所以回归一般要求先进行人工的观察,再来确定模型。想知道拟合得好不好,需要检查拟合优度R^2,还有F统计量和t统计量等指标。切不可得到一条直线就完事。
ps: 上面这些手段,Excel都能做到,所以Excel玩得熟练就能找到一个好工作。不过在正规研究的圈子里,Excel得出的结果是不受承认的,这与其内部的若干bug有关。若稍微具备一点计算机水平,可以用用R语言这类软件,与Excel比起来那是杀猪刀和铅笔刀的区别,“工欲善其事必先利其器”啊。至于SAS,SPSS。。。已经落后咯。
2 系统动力学仿真
企业咨询中几个实用的研究方法1.2 回归分析
评论
1 views