大数据和统计规律
喻建国
在科学研究上现在正在大量运用统计规律,也就是对大量偶然事件整体起作用的规律,从而揭示这些事物整体的本质。客观世界的现象极其繁多,现象的总和是一个天文数字,它是由单个现象叠加起来的。每一个现象的延绵和发展含有必然性和偶然性,而单个客体的必然性是通过偶然性表现出来的,这种客体在一定条件下必然发生或必然不发生而言,是确定性的现象。更多现象的单个客体的运动和状态是偶然的,而在大量重复中则表现出必然性,就这种客体在一定条件下可能发生或可能不发生而言,是非确定性的现象。随机事件是在总体上相同的条件下以一定频率出现的非确定性现象。统计规律是随机事件的整体性规律,它不是单个随机事件特点的简单叠加,而是事件系统所具有的必然性。
有一件事情生动地反映了统计规律在现代金融中的作用:社交媒体监测平台DataSift监测了Facebook(脸谱) IPO当天Twitter上的情感倾向与Facebook股价波动的关联。在Facebook开盘前Twitter上的情感逐渐转向负面,25分钟之后Facebook的股价便开始下跌。而当Twitter上的情感转向正面时,Facebook股价在8分钟之后也开始了回弹。最终当股市接近收盘、Twitter上的情感转向负面时,10分钟后Facebook的股价又开始下跌。最终的结论是:Twitter上每一次情感倾向的转向都会影响Facebook股价的波动。
就个体而言,我们接触的世界仅仅是若干个单一现象的延绵和发展,要从中找出某一类现象在一定条件下可能发生或可能不发生是非常困难的。但是我们现在又处于大数据时代,我们可以通过大数据找出某一类现象在各种不同条件下的延绵和发展,从中找出在某一条件下它以一定频率出现的某种延绵和发展的频率,获得它的统计规律。
由此,如果我们对科学感兴趣,如果我们对生活感兴趣,我们就应该学会寻找大数据中自己感兴趣的数据的本领。有眼光的电脑软件开发商们,这里也为你们展开了制作大有开发前途的软件市场。你们可以根据社会上各种不同人群的需要制作他们感兴趣数据的搜索软件,让他们在其中找到感兴趣内容的许多规律。
我非常急切地想获得这样的软件:某一人类的心理作为在1至n的条件下可以分别产生的社会效应。如:个体向别人微微一笑,在1至n的条件下可以分别产生的社会效应;个体向人骂一句脏话,在1至n的条件下可以分别产生的社会效应;个体勤奋读书到某一等级,在1至n的条件下可以分别产生的社会效应;个体努力工作到某一程度,在1至n的条件下可以分别产生的社会效应;个体进行某一项体育锻炼项目达到某一程度,在1至n的条件下可以分别产生的身体健康效应;个体进行某一项技能培训达到某一程度,在1至n的条件下可以分别产生的能力效应;……
我将借助这一软件,找到许多人们获得成功的方法。