⼤数据异化及算法王道


  在数据风起云涌若⼲年后,在⼤数据喧嚣若干年后,当智能社会的廓影现身于东⽅晨景时,⼀切都会回归常识与基础逻辑数据从服务⼈类管理活动,到⼲预并损害⼈类⽣活状态,产⽣了异化。未来只有建⽴在算法基础上的数据运⽤才是可持续的。

  1

  大数据是数据的外延

  现在和未来的唯⼀样本是过去。所有的过去都在数据中。

  数据与⼤数据是不同的概念,但却是同⼀事物的不同状态的描述。

  数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是⽤于表示客观事物的未经加⼯的原始素材。数据表示的是过去,但数据中包含了⼤量的信息,通过技术分析,数据所表达的是未来。所以数据是⼈类⽣活与社会管理活动中最基本的依据。事实上,数据伴随了⼈类⽂明的全部过程,⼈们对于数据的知识及实际运⽤能⼒也越来越强⼤,并使⼈类受益良多。

  但是所谓⼤数据概念的出现使事情变得复杂起来。

  ⼤数据(big data)是指⽆法在⼀定时间范围内⽤常规软件⼯具进⾏捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现⼒和流程优化能力的海量、⾼增⻓率和多样化的信息资产。通俗地说,也就是同时产⽣的海量数据在技术促进下得到实时运⽤,就构成了⼤数据。

  技术进步、尤其是互联⽹和各种新的算法模型使得数据获得了即时采集、即时分析的信息结果。⽽即时⾤集的数据不再是⼈类的⼯作过程,也包括了⼈类的⽣活过程。不仅包括了⼈类⼯作的标的,也包括了⼈类⾃⼰,这使得问题复杂起来。但⼤数据的本质仍然是数据,是新的技术环境下的数据。

  2

  数据公司商业模式根源

  在数据观念下,我们将以往的数据进⾏有⽬的结构化统计,尽量延⻓数据的⻓度、宽度,充⾜性和真实性,通过分析,发现规律,总结逻辑,借⽤算法,建⽴模型,弄淸从前,预判未来。正视不确定性现实,解决信息不对称问题,推动社会发展。需要明确的是,数据的基本属性是公开、透明、共享,所以数据的商业价值有限,社会价值⽆限,基于数据的各种算法和逻辑才是数据商业产品的核⼼竞争力。

  ⼤数据观念下,传统数据、社交数据、传感器数据都可以通过互联⽹⾤集到。那么这些碎⽚化的⾮结构性数据价值如何挖掘出来呢?

  ⾸先,结构化的统计数据不构成⼤数据特征。而传感器数据更多地用于特定领域的智能识别系统运用,虽然也是新技术带来的新数据源,但其商品化运用受到⼀定限制,⽽互联⽹上获得的社交和⾏为数据由于其海量、实时,得到⼴泛的应用。当我们谈论⼤数据时,更多意义上是指这类狭义上的社交、⾏为数据和某些社会服务层⾯的数据,如医院的诊治、⽤药纪录、银⾏的客户交易纪录、商场的客户交易纪录等等。所谓精准营销,就是通过搜集某⼈的相关数据进⾏个性化商品信息推送、药物推荐等,也有数据公司提供各种个⼈的⾏为数据供⾦融机构进⾏⻛险分析。

  ⼤数据运⽤的收益主要是通过掌握信息的时间差、地区差,利⽤特定的数据来源形成或制造信息不对称,占据⼀定的交易优势⽽获得较⾼收益。

  数据公司通过⽹络可以在被⾤集⼈不知情的情况下采集到社会成员的身份、身体、特貌、⾏为、家庭及相关的⼀切信息,通过算法把相关信息联接起来,⽣成针对具体⼈的营销、个性化推送、趋势判断、资产追踪等等。对于掌握了某些场景下解决某类问题的算法的数据公司⽽⾔,⼤数据带来了商机。⼀⽅⾯像头条新闻的个性推送,虽然包含简易算法,让我们觉得服务的⽔平更贴近每个⼈;另⼀⽅⾯也因此⽽⽑⻣悚然,因为这样的推送实际上已经忽略了我们⾃⼰的意愿和权利,肆意地侵蚀到个⼈隐私权和独立权益,随意进⼊了附属于个⼈的⽣存空间。当你刚订完机票,就有⼿机短信推荐接站订⻋,这让你⼼⾥恼⽕。但的确对有需求的客户来说很是⽅便,⽽私⼈空间则渐被侵⼊。这种所谓⼤数据运⽤的危害性可能会动摇社会基础秩序。

  当前条件下,数据产权制度未形成,个⼈数据权利更没有观念,⼀些公司把数据洗去个⼈标识便成为通⽤数据,每个⼈⼀般都不会在海量数据中主张单⼀的权利。⽽国家统计部⻔⽬前也⽆⼒把实时数据纳⼊公共统计范围,向社会提供数据公共服务,这就形成了⼀段较⻓时期的混沌状态,数据公司通过低成本的数据来源获得超额收益,得以⽣存发展。

  可⻅,⼤数据之所以蓬勃发展,其经济依据是数据⾏业的额外收益,这些额外收益主要来⾃于侵犯社会成员的数据权益,使数据公司通过互联⽹低成本获得这些数据,然后通过技术和算法优势形成数据服务产品,获得不错的盈利。可以说,数据公司⼏乎⽆偿地获得了数据资源,并把它们转化成商品。但算法却是需要真正资本投⼊才能获得的产品。所以随着数据的⼤量公共分享,将失去其资源价值,只有那些投⼊设备和智⼒掌握了⼤量社会⽣活情景下解决问题的逻辑和算法的数据公司才真正具有竞争⼒。那些仅仅靠查询和数据供应⽽⽣存的公司是⽆法持续的。

  传感器数据也存在同样的问题。传感器的设置和⼴泛分布以及分辨技术虽然需要⼤量的投资,但是⽬前⼀些影像数据分析公司和智能公司的数据来源⼤都从公共传感⽹络或者企业的传感系统所收集,客观上占⽤了公共资源。⽽这些影像资料的使⽤则更容易直接侵害别个⼈稳私领域。比较典型的是私⾃通过酒店或公寓的视频纪录探查个⼈⾏踪或进⾏所谓市场分析。

  3

  大数据异化

  就像⼯业⾰命造成的异化⼀样,⼤数据也造成了数据的异化。

  数据从服务⼈类管理活动,到⼲预并损害⼈类⽣活状态,产⽣了异化。

  那么这⼀切是怎么发⽣的呢?

  ⼤数据的实时性制造了市场先机,销售业⼀哄⽽上,因为有利可图,传统的规则被悄然融化,但新的规则有待时⽇。

  互联⽹提供了数据的多样性,对客户的个性化需求定位带来了可能,⽽这正是传统销售业的短板。但新的以⼤数据为基础的营销越来越⼲扰到⼈们的正常⽣活⽅式。

  传统数据分析运⽤需要专业背景,很难⼴泛推⼴,⽽所谓⼤数据只是数据的低端运⽤,⻔槛低,成本低。⼤数据简单运⽤社交⾏为数据由于缺乏逻辑背景,常常并不准确。例如收集⼩企业或个⼈⽀付能⼒的数据⽤于⻛险评估,⽽许多情况下暂时性的周期性的季节性的现⾦流萎缩都是企业经营和个⼈⽣活中的正常现象,依此评估⻛险是不准确的。

  法律约束不明朗造成滥⽤。⽴法与司法制度的完善需要⼀个信息收集、反馈、设计、测试、⼴泛应⽤的时间周期,这个周期成为数据滥⽤牟取暴利的窗⼝期。⼀旦国内采⽤了类似欧盟《通⽤数据保护条例》(GDPR,2016年4⽉通过法案,2018年5⽉25⽇正式⽣效)这样的数据保护,⼤数据的⽆序状态将会结束,今后⼏年内,依靠滥⽤数据获利的公司⽆疑会被淘汰。

  当数据的运⽤能带来超额收益时,必然导致滥⽤,从⽽导致数据运⽤所提供的信息服务产⽣的收益归于⼀部分⼈,⽽⼤多数⼈因此⽽受损。本来服务于⼈类的数据开启了⼲扰⼈类⽣活秩序的模式,⼤数据进⼊数据⽂明的负⾯清单。

  ⾄此⼤数据终于⾛到了数据的反⾯,成为数据的异化现象。⼯业⾰命异化对⼯⼈造成的流⽔线压⼒随着技术的升级和⾃动化以及⼈⽂环境的改善⽽逐渐缓和。但⼤数据时代对⼈居环境和⼼理以及权益的威胁更甚于⼯业⾰命异化。⾯对这把粗糙的⼤锁,理性和规则的复兴才是唯⼀的钥匙。

  4

  数据为王到算法为王

  可以预⻅,当数据的公共资源性质逐渐形成,某些数据的稀有性减退,其价值也会递减。

  廉价的公共化数据,使得数据稀有性稀释,价值逐渐式微,⽽作为实现数据价值桥梁的算法却逐渐进化升级,智⼒投⼊越⼤,准⼊⻔槛越⾼,价值凝聚越多。所以算法的市场价值会逐步提升。

  算法即逻辑。⼀套算法是理论归纳与实务判断和智能操作技术的综合产物。⼀类事物,最优算法理论上是唯⼀的,所以算法可以说是有限资源。算法是指解题⽅案的准确⽽完整的逻辑与技术描述,算法代表着⽤系统的⽅法描述解决问题的策略机制和数学模型。也就是说,如果⼀个算法有缺陷,或不适合于某个问题,执⾏这个算法将⽆法解决这个问题。不同的算法可能⽤不同的时间、空间或效率来完成同样的任务。⼀个算法的优劣可以⽤空间复杂度与时间复杂度来衡量。在数学模型上表现为多种变量之间复杂逻辑关系的处理。

  由于我们⽣活在有限的时间和空间⾥,因此所有⼈都会⾯临⼀系列需要选择的特定问题,诸如⼀年内哪些事必须做、哪些事可以放弃。⼈们为了买房,到处去看房,尽管你事先制定了标准,但还是要跑很多楼盘,什么时候可以下⼿或者继续选择?

  事实上平衡观念是解决问题的关键,那么这个平衡点在哪⾥?专家计算的结果是37%。看完这个⽐例的房⼦以后就可以下⼿了,再多看意义不⼤。这个37%就是某种算法的产物。

  算法基于专业逻辑和数学模型。未来只有建⽴在算法基础上的数据运⽤才是可持续的。⽽算法是所有⾏业智能化的技术与逻辑基础。算法不是源于数据,⽽是源于数学,源于基础教育,源于专业训练,源于⻓期积累。相信浮躁的⼤数据⾏业⾃身很难具有这样的原创能⼒。智能化需要数学家。可以预⻅,⼤数据的烟花将随⻛飘散,算法为王的时代即将来临。