必贝yo告诉你对数据分析的新认识


 必贝yo告诉你对数据分析的新认识

在传统科学中,数据分析主要以数学和统计学为直接理论工具。但是,云计算等计算模式的出现及大数据时代的到来,提升了我们对数据的获取、存储、计算与管理能力,进而对统计学理论与方法产生了深远影响。大数据带给我们 4 个颠覆性的观念转变。

不是随机样本,而是全体数据#

在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。

以前我们通常把随机采样看成是理所应当的限制,但是真正的大数据时代是指不用随机分析法这样的捷径,而采用对所有数据进行分析的方法,通过观察所有数据,来寻找异常值进行分析。

例如,信用卡诈骗是通过异常情况来识别的,只有掌握了所有数据才能做到这一点。在这种情况下,异常值是最有用的信息,可以把它与正常交易情况作对比从而发现问题。

不是纯净性,而是混杂性#

数据量的大幅增加会造成一些错误的数据混进数据集。但是,正因为我们掌握了几乎所有的数据,所以我们不再担心某个数据点对整套分析的不利影响。

我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。这就是由“小数据”到“大数据”的改变。

不是精确性,而是趋势#

研究数据如此之多,以至于我们不再热衷于追求精确度。之前需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录,但随着规模的扩大,对精确度的痴迷将减弱。

拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力。

例如,微信朋友圈中朋友发动态的时间,在一小时以内的会显示多少分钟之前,在一小时以外的就只显示几小时前;微信公众号中显示的阅读量,超过十万以后显示的就是 100000+,而不是具体数据,因为超过十万的阅读量已经让我们觉得这篇文章很优秀了,没必要精确。

不是因果关系,而是相关关系#

在数据科学中,广泛应用“基于数据”的思维模式,重视对“相关性”的分析,而不是等到发现“真正的因果关系”之后才解决问题。

在大数据时代,人们开始重视相关分析,而不仅仅是因果分析。我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系。相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会告诉我们某件事情已经发生了。

在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己发声。知道是什么就够了,没必要知道为什么。例如,知道用户对什么感兴趣即可,没必要去研究用户为什么感兴趣。

相关关系的核心是量化两个数据值之间的数据关系。相关关系强是指当一个数据值增加时,其他数据值很有可能也会随之增加。相关关系是通过识别关联物来帮助我们分析某一现象的,而不是揭示其内部的运作。

通过找到一个现象良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。例如,如果川和万经常一起发生,我们只需要注意方是否发生,就可以预测力是否也发生了。

对计算智能的新认识:从复杂算法到简单算法#

“只要拥有足够多的数据,我们可以变得更聪明”是大数据时代的一个新认识。因此,在大数据时代,原本复杂的“智能问题”变成简单的“数据问题”。

只要对大数据进行简单查询就可以达到“基于复杂算法的智能计算的效果”。为此,很多学者曾讨论过一个重要话题——“大数据时代需要的是更多的数据还是更好的模型?”

机器翻译是传统自然语言技术领域的难点,虽曾提出过很多种算法,但应用效果并不理想。IBM 有能力将《人民日报》历年的文本输入电脑,试图破译中文的语言结构。

例如,实现中文的语音输入或者中英互译,这项技术在 20 世纪 90 年代就取得突破,但进展缓慢,在应用中还是有很多问题。近年来,Google 翻译等工具改变了“实现策略”,不再依靠复杂算法进行翻译,而是通过对他们之前收集的跨语言语料库进行简单查询的方式,提升了机器翻译的效果和效率。

他们并不教给电脑所有的语言规则,而是让电脑自己去发现这些规则。电脑通过分析经过人工翻译的数以千万计的文件来发现其中的规则。这些翻译结果源自图书、各种机构(如联合国)及世界各地的网站。

他们的电脑会扫描这些语篇,从中寻找在统计学上非常重要的模式,即翻译结果和原文之间并非偶然产生的模式。一旦电脑找到了这些模式,今后它就能使用这些模式来翻译其他类似的语篇。

通过数十亿次重复使用,就会得出数十亿种模式及一个异常聪明的电脑程序。但是对于某些语言来说,他们能够使用到的已翻译完成的语篇非常少,因此 Google 的软件所探测到的模式就相对很少。这就是为什么 Google 的翻译质量会因语言对的不同而不同。

通过不断向电脑提供新的翻译语篇,Google 就能让电脑更加聪明,翻译结果更加准确。

必贝yo云数据(www.bbeyo.com),作为国内基于大数据方面的数据积累、数据分析和标签归类人工智能AI技术驱动的大数据交易平台,支持海量数据的分布式采集、计算及处理,从而以机器学习推动数据交易发展,让数据价值最大化。互联网开放数据、企业内部数据接入,清洗、过滤、脱敏处理后再交易,以数据和算法规则等形态沉淀在数据交易平台,满足企业对数据分析、数据运营及精准营销等方面的需求。互联网开放数据、企业内部数据接入,清洗、过滤、脱敏处理后再交易,以数据和算法规则等形态沉垫,实现企业和政府的数字化转型。联系电话:0351-6106588,0351-6106599,公司邮箱[email protected]

公司地址:太原市小店区东中环南段259号亲海国际1幢A座24层2422号,山西奇畅飞科技有限公司

对管理目标的新认识:从业务数据化到数据业务化#

在传统数据管理中,企业更加关注的是业务的数据化问题,即如何将业务活动以数据方式记录下来,以便进行业务审计、分析与挖掘。

在大数据时代,企业需要重视一个新的课题——数据业务化,即如何“基于数据”动态地定义、优化和重组业务及其流程,进而提升业务的敏捷性,降低风险和成本。业务数据化是前提,而数据业务化是目标。

电商的经营模式与实体店最本质的区别是,电商每卖出一件产品,都会留存一条详尽的数据记录。也正是因为可以用数字化的形式保留每一笔销售的明细,电商可以清楚地掌握每一件商品到底卖给了谁。

此外,依托互联网这个平台,电商还可以记录每一个消费者的鼠标单击记录、网上搜索记录。所有这些记录形成了一个关于消费者行为的实时数据闭环,通过这个闭环中源源不断产生的新鲜数据,电商可以更好地洞察消费者,更及时地预测其需求的变化,经营者和消费者之间因此产生了很强的黏性。

线下实体商店很难做到这一点,他们可能只知道一个省、一个市或者一个地区卖了多少商品,但是,他们很难了解到所生产、经营的每一件商品究竟卖到了哪一个具体的地方、哪一个具体的人,这个人还买了其他什么东西、查看了哪些商品、可能会喜欢什么样的商品。

也就是说,线下实体店即使收集了一些数据,但其数据的粒度、宽度、广度和深度都非常有限。由于缺乏足够的数据,实体店对自己的经营行为,对消费者的洞察力,以及和消费者之间的黏性都十分有限。

就此而言,一家电商和一家线下实体店最本质的区别就是是否保存了足够的数据。其实,这正是互联网化的核心和本质,即“数据化”。这并不是一个简单的数据化,而是所有业务的过程都要数据化,即把所有的业务过程记录下来,形成一个数据的闭环,这个闭环的实时性和效率是关键的指标。这个思想就是一切业务都要数据化。

在大数据时代,企业不仅仅是把业务数据化,更重要的是把数据业务化,也就是把数据作为直接生产力,将数据价值直接通过前台产品作用于消费者。

数据可以反映用户过去的行为轨迹,也可以预测用户将来的行为倾向。比较好理解的一个实例就是关联推荐,当用户买了一个商品之后,可以给用户推荐一个最有可能再买的商品。个性化是数据作为直接生产力的一个具体体现。

随着数据分析工具与数据挖掘渠道的日益丰富与多样化,数据存量越来越大,数据对企业也越来越重要。数据业务化能够给企业带来的业务价值主要包括以下几点:提高生产过程的资源利用率,降低生产成本;根据商业分析提高商业智能的准确率,降低传统“凭感觉”做决策的业务风险;动态价格优化利润和增长;获取优质客户。

目前,越来越多的企业级用户已经考虑从批量分析向近实时分析发展,从而提高 IT 创造价值的能力。同时,数据分析在快速从商业智能向用户智能发展。数据业务化可以让数据给企业创造额外收益和价值。

对决策方式的新认识:从目标驱动型到数据驱动型#

传统科学思维中,决策制定往往是“目标”或“模型”驱动的,也就是根据目标(或模型)进行决策。然而,大数据时代出现了另一种思维模式,即数据驱动型决策,数据成为决策制定的主要“触发条件”和“重要依据”。

小数据时代,企业讨论什么事情该做不该做,许多时候是凭感觉来决策的,流程如图所示,由两个环节组成:一个是拍脑袋,另一个是研发功能。

 

基本上就是产品经理通过一些调研,想了一个功能,做了设计。下一步就是把这个功能研发出来,然后看一下效果如何,再做下一步。

整个过程都是凭一些感觉来决策。这种方式总是会出现问题,很容易走一些弯路,很有可能做出错误的决定。

数据驱动型决策加入了数据分析环节,如图所示。

 

基本流程就是企业有一些点子,通过点子去研发这些功能,之后要进行数据收集,然后进行数据分析。基于数据分析得到一些结论,然后基于这些结论,再去进行下一步的研发。整个过程就形成了一个循环。在这种决策流程中,人为的因素影响越来越少,而主要是用一种科学的方法来进行产品的迭代。

例如,一个产品的界面到底是绿色背景好还是蓝色背景好,从设计的层面考虑,两者是都有可能的。那么就可以做一下 A/B 测试。

可以让 50% 的人显示绿色背景,50% 的人显示蓝色背景,然后看用户点击量。哪个点击比较多,就选择哪个。这就是数据驱动,这样就转变成不是凭感觉,而是通过数据去决策。

相比于基于本能、假设或认知偏见而做出的决策,基于证据的决策更可靠。通过数据驱动的方法,企业能够判断趋势,从而展开有效行动,帮助自己发现问题,推动创新或解决方案的出现。