必贝yo带你了解大数据学习思路和核心技术


 

必贝yo带你了解大数据学习思路和核心技术

大数据技术体系太庞杂了,基础技术覆盖数据采集、数据预处理、分布式存储、NOSQL数据库、多模式计算(批处理、在线处理、实时流处理、内存处理)、多模态计算(图像、文本、视频、音频)、数据仓库、数据挖掘、机器学习、人工智能、深度学习、并行计算、可视化等各种技术范畴和不同的层面。另外大数据应用领域广泛,各领域采用技术的差异性还是比较大的。短时间很难掌握多个领域的大数据理论和技术,建议从应用切入、以点带面,先从一个实际的应用领域需求,搞定一个一个技术点,有一定功底之后,再举一反三横向扩展,这样学习效果就会好很多。大数据技术初探

 

从前几年到现在所谓的大数据时代,移动互联网、物联网、云计算、人工智能、机器人、大数据等前沿信息技术领域,逐个火了一遍,什么是大数据,大数据的技术范畴包括那些,估计很多人都是根据自己所熟悉的领域在盲人摸象。

下文从DT(Data technology,数据技术)技术泛型角度来系统地介绍什么是大数据,包括那些核心技术,各领域之间的关系等等:

首先我们说机器学习,机器学习(machine learning),是计算机科学和统计学的交叉学科,核心目标是通过函数映射、数据训练、最优化求解、模型评估等一系列算法实现,让计算机拥有对数据进行自动分类和预测的功能;机器学习领域包括很多智能处理算法,分类、聚类、回归、相关分析等每类下面都有很多算法进行支撑,如SVM,神经网络,Logistic回归,决策树、EM、HMM、贝叶斯网络、随机森林、LDA等,无论是网络排名的十大算法还是二十大算法,都只能说是冰山一角;总之计算机要智能化,机器学习是核心的核心,深度学习、数据挖掘、商业智能、人工智能,大数据等概念的核心技术就是机器学习,机器学习用于图像处理和识别就是机器视觉,机器学习用于模拟人类语言就是自然语言处理,机器视觉和自然语言处理也是支撑人工智能的核心技术,机器学习用于通用的数据分析就是数据挖掘,数据挖掘也是商业智能的核心技术。

深度学习deep learning),机器学习里面现在比较火的一个子领域,深度学习是已经被研究过几十年的神经网络算法的变种,由于在大数据条件下图像,语音识别等领域的分类和识别上取得了非常好的效果,有望成为人工智能取得突破的核心技术,所以各大研究机构和IT巨头们都投入了大量的人力物力做相关的研究和开发工作。

数据挖掘data mining),是一个很宽泛的概念,类似于采矿,要从大量石头里面挖出很少的宝石,从海量数据里面挖掘有价值有规律的信息同理。数据挖掘核心技术来自于机器学习领域,如深度学习是机器学习一种比较火的算法,当然也可以用于数据挖掘。还有传统的商业智能(BI)领域也包括数据挖掘,OLAP多维数据分析可以做挖掘分析,甚至Excel基本的统计分析也可以做挖掘。关键是你的技术能否真正挖掘出有用的信息,然后这些信息可以提升指导你的决策,如果是那就算入了数据挖掘的门。

必贝yo云数据(www.bbeyo.com),作为国内基于大数据方面的数据积累、数据分析和标签归类人工智能AI技术驱动的大数据交易平台,支持海量数据的分布式采集、计算及处理,从而以机器学习推动数据交易发展,让数据价值最大化。互联网开放数据、企业内部数据接入,清洗、过滤、脱敏处理后再交易,以数据和算法规则等形态沉淀在数据交易平台,满足企业对数据分析、数据运营及精准营销等方面的需求。互联网开放数据、企业内部数据接入,清洗、过滤、脱敏处理后再交易,以数据和算法规则等形态沉垫,实现企业和政府的数字化转型。联系电话:0351-6106588,0351-6106599,公司邮箱[email protected]

公司地址:太原市小店区东中环南段259号亲海国际1幢A座24层2422号,山西奇畅飞科技有限公司

人工智能artifical intelligence),也是一个很大的概念,终极目标是机器智能化拟人化,机器能完成和人一样的工作,人脑仅凭几十瓦的功率,能够处理种种复杂的问题,怎样看都是很神奇的事情。虽然机器的计算能力比人类强很多,但人类的理解能力,感性的推断,记忆和幻想,心理学等方面的功能,机器是难以比肩的,所以机器要拟人化很难单从技术角度把人工智能讲清楚。人工智能与机器学习的关系,两者的相当一部分技术、算法都是重合的,深度学习在计算机视觉和棋牌走步等领域取得了巨大的成功,比如谷歌自动识别一只猫,最近谷歌的AlpaGo还击败了人类顶级的专业围棋手等。但深度学习在现阶段还不能实现类脑计算,最多达到仿生层面,情感,记忆,认知,经验等人类独有能力机器在短期难以达到。

最后我们才说大数据(big data),大数据本质是一种方法论,一句话概括,就是通过分析和挖掘全量海量的非抽样数据进行辅助决策。上述技术原来是在小规模数据上进行计算处理,大数据时代呢,只是数据变大了,核心技术还是离不开机器学习、数据挖掘等,另外还需考虑海量数据的分布式存储管理和机器学习算法并行处理等核心技术。总之大数据这个概念就是个大框,什么都能往里装,大数据源的采集如果用传感器的话离不开物联网、大数据源的采集用智能手机的话离不开移动互联网,大数据海量数据存储要高扩展就离不开云计算,大数据计算分析采用传统的机器学习、数据挖掘技术会比较慢,需要做并行计算和分布式计算扩展,大数据要互动展示离不开可视化,大数据的基础分析要不要跟传统商业智能结合,金融大数据分析、交通大数据分析、医疗大数据分析、电信大数据分析、电商大数据分析、社交大数据分析,文本大数据、图像大数据、视频大数据…诸如此类等等范围太广…,总之大数据这个框太大,其终极目标是利用上述一系列核心技术实现海量数据条件下的人类深度洞察和决策智能化!这不仅是信息技术的终极目标,也是人类社会发展管理智能化的核心技术驱动力。

 

数学知识

数学知识是数据分析师的基础知识。

对于初级数据分析师,了解一些描述统计相关的基础内容,有一定的公式计算能力即可,了解常用统计模型算法则是加分。

对于高级数据分析师,统计模型相关知识是必备能力,线性代数(主要是矩阵计算相关知识)最好也有一定的了解。

而对于数据挖掘工程师,除了统计学以外,各类算法也需要熟练使用,对数学的要求是最高的。