吕本富:大数据及大数据分析
2017-05-11 16:51:40
  • 0
  • 1
  • 3
如果说互联网是一座宝藏,那么大数据就是打开这座宝藏的钥匙。新事物出现所带来的实现更美好事物的可能性,不仅需要我们的欢呼,更需要我们细致的思考,还有超乎想象力地运用。

❂ 建模三个层面

建模成了一个体系的过程,包括以下三个层面:

需求层:机构的业务分析;

数据管理层:细分成计算层、数据文件系统层以及操作系统层;

模型层:模型和可视化、分析工具以及接口层。

❂ 大数据和小数据时代建模的变化

模型的“大小”演变

小数据时代:需要考虑的往往只有需求和模型设计本身。

大数据时代:要从所有的业务接触点上采集消费者的数据。

小数据时代:用SPSS建模,分析系数的显著性,得出分析的结果。

大数据时代,建模变成了一个体系的问题。

需求层面变化不大

需求层在大数据和小数据的时代,变化不太大,都是不同业务部门的需求。

但在大数据时代,能够进行分析的数据更广泛,变成了多源异构的数据。

模型层和数据层变化

在大数据的时代,建模演化成一个要结合模型层和数据层去考虑的整体问题。

例如,在模型层,结合运筹学和优化的模型去对这个问题进行分析。在分析工具上面,可能会用Python去进行数据的清洗,可能会选用R进行数据的建模,会考虑这个模型的实时性会有多高。

❂ 数据管理层分析

操作系统层:包括Linux、Unix、Windows等系统;

数据文件系统层:有HDFS分布式文件系统,有消息队列,有磁盘文件系统等;

计算层:供数据的处理、计算的框架和方式,包括一些Hadoop、Spark、Storm这些计算框架等。

❂ 模型层分析

模型和可视化层:解决不同的业务应用场景的问题,有各种统计模型、机器学习的模型,运筹学、优化学的模型、经济学的模型等等;

分析工具层:例如在客户运营领域里面的RFM模型,可以是用R语言实现,也可以用Python、Java、C++等工具实现;

数据接口层:通过分析工具,利用数据管理层提供的API进行模型实现。

❂ 大数据建模九步流程

业务问题定义

数据的提取和理解

数据预处理

模型算法选型

分析工具选型

建模挖掘

模型评估

结果可视化和模型的部署

❂ 大数据的局限

大数据的发展存在一个节点,及互联网同步现实世界信息的占比,是否达到较为全面反映现实世界的运行规律。

越过这个比率,研究大数据就会有价值,反之,研究大数据只会得到失真的结论。所以大数据存在虚拟化的最小值。

信号噪声增大

当审视数据当中的某个表象的时候,常常需要考虑这种表象是否是偶然产生的。如果这种表象看起来不太可能是随机产生的时候,就称“统计上显著的”。

如果做足够多不同的相关性测试,偶然产生的结果就会淹没真实的发现。有很多办法可以解决上述的问题,然而在大数据中这种问题会更加严重。

和一个小规模的数据集合相比,大数据的情况下有太多可以用作比较的标准。如果不做仔细的分析,那么真实的表象与虚假表象之比——相当于信号噪声比——很快就会趋近于0。

数据型“干草垛”

纳西姆.塔勒布(Nassim Taleb,著名商业思想家,著有《黑天鹅:如何应对不可知的未来》等书作)提出:随着我们掌握的数据越来越多,可以发现的统计上显著的相关关系也就越来越多。

在这个庞大的“干草垛”里,我们要找的那根针被越埋越深。大数据时代的特征之一就是,“重大”发现的数量被数据扩张带来的噪音所淹没。

直觉的价值

如果每个人都求助于数据,都利用大数据工具的话,那么不可预测性——例如人类的本能、冒险、意外甚至失误——也许将会成为差异的关键。

如果真是这样的话,那么需要专门为人为因素辟出一席之地——即为直觉、常识、运气留出空间,以确保它们不会被数据和机器生成的答案挤走。

数据不懂社交

大脑在数学方面很差劲(请迅速心算一下437的平方根是多少),但是大脑懂得社会认知。人们擅长反射彼此的情绪状态,擅长侦测出不合作的行为,擅长用情绪为事物赋予价值。

在社交关系的决策中,情感大于数据。

数据不懂背景

人们擅长讲述交织了多重原因和多重背景的故事。数据分析则不懂得如何叙事,也不懂得思维的浮现过程。即便是一部普通通的小说,数据分析也无法解释其中的思路。

数据偏爱潮流

当大量个体对某种流行产品迅速产生兴趣时,数据分析可以敏锐地侦测到这种趋势。

一些重要的(也是有收益的)产品在一开始就被数据摈弃了,仅仅因为它们的特异之处不为人所熟知。

褒贬分析的局限

褒贬分析只提供舆情的一个概览,它本身并不是 actionable insights。褒贬舆情太过抽象,不能提供有价值的情报。

理解为主,解释为辅

大数据是一种资源和一种工具。它的目的是告知,而不是解释。

意在促进理解,但仍然会导致误解——关键在于人们对它的掌握程度。

人们必须以一种不仅欣赏其力量,而且承认其局限的态度来接纳这种技术。

宜预测,不宜总结

大数据分析不宜做回顾,更适合做预测。

大数据不是决策的唯一依据,只是依据之一。正确的决策必须综合各种信息来源。

小决策和大决策

对于大批量的小决策,相关性是有用的,如亚马逊的个性化推荐。

而对于小批量的大决策,因果性依然重要。

“用”和“养”

由用数据向养数据转变(即从数据化运营转变为运营数据)。

用数据意指从已经获得的数据从提取出有用的数据,养数据则不同,它是指从已经提取的数据中,要看出数据的相关性,对没有获得的数据要继续获取,从而更能够指导企业的决策。

❂ 告别因果?

肯尼思·库克耶和维克托·迈尔—舍恩伯格:人们看待数据的方式的

两个变化——从局部变为全部;及从纯净变为凌乱——催生了第三个变化:从因果关系到相关性。

这代表着告别总是试图了解世界运转方式背后深层原因的态度;走向仅仅需要弄清现象之间的联系以及利用这些信息来解决问题。

大数据寻找六种“道”

“形而上者谓之道”,思想的觉悟是为明道,也谓之“视野”。

无法回避“形而下”的“器”或“术”也谓之“素养和技术”。

数据应用也分为“道”和“术”。

Variety的空间维度:“辨讹”与“晓意”

“辨讹”: 基于大体量、多源异质的数据,辨讹过滤噪声、查漏补缺、去伪存真,就是“辨讹” 。

“晓意”:晓意达到更高境界,从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。

Velocity的时间维度:“当下”与“皆明”

“当下”:当下在时间原点,是闪念之间的实时智慧,结合过往(负轴)、预测未来(正轴),可以皆明,即获得perpetual智慧。

“皆明”:为达到皆明,需要全量分析、预测分析和处方式分析(prescriptive analytics,为让设定的未来发生,需要采取什么样的行动)。

Volume的时空维度:“见微”与“知著”

大数据见微,作个人刻画;大数据也可知著,反映自然和群体的特征和趋势。

“著”推动“微”(如把人群细分为buckets),又拉动“微”(推荐相似人群的偏好给个人)。

“微”与“著”又反映了时间维度,数据刚产生时个人价值最大,随着时间decay最后退化为以集合价值为主。

通过大数据获得:对因果关系的理解,对未来的推演,以及如何对一个系统进行干预和优化。

❂ 相关的局限性

利用大数据,基于一定算法和模型对变量元素进行相关性分析,在要素构成简单的情景中可以,在复杂系统中,仅有相关性解释还不够,易走偏。

科学界认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。有了数据,机器可以发现当前知识疆域里面隐藏的未知部分。

而没有模型,知识疆域的上限就是机器线性增长的计算力,它不能扩展到新的空间。在人类历史上,每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。什么是数据?

❂ 相关性辨析

多维多向数据的有机融合,就能够把个人完整地描述出来,从而实现精准医疗的;

交叉验证:大数据的特征之一是多样性,不同来源、不同维度的数据之间存在一定的关联度,可以交叉验证;

大数据下的科研范式:

数据密集型科学,再现真实的历史场景。

❂ 大数据催生新经济

相关性不等于因果关系

任何两个变量都可以用统计学的方法计算相关系数,而且数据量越大,方差越小,数据之间相关性的确定性越大。

但不是任何两个变量都可以建立因果关系的,因果关系需要严格的分析和推理。统计学的方法是用来帮助指导商业决策的一个非常有用的工具,如何正确的使用这个工具还需要具有对商业行为和决策的深入理解。

混杂变量

在吸烟者中,肝硬化的发病率比较高,烟瘾大的人尤其明显。能不能因此说吸烟能导致肝硬化呢?不能。肝硬化更可能是酗酒导致的。由于酗酒的人往往也烟瘾大,于是吸烟就和肝硬化联系在了一起。统计学上把类似酗酒这样的隐藏因素叫做混杂变量。

虚假的独立性数据

“健康工人效应”是一个特别有意思的理论。调查发现,在铀矿工作的工人居然与其它人的寿命一样长(有时甚至更长)。这表明在铀矿工作对身体无害么?当然不是!其实,是因为去铀矿工作的工人都是经过精心挑选的身强体壮的人。这一有趣的细节导致了数据的伪独立性。

数据的描述陷阱

随着数据范围的扩大,有可能原先的数据模型无法描述现在的数据。

❂ Simpson悖论

亦称“中间变量悖论”,包括三种情况:

第三因素:两个现象都是由于第三个因素引起的,所以这两个现象之间并没有因果关系;

方向性问题:两个现象同时发生,它们的相关性也许真的反映了因果关系,但是也许我们会搞错了,因果的方向;

选择性偏差:指特定主体和环境变量之间的关系。

 
最新文章
相关阅读