终于晓得大数据要先学什么

当前，经济下行导致中小企业经营成本不断增加吗，产品销售价格因结构原因和市场原因相对走低，企业利润空间被进一步压缩，许多中小企业陷入经营困境，导致企业经营风险加大、连锁性风险陡增、潜在信用风险上升、企业主的道德风险聚升。以下是小编为你整理的大数据要先学什么

一些重点领域的银行等金融机构信贷风险进入了一个暴露期，一些地区的金融机构已经出现不良贷款回升苗头，不良贷款高危行业中，钢铁与建材等行业信用风险快速上升。

制造业领域新增的不良资产已占到整体不良资产的七成以上，与此同时经济下行也使得个人信贷中的逾期率陡增，不良贷款率上升，如何防控信贷风险，已成为商业银行等金融机构扼待解决的课题。

大数据要先学什么

风控行业发展趋势：随着近年来国内大数据互联网金融的蓬勃发展, 顶尖的数据机构开始从事各种信用维度的数据收集、分类、查询服务, 这为在线征信与量化风险提供了技术、数据基础。多维度数据分析、数学建模、机器学习算法、云计算。

技术特点：物理学的布朗运动理论：分子运动无规则性、永不停歇性、温度越性。市场是随机波动的，随机波动是市场最根本的特性。变量过去的历史和变量从过去到现在的演变方式则与未来的预测不相关。

也就是说一种现价已经包含了所有信息，包括所有过去的价格记录。同时，价格与粒子运动一样，具有“温度”越高，运动越明显的特性。

贷款到期，借款人还款。其中借款人可以提前还款，若到期未能还款，则有展期申请、强制结清、押品结清、押品处置、违约金法系处理。借款人还清贷款，即可拿回抵押物品。

HDFS(Hadoop分布式文件系统)

源自于Google的GFS论文，发表于2003年10月，HDFS是GFS克隆版。

HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。

HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。

它提供了一次写入多次读取的机制，数据以块的形式，同时分布在集群不同物理机器上。

Mapreduce(分布式计算框架)

源自于google的MapReduce论文，发表于2004年12月，Hadoop MapReduce是google MapReduce 克隆版。

MapReduce是一种分布式计算模型，用以进行大数据量的计算。它屏蔽了分布式计算框架细节，将计算抽象成map和reduce两部分，

其中Map对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。

MapReduce非常适合在大量计算机组成的分布式并行环境里进行数据处理。

OODA与大数据

OODA的整个处理流程，其实就是一个运动控制系统。大数据也是类似，从手机信息、处理分析到决策执行，这些都与OODA有异曲同工之妙!大数据的运算速度与OODA的循环速度一样，都提前决定着结果。

OODA强调的是根据对手的行为作出决策;大数据的核心是依据分析结果指导策略的制定!而这都严重地依赖对海量环境数据的研究分析，以求找到*的应对方案!

OODA曾经是只为军事服务。如今这个思想工具已经开始在各个行业中应用开来。这就好比大数据在各行各业中都有不同程度的用武之地，并且逐步发挥关键性的作用!

OODA的发明者认为并不一定要按照顺序来完成(观察/调整/决策/执行)，允许基于文化和新的经验跳跃式自由组合着使用，同样的，大数据也不能按照固定模式来使用，而是根据具体环境和应用场景来做预测分析的工作!也正因为如此，大数据才前途无量!!

MapReduce的使用

首先要明确完成一个MapReduce最小的任务都包含哪些具体工作!部署Hadoop架构，在HDFS系统上分发要处理的数据集，定义Map和Reduce两个函数，配置相关路径和执行顺序。编译生成处理小包，再由Job分发给不同的服务器处理。最终收集整个输出结果!!

部署Hadoop架构这一步骤极其简单，代价不菲。因为它需要N台服务器集群。并且通过Hadoop架构连接起来。

由于可能会存在多个Reduce函数的情况，因此Map函数的处理结果将会被克隆复制，并且保存到不同的分区，确保每个Reduce处理的数据集是一样的。

MapReduce支持多种语言来表达，Java/Ruby/Python等，另外也有直接支持MapReduce的编程语言：Pig/Hive/Scalding等

MapReduce的使用已经基本可以解决大部分超级计算。不过它也有一个不可忽视的前提，就是业务分析任务是可拆解的。但也不用太担心，因为这种事情很少会发生!

天才领路者