终于明了大数据应该怎么学习

MapReduce的厉害之处在于高效完整地处理大数据。这是只有MapReduce架构才能完成的事情!等待让我们荒老，但是速度让我们更有价值!本节介绍的是Hadoop中利器之一MapReduce的工作机制，我们正在进入大数据计算的核心区域。以下是小编为你整理的大数据应该怎么学习

MapReduce工作机制

MapReduce的主体是两个函数Map()和Reduce()，Map负责清洗数据，Reduce负责数据分析并输出最终结果，而且这两个功能之间并非一对一的关系，可以根据具体业务选择匹配关系。

Map函数

输入：键值关系的数据队列，键是每段内容开头的偏移量。

处理：从输入中抽取出自定义的关键字段。这个处理过程可以很简单，也可以很复杂。

输出：键值关系的数据队列，通常是保存在硬盘上，而不是HDFS中。因为这个数据集只是个中间过程，计算结束时需要被删除。

大数据应该怎么学习

Reduce函数

输入：Map的输出结果经过MapReduce框架处理之后分发给Reduce函数，因为通常一个Reduce函数需要拿到完整的数据集之后才能开始分析。

处理：这一步的分析处理将是最为艰难和富有价值的环节。根据不同业务指标定义处理函数。

输出：输出自定义的格式文件，并且保存在HDFS上。

Combiner函数

输入：Map的输出结果未经过MapReduce框架处理之后直接传送给Combiner函数。

处理：Combiner函数着手做合并归类和排序等处理，经过处理之后，数据集大大缩小。

输出：这时的输出结果才传送给MapReduce架构处理中心。

解决问题：减少带宽传输压力!

大数据的用途

淘宝店

假如我们开了一个淘宝的的话，我们就可以从淘宝里面的数据魔方这个运用里面获取大量的数据，这些数据我们需要好好分析，利用好了，我们就可以创造价值。

微信公众号

利用微信公众号，我们也能够获得很多的大数据，我们投放广告，每天有每天的数据统计，每月有每月的数据统计，这些都是大数据时代下的小数据，我们要好好利用。

百度推广

我们利用百度推广来进行广告投放，这也是获取大数据的一种方式，利用百度推广来获取我们需要的各种大数据，不过，这需要我们先进行前期的投入。

智汇推

智汇推是腾讯旗下的一款商业的广告产品，我们也能够通过我们自己的广告模式来获取我们需要的*化的数据，和其他的推广方式一样，这里也有每天的数据分析，我们同样可以获得大数据。

头条号

还有就是现在比较火的头条了，我们利用头条来进行我们自己公司的广告推广，从而获得我们需要的一些数据，进行统计，进行分析，得出结论，进而进行合理的投放，获得利益。

微博

微博也是一种获得大数据的推广方式之一，我们可以通过微博来进行企业的活动推广，进而从每日、每月的数据中获得我们需要的信息，让我们的推广模式进行改变，为企业节约成本，为企业带来收益。

大数据学习阶段

*阶段：大数据前沿知识及hadoop入门，大数据前言知识的介绍，课程的介绍，Linux和unbuntu系统基础，hadoop的单机和伪分布模式的安装配置。

第二阶段：hadoop部署进阶。Hadoop集群模式搭建，hadoop分布式文件系统HDFS深入剖析。使用HDFS提供的api进行HDFS文件操作。Mapreduce概念及思想。

第三阶段：大数据导入与存储。mysql数据库基础知识，hive的基本语法。hive的架构及设计原理。hive部署安装与案例。sqoop安装及使用。sqoop组件导入到hive。

第四阶段：Hbase理论与实战。Hbase简介。安装与配置。hbase的数据存储。项目实战。

第五阶段：Spaer配置及使用场景。scala基本语法。spark介绍及发展历史，spark stant a lone模式部署。sparkRDD详解。

第六阶段：spark大数据分析原理。spark内核，基本定义，spark任务调度。sparkstreaming实时流计算。sparkmllib机器学习。sparksql查询。

第七阶段：hadoop+spark大数据分析。实战案例深入解析。hadoop+spark的大数据分析之分类。logistic回归与主题推荐。

OODA原型

概而论之，OODA指的是在充分观察了解你和对手的环境的前提下，模拟对手在特定环境下的行为，进而做出一系列的对策，并且快速响应执行!之后又迅速收集反馈信息，进入下一个OODA循环决策。

观察:

指的是通过多角度了解你与对手目前的真实处境。要做的事情就是尽可能全面地收集过去和现在的信息。以求足够了解对手正在所使用的策略和战术。

调整：

利用观察到的信息来感知和分析对手，并且根据对手的历史信息模拟其后续的决策行为，对目前自己的行为作出*的调整建议。这一步骤也最为关键!

决策：

根据自己的现状，从多种调整方案中筛选权衡出最行之有效的执行方案。这一步其实依赖对己方所有大小情况的掌握。胜利属于作出正确决策的一方!

执行：

这个毋庸置疑，没有执行的方案就是一纸空文。这与平时训练养成的素质有关。*俗语说，“养兵千日，用兵一时。”这个时候就是生死存亡见分晓的时候了。同时也是在校验决策的正确性!

天才领路者

终于明了大数据应该怎么学习