总算懂了怎么自学大数据

无论是在构建大数据的应用程序，还是仅仅只想从开发的移动应用中得到一点点启发，程序员现在比以往任何时候都需要数据分析工具。这绝对是一个好东西，所以很多公司从程序员的需求和技能出发，构建了一些数据分析工具。以下是小编为你整理的怎么自学大数据

BitDeli：BitDeli是今年11月份在旧金山成立的一家初创公司。它能衡量出任何使用Python脚本的应用程序的指标，联合创始人兼CEO Ville Tuulos告诉Derrick，脚本可以很简单，也可以很复杂——甚至未来可以延伸到机器学习。不过和“重量级选手”Hadoop相比，BitDeli自认为是一个轻量级的Ruby。

Continuuity：Continuuity是前Yahoo首席云架构师Todd Papaioannou和Facebook HBase的工程师Jonathan Gray的心血结晶，Continuuity想让所有的公司都能像Yahoo、Facebook一样运营。该团队创建了一个大数据工具，它可以简化Hadoop以及HBase集群的复杂性，而且包含一系列开发套件，旨在帮助程序员开发大数据应用，该平台采用Hadoop技术，允许开发者在防火墙内外对大数据应用软件进行部署、扩展和管理。公司联合创始人兼首席执行官Todd Papaioannou表示，作为一家初创企业，Continuuity正在试图掀起下一波大数据应用软件的浪潮，公司所提供的工具能够大大提高处于开发状态的软件不同部分与阶段的扩展性。

怎么自学大数据

Flurry：Flurry是移动应用统计分析领域里的标杆，正因为在行业内独特的优势，它每年的营收高达一亿美元。Flurry拥有非常全面的功能，不仅仅只是帮助开发者构建移动应用，它还帮助开发者分析所有的数据，进而产生更大的效益。其实数据也支撑了该公司的广告网络，他们通过数据分析可以帮助开发者推送准确的广告到需要的用户面前。不过单纯从移动应用的数据统计功能来看，Flurry绝对是处于领先地位。其功能模块设置合理，分析维度全面，分析流程也易于理解。

Infochimps：尽管Infochimps非常努力的想让自己成为一家企业级的IT公司，但是显然还有一定的差距。不过与公司同名的平台的确为开发者们带来了真正的价值。配置和管理大数据环境的工具称之为Wukong——这是一个基于Ruby的命令行界面，开发者可以编写大数据应用调用Data Delivery Service或Hadoop，使用的语法也非常简单，开发者*MapReduce或者Flume。Infochimps的首席战略官Dhruv Bansal介绍：常见的情况是，客户用Infochimps的平台开发程序处理分析数据，只有在需要批量分析海量数据时才会用到Hadoop。基于这种经验，他们的新版本关注的重点是对数据的实时处理功能(而不是Hadoop)。

如何实现数据化

企业要为此做好计划，到底需要保存什么样的数据，以人为中心的数据还是以产品为中心，还是更关注企业运营，需要做好这样的计划，然后再将企业生产经营中的数据保存下来，即便是现在看来没什么用的数据，未来也可能产生巨大的价值。比如说像售楼处、体验店客户的来访数据，就有必要完整的记录下来。包括怎么过来的，一个人来还是几个人，有老人和小孩吗，穿什么样的衣服等等，还有客户的情绪，看了什么，问了什么问题，*买了什么东西，都是非常重要的数据。另外，企业内部人力资源的各个方面也都可以记录下来，这些可以进行挖掘和分析的数据。他举例说，长虹公司在自己的生产线设置了很多传感器，监测温度、湿度、震动、噪音、颗粒等等因素，希望了解到生产过程中哪些因素会对员工产生明显影响。他们此前都认为温度和颗粒可能对于员工操作和产品质量影响*，但是事实上最终数据分析的结果，温度是没有什么影响的，恒温的控制对于生产效率和合格率的贡献并不像想象中那么大，反而是噪音对于员工情绪以及生产的影响非常重要。要成为大数据企业，*步企必须要实现数据化。

对于很多企业，做大数据并不是意味着要自己去建设数据中心。随着云计算和云数据中心出现，使用外部数据中心的成本已经非常低了，数据存储的费用也是在成倍的下降。但是，企业要做大数据，必须要在IT基础设施方面具有比较好的数据处架构，要用大一些工具比如数据分布式存储、Hadoop等等。很关键的企业不仅要具备一个数据中心的硬件，还要考虑和企业业务方向结合，不仅就是包括了数据的采集、数据库架构，向上的分析模块，再往上的API数据出口，以及横向的一些业务模块和出口这些东西。要做成企业的大数据管理应用平台，我们强调一定要从企业的业务出发，量体裁衣，企业首先必须要搞清楚自己的业务形态是什么。

深入掌握抓包分析技术

事实上，很多网站都会做一些反爬措施，即不想让你爬到他的数据。最常见的反爬手段就是对数据进行隐藏处理，这个时候，你就无法直接爬取相关的数据了。作为爬虫方，如果需要在这种情况下获取数据，那么你需要对相应的数据进行抓包分析，然后再根据分析结果进行处理。一般推荐掌握的抓包分析工具是Fiddler，当然你也可以用其他的抓包分析工具，没有特别的要求。

精通一款爬虫框架

事实上，当你学习到这一步的时候，你已经入门了。

这个时候，你可能需要深入掌握一款爬虫框架，因为采用框架开发爬虫项目，效率会更加高，并且项目也会更加完善。

同样，你可以有很多爬虫框架进行选择，比如Scrapy、pySpider等等，一样的，你没必要每一种框架都精通，只需要精通一种框架即可，其他框架都是大同小异的，当你深入精通一款框架的时候，其他的框架了解一下事实上你便能轻松使用，在此推荐掌握Scrapy框架，当然你可以根据习惯进行选择。

掌握常见的反爬策略与反爬处理策略

反爬，是相对于网站方来说的，对方不想给你爬他站点的数据，所以进行了一些限制，这就是反爬。

反爬处理，是相对于爬虫方来说的，在对方进行了反爬策略之后，你还想爬相应的数据，就需要有相应的攻克手段，这个时候，就需要进行反爬处理。

事实上，反爬以及反爬处理都有一些基本的套路，万变不离其宗，这些后面作者会具体提到，感兴趣的可以关注。

启动Storm各个后台进程

在Storm主控节点上运行"bin/storm nimbus >/dev/null 2>&1 &"启动Nimbus后台程序，并放到后台执行;

在Storm各个工作节点上运行"bin/storm supervisor >/dev/null 2>&1 &"启动Supervisor后台程序，并放到后台执行;

在Storm主控节点上运行"bin/storm ui >/dev/null 2>&1 &"启动UI后台程序，并放到后台执行，启动后可以通过http://{nimbus host}:8080观察集群的worker资源使用情况、Topologies的运行状态等信息。

END

向集群提交任务

输入命令启动Storm Topology：

storm jar allmycode.jar org.me.MyTopology arg1 arg2 arg3

其中，allmycode.jar是包含Topology实现代码的jar包，org.me.MyTopology的main方法是Topology的入口，arg1、arg2和arg3为org.me.MyTopology执行时需要传入的参数。

输入命令停止Storm Topology：

storm kill {toponame}

其中，{toponame}为Topology提交到Storm集群时指定的Topology任务名称。

天才领路者

总算懂了怎么自学大数据