总算认识零基础学大数据

在维基百科中对数据挖掘的解释是：数据挖掘(英语：data mining)是一个跨*的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。以下是小编为你整理的零基础学大数据

分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到某个给定的类别。

回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征，产生一个将数据项映射到一个实值预测变量的函数，发现变量或属性间的依赖关系，其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

零基础学大数据

聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别，其目的是使得属于同一类别的数据间的相似性尽可能大，不同类别中的数据间的相似性尽可能小。

关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则，即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现，即隐藏在数据间的关联或相互关系。

导入/预处理

虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

挖掘

与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes，主要使用的工具有HadoopMahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，还有，常用数据挖掘算法都以单线程为主。

Hadoop和Hive

一群基于Java的工具被开发出来以满足数据处理的巨大需求。Hadoop作为*的基于Java的框架用于批处理数据已经点燃了大家的热情。Hadoop比其他一些处理工具慢，但它出奇的准确，因此被广泛用于后端分析。它和Hive——一个基于查询并且运行在顶部的框架可以很好地结对工作。

Scala

Scala是另一种基于Java的语言，并且和Java相同的是，它正日益成为大规模机器学习，或构建高层次算法的工具。它富有表现力，并且还能够构建健壮的系统。

“Java就像是建造时的钢铁，而Scala则像黏土，因为你之后可以将之放入窑内转变成钢铁，”Driscoll说。

Kafka和Storm

那么，当你需要快速实时的分析时又该怎么办呢?Kafka会成为你的好朋友。它大概5年前就已经出现了，但是直到最近才成为流处理的流行框架。

Kafka，诞生于LinkedIn内部，是一个超快速的查询消息系统。Kafka的缺点?好吧，它太快了。在实时操作时会导致自身出错，并且偶尔地会遗漏东西。

“有精度和速度之间有一个权衡，”Driscoll说， “因此，硅谷所有的大型高科技公司都会使用两条管道：Kafka或Storm用于实时处理，然后Hadoop用于批处理系统，此时虽然是缓慢的但超级准确。”

Storm是用Scala编写的另一个框架，它在硅谷中因为流处理而受到了大量的青睐。它被Twitter纳入其中，勿庸置疑的，这样一来，Twitter就能在快速事件处理中得到巨大的裨益。

Spark(内存DAG计算模型)

Spark是一个Apache项目，它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区，并且是目前最活跃的Apache项目。

最早Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架。

Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍

Giraph(图计算模型)

Apache Giraph是一个可伸缩的分布式迭代图处理系统，基于Hadoop平台，灵感来自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

最早出自雅虎。雅虎在开发Giraph时采用了Google工程师2010年发表的论文《Pregel：大规模图表处理系统》中的原理。后来，雅虎将Giraph捐赠给Apache软件基金会。

目前所有人都可以下载Giraph，它已经成为Apache软件基金会的开源项目，并得到Facebook的支持，获得多方面的改进。

GraphX(图计算模型)

Spark GraphX*是伯克利AMPLAB的一个分布式图计算框架项目，目前整合在spark运行框架中，为其提供BSP大规模并行图计算能力。

天才领路者

总算认识零基础学大数据