终于明了大数据要学哪些东西

大数据目前这个词很火，作为编程人员是必须学习的基础知识之一，对于其它行业的同时，了解一下大数据也是非常有必要的，也许你们公司将来有一天就会使用大数据技术来分析你们公司的发展方向，毕竟这是一个大数据时代。以下是小编为你整理的大数据要学哪些东西

首先简介一下大数据能够干什么：首先举个例子，大家都喜欢上淘宝买东西，淘宝网站会记录每个人在它网站上都买了什么，浏览了什么。。。等等一系列信息。然后分析什么产品卖的火爆，哪个客户喜欢买什么，那个商家盈利高等等，挖掘一系列有潜在价值

其次分析一下大数据的含义，大数据既然含有数据这个词汇，就表明他是和数据相关的，而数据无非就是如何存储数据和如何使用存储的数据这两个问题

大数据要学哪些东西

首先说一下如何存储：传统的数据都是保存在关系型数据库，比如oracle和mysql等，这些数据库存储空间是有限的，并且数据库的东西多了之后，查询存取的速度会变得很慢，根本做数据分析等。此外传统数据都安装在一台服务器上，一旦服务器宕机了，数据库的内容就全部销毁了，无法恢复

大数据的含义就是说数据量很大，数据量达到pb级别，大公司也许需要几千台服务器才能存储，用的是分布式存储技术。所谓的分布式存储技术是指，同样一份文件，分别存储在3台不同的服务器上，假设其中服务器挂机了，还有另外两台服务器工作，并且迅速备份一份文件，始终保证相同文件有3台服务器提供工作

大数据的使用主要是指根据公司需求，对现有的数据进行挖掘分析。而挖掘分析做的最多的就是查询数据，大数据的查询速度是非常快的，因为底层用的是类似于lucene技术。但是大数据不适合修改存储的文件。因为大数据存储数据是以文件的形式存储的，如果想修改数据，它会把原先的文件删掉，然后重新写入。

*什么人适合学习大数据：一般做数据的公司通常都会要求你会大数据，其次互联网行业也用到了大数据相关的部分技术，比如：zookeeper，但是你要想找到一份好的工作，大数据知识是必须有所了解。

大数据处理需要什么语言

R语言：它的有点在于简单易上手，通过R语言，你可以从复杂的数据集中筛选你想要的数据，从负责的模型函数中操作数据，建立有序的图表呈现数字，只需要几行代码就可以了，比如说，像是好动版本的Excel表格。

Pythom语言：Python结合了R语言的快速，处理复杂数据的能力以及更务实的语言特质，迅速地成为主流，也更简单和直观了，尤其是近几年的成长很快。在数据处理范畴内，通常在规模与复杂之间要有个取舍，Python以折中的姿态出现，是相当好的数据处理工具。

java语言：java没有和Python和R语言一样好的可视化功能，也不是统计建模的*工具，但是如果你需要建立一个庞大的系统，使用过去的原型，java是最基本的选择了。

Hadoop pand Hive：为了迎合大量数据处理的需求，以java为基础的大数据开始了。Hadoop为一批数据处理，发展以java为基础的架构关键，相对于其他处理工具，Hadoop慢许多，但是无比的准确可被后端数据库分析广泛使用，和Hive搭配的很好。

Scala：另一个以java为基础的语言，和java很像，对任何想要进行大规模的机械学习或是建立高阶的算法，Scala是逐渐兴起的工具，善于呈现且拥有建立可靠系统的能力，

Kafkaand Storm：是一个特别快速的查询信息系统，缺点是太快了，因此在实施操作时会犯错，有时候会漏掉东西。使用Scala写出来的架构，大幅增加他在串流处理的受欢迎程度，

HTML

HTML标签名和属性都是不区分大小写的，例如、或都是定义相同的标记，但推荐全部使用小写字母书写。

HTML属性一般都出现在HTML标签中, 是HTML标签的一部分。

标签可以有属性,它包含了额外的信息.属性的值一定要在双引号中。

标签可以拥有多个属性。

属性由属性名和值成对出现。

大多数的浏览器都支持颜色名集合，颜色值是一个关键字或一个RGB格式的数字，在网页中用得很多。

BASE(分布式列存数据库)

源自Google的Bigtable论文，发表于2006年11月，HBase是Google Bigtable克隆版

HBase是一个建立在HDFS之上，面向列的针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。

HBase采用了BigTable的数据模型：增强的稀疏排序映射表(Key/Value)，其中，键由行关键字、列关键字和时间戳构成。

HBase提供了对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。

Zookeeper(分布式协作服务)

源自Google的Chubby论文，发表于2006年11月，Zookeeper是Chubby克隆版

解决分布式环境下的数据管理问题：统一命名，状态同步，集群管理，配置同步等。

Hadoop的许多组件依赖于Zookeeper，它运行在计算机集群上面，用于管理Hadoop操作。

天才领路者