终于领会学大数据如何学

大数据能够进行数据变现的商业模式目前就是两个，一个是精准营销，典型的场景是商品推荐和精准广告投放，另外一个是大数据风控，典型的场景是互联网金融的大数据风控。以下是小编为你整理的学大数据如何学

金融的本质是风险管理，风控是所有金融业务的核心。典型的金融借贷业务例如抵押贷款、消费贷款、P2P、供应链金融、以及票据融资都需要数据风控识别欺诈用户及评估用户信用等级。

学大数据如何学

传统金融的风控主要利用了信用属性强大的金融数据，一般采用20个纬度左右的数据，利用评分来识别客户的还款能力和还款意愿。信用相关程度强的数据纬度为十个左右，包含年龄、职业、收入、学历、工作单位、借贷情况、房产，汽车、单位、还贷记录等，金融企业参考用户提交的数据进行打分，*得到申请人的信用评分，依据评分来决定是否贷款以及贷款额度。其他同信用相关的数据还有区域、产品、理财方式、行业、缴款方式、缴款记录、金额、时间、频率等。普惠在线

互联网金融的大数据风控并不是完全改变传统风控，实际是丰富传统风控的数据纬度。互联网风控中，首先还是利用信用属性强的金融数据，判断借款人的还款能力和还款意愿，然后在利用信用属性较弱的行为数据进行补充，一般是利用数据的关联分析来判断借款人的信用情况，借助数据模型来揭示某些行为特征和信用风险之间的关系。

互联网金融公司利用大数据进行风控时，都是利用多维度数据来识别借款人风险。同信用相关的数据越多地被用于借款人风险评估，借款人的信用风险就被揭示的更充分，信用评分就会更加客观，接近借款人实际风险。

大数据的门槛是怎样的

数据科学家：数据科学家倾向于用搜索数据的方式来看待周围的世界，把大量散乱的数据变成结构化的可供分析的数据，还要找出丰富的数据源，整合其他可能不完整的数据源，并清理成结果数据集，新的竞争环境中，挑战不断的变化，新数据不断的流入，数据科学家需要帮助决策者穿梭于各种分析，从临时数据分析到持续数据交互分析。当他们有所发现，建议新的业务方向。他们很有创造力的展示视觉化的信息，从而影响产品，流程和决策。

大数据工程师：分析历史，预测未来，优化选择，这是大数据工程师在玩数据时最重要的三大任务。通过这三个工作方向，帮助企业做出更好的商业决策。大数据工程师是一个很重要的工作，就是通过分析数据找出过去事件的特征。通过引入关键因素，大数据工程师可以预测未来的消费趋势。

数据分析师：与传统的数据分析师相比，互联网时代的数据分析师面临的不是数据匮乏，而是数据过剩，因此，互联网时代的数据分析师必须学会借助技术手段进行高效的数据清理。更为重要的是，互联网时代的数据分析师不断在数据研究的方法论方面进行创新和突破。

分情况来说：就行业来说，数据分析师的机制类似，无论在任何时代，媒体运营者能否准确详细和及时地了解受众情况和变化趋势。都是成败的关键。

针对大数据的开源包

Precog：Precog提供了一项服务Labcoat，它是一个交互式的开发环境，可以用来编写基于开源的Quirrel(由Precog实现的统计查询语言，Quirrel很多方面都与R编程语言比较相似)查询语言的分析工作，该集成开发环境包含了一个语言学习教程以及一些复杂的函数。Precog的COO告诉Derrick，即使没有任何编程经验的人也能在几个小时内学会操作。

Precog可http://m.fulinmenst.com/m/contact.aspx?FId=n7:7:7以从各种数据源抓取输入数据，其中包括SQL数据库、Amazon S3、Hadoop、MongoDB、客户端Web应用和后端服务器等。RESTful API支持开发者从外部源(如Twitter或Facebook)、CSV文件或移动设备抓取数据。抓取的数据保存到一个叫做PrecogDB的定制数据库中，而且还可以使用人群统计、态度、位置和其他信息，使数据更为丰富。在一次采访中，Precog的CEO和创始人John A.De Goes解释到：“系统的架构与数据库分析有些相似，比如都包括面向列的存储。但是其区别在于：前者支持完全异构的、非规范化的数据，通过对Quirrel的支持，相对于使用RDBMS进行分析，使用这种类似于“面向大数据的R”的语言，能够很方便地执行很多更为高级的计算。”

ez(DAG计算模型)

Tez是Apache*开源的支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，

即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，

这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业。

目前hive支持mr、tez计算模型，tez能完美二进制mr程序，提升运算性能。

Spark(内存DAG计算模型)

Spark是一个Apache项目，它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区，并且是目前最活跃的Apache项目。

最早Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架。

Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍

Giraph(图计算模型)

Apache Giraph是一个可伸缩的分布式迭代图处理系统，基于Hadoop平台，灵感来自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

最早出自雅虎。雅虎在开发Giraph时采用了Google工程师2010年发表的论文《Pregel：大规模图表处理系统》中的原理。后来，雅虎将Giraph捐赠给Apache软件基金会。

目前所有人都可以下载Giraph，它已经成为Apache软件基金会的开源项目，并得到Facebook的支持，获得多方面的改进。

天才领路者

终于领会学大数据如何学