天才教育网合作机构 > 北京职业技能培训机构 > 北京会计培训机构 >

天才领路者

欢迎您!
朋友圈

400-850-8622

全国统一学习专线 9:00-21:00

位置:北京职业技能培训资讯 > 北京会计培训资讯 > 终于明了如何学大数据基础

终于明了如何学大数据基础

日期:2019-10-27 14:54:11     浏览:172    来源:天才领路者
核心提示:大数据是现在很多企业发展中必不可少的工具,它究竟对企业会有什么作用呢?从传统企业的运行流程来看,大数据主要能够在了解用户、锁定资源、规划生产、做好运营、开展服务等方面,那么大数据在这些方面又是怎么做的呢?以下是小编为你整理的如何学大数据基础

大数据是现在很多企业发展中必不可少的工具,它究竟对企业会有什么作用呢?从传统企业的运行流程来看,大数据主要能够在了解用户、锁定资源、规划生产、做好运营、开展服务等方面,那么大数据在这些方面又是怎么做的呢?以下是小编为你整理的如何学大数据基础  

客户是企业重要的数据源,当数量庞大的客户处于同一个平台上时,就会产生无数个数据源,而企业通过大数据的整合分析,对这些数据源进行分析,探码大数据客流分析通过对人群热力指数计算潜力图,竞品分布,大数据识别城市生活消费功能区,用户画像反映出商场附近客流情况以及客流潜力。将会总结出一套新的规律,从而帮助企业了解客户,为企业的确定更准确的发展方向。

如何学大数据基础

 

今天的客户和以往有很大不同。大数据的兴起使他们能够在购买一个产品之前彻底和孜孜不倦地研究它,并了解他们的消费情况。通过运用大数据,将客户、用户和产品进行有机串联,对用户的产品偏好,客户的关系偏好进行个性化定位,生产出用户驱动型的产品,提供客户导向性的服务。并从数据中发掘出适应企业发展环境的社会和商业形态,用数据对用户和客户对待产品的态度,进行挖掘和洞察,准确发现并解读客户及用户的诸多新需求和行为特征,  

通过大数据技术,使企业在运营过程中,对运营所需资源的挖掘、具体情况和储量分布等,企业都可以进行搜集分析,形成基于企业的资源分布可视图,就如同“电子地图”一般,将各种优势点,进行“点对点”的数据化、图像化展现,让企业的管理者可以更直观地面对自己的企业,更好地利用各种已有和潜在资源。如果没有大数据,将很难发现曾经认为是完全无关行为间的相互关联性,就如同外媒曾经提到的“啤酒”与“尿片”之间的关联营销一样,如果没有大数据这将是一种几乎不可能的事情。  

选择模型/自定义模型  

基于业务基础来决定选择模型的形态,比如,如果要预测产品销量,则可以选择数值预测模型。(可采用回归模型,时序预测)  

之所以叫模型,因为每个模型大致的模式是固定的,但其中还会有一些不确定的变量在里面,这样模型才会有通用性,而训练模型的意思就是找到最合适的参数,一旦找到*参数,模型就基本可用了!  

也即是字面意思,但一个模型的好坏是需要放在其特定的业务场景下来评估的。  

评价模型质量的常用指标有:平均误差率、判定系数R2  

评估分类预测模型质量的常用指标(如下图所示):正确率、查全率、查准率、ROC曲线和AUC值等  

第四步:应用模型  

评估测量完成后,就要将此模型应用于业务基础的实践中去,用于解决工作中的业务问题的,比如预测客户行为,比如划分客户群。  

第五步:优化模型,一般发生在两种情况下:  

1.在评估模型中,如果发现模型欠拟合,或者过拟合,说明这个模型待优化;  

2.在真实应用场景中,定期进行优化,或者当发现模型在真实的业务场景中效果不好时,也要启动优化;  

数据存储层  

数据存储层主要用于数据的存储。目前采用MongoDB存储结果数。  

通过Storm处理后的数据,首先缓存到Redis中,每隔一定得时间间隔,将数据批量转存到MongoDB中。  

MongoDB是一个高性能、易部署、易使用的分布式数据存储系统,介于结构化数据库和非结构化数据库之间,数据存储格式不固定,可以非常方便的进行扩充。

 

04数据处理层  

数据处理层主要采集一些数据挖掘算法对数据进行挖掘,或者进行实时计算。  

数据挖掘主要借助于统计学方法、机器学习方法、神经网络方法等对数据进行知识挖掘,发掘潜在的价值。  

比如利用线性回归算法,预测车辆的停留时间。利用k-means算法对位置临近的出租车做聚类分析,从而发现最有可能搭载乘客的热点区域。根据速度将轨迹数据进行分段,从而分析某个时间段的道路畅通状况等。  

大数据能学到什么  

可能大家都知道,当我们想去银行办一笔贷款的时候,从客户的角度,大概流程是这样的,首先得申请-等待审核,审核有两种结果:拒绝和通过。通过之后就是放款了。  

那我们从银行的角度来看,流程又是这样的:受理申请-贷款审核,审核同样也是两种结果:拒绝和通过。通过之后放款。  

从上面两个步骤来看,这里有个重要的环节就是在贷款申请人提交了申请资料后,银行需要来审核申请人的申请资料。毕竟是银行要先给你钱,银行总要知道你以后是很有可能会还这笔钱,而不是说拿了钱就跑。  

在大数据风控这个行业里混,需要了解用户,了解场景,而这些往往都可以通过数据间接反映出来。  

比如,用户在某一时期内在多家机构申请过贷款,那说明该用户目前借钱意愿强烈,即使历史征信良好,也要用策略拦住他的申请,因为他很可能出现拆东墙补西墙的可能。  

因此,用数据说话是一种方法论。不同数据对于风险的作用不同,获取难度也不同,这就决定了并非对每个用户都能获取到其各个维度的信息。  

同时,有很多特征只有很少的用户才会有,也因此造就了数据的稀疏性。  

如何将稀疏数据用在各种机器学习模型中,则正是要考察模型人员对于风险及产品理解的时候了。  

要做好大数据风控,除了数据,模型就是最重要的了。模型有很多,如一般的线性回归,Logistic回归以及深度学习等,在实际的业务场景中,有的可能单一模型就能达到很好的效果,有的则需要几个模型的结合,而具体使用哪个模型用哪些特征,则是要考察模型人员对业务和算法的理解了。  

再说一下大数据风控的直观感受。传统风控更像是冷兵器时代的战争,虽有协作但更多的是各作战单位凭借个人能力的大混战;而大数据风控则像是现代战争中的立体作战,各个作战单位(数据)在统一的指挥中枢(算法)里高度协同作战。大数据风控能将相似的人更精准的分群,会让你看到形形色色更加的人,会让你从纷繁的单一的数据中看到其背后的万千世界。

如果本页不是您要找的课程,您也可以百度查找一下: