大数据分析师应该要学的知识有,统计概率理论基础,软件操作结合分析模型进行实际运用,数据挖掘或者数据分析方向性选择,数据分析业务应用。
1、统计概率理论基础
这是重中之重,千里之台,起于垒土,最重要的就是最下面的那几层。统计思维,统计方法,这里首先是市场调研数据的获取与整理,然后是最简单的描述性分析,其次是常用的推断性分析,方差分析,到高级的相关,回归等多元统计分析,掌握了这些原理,才能进行下一步。
2、软件操作结合分析模型进行实际运用
关于数据分析主流软件有(从上手度从易到难):Excel,SPSS,Stata,R,SAS等。首先是学会怎样操作这些软件,然后是利用软件从数据的清洗开始一步步进行处理,分析,最后输出结果,检验及解读数据。
3、数据挖掘或者数据分析方向性选择
其实数据分析也包含数据挖掘,但在工作中做到后面会细分到分析方向和挖掘方向,两者已有区别,关于数据挖掘也涉及到许多模型算法,如:关联法则、神经网络、决策树、遗传算法、可视技术等。
4、数据分析业务应用
这一步也是最难学习的一步,行业有别,业务不同,业务的不同所运用的分析方法亦有区分,实际工作是解决业务问题,因此对业务的洞察能力非常重要。
扩展资料
分析工作内容
1、搜索引擎分析师(Search Engine Optimization Strategy Analyst,简称SEO分析师)是一项新兴信息技术职业,主要关注搜索引擎动态,修建网站,拓展网络营销渠道,网站内部优化,流量数据分析,策划外链执行方案,负责竞价推广。
2、SEO分析师需要精通商业搜索引擎相关知识与市场运作。通过编程,HTML,CSS,JavaScript,MicrosoftASP.NET,Perl,PHP,Python等建立网站进行各种以用户体验为主同时带给公司盈利但可能失败的项目尝试。
参考资料来源:百度百科-大数据分析师
随着云时代的发展,大数据也吸引了越来越多的目光。云计算和大数据早已成为不可分割的一体,掌握了云计算和大数据也就掌握了大数据常见的实时以及离线开发框架,具备架构设计以及开发能力,能够胜任 hadoop开发工程师,spark开发工程师,flink开发工程师等岗位。下面是各个阶段适应的岗位:阶段一:基础知识(linux操作基础、shell编程、hadoop集群环境准备、zookeeper集群、网络编程)、JVM优化(JVM运行参数、JVM内存模型、jmap命令的使用、jstack命令的使用、VisualVM工具的使用、JVM垃圾回收算法、JVM垃圾收集器、Tomcat8优化、JVM字节码、代码优化)。完成以上初级阶段的学习,大家就能够完成中小型企业常见的自动化脚本。阶段二 :hadoop环境搭建2.0(hadoop源生集群搭建、CDH版本集群搭建)、hdfs(hdfs入门、hdfs深入)、mapreduce(mapreduce入门、mapreduce深入学习、mapreduce高级)、yarn、hive(hive安装、hive基本操作、hive高级用法、hive调优)、辅助系统工具(flume、azkaban调度、sqoop0)、IMPALA、HUE、OOZIE。学到这个阶段大家基本能够胜任离线相关工作,包括ETL工程师、hadoop开发工程师、hadoop运维工程师、Hive工程师、数据仓库工程师等岗位。阶段三 :kafka消息队列、storm编程(storm编程、strom实时看板案例、storm高级应用)。完成第三阶段的学习,大家能够胜任Storm实时计算相关工作,包括ETL工程师、大数据开发工程师、Storm流式计算工程师等岗位。阶段四 :项目开发(strom日志告警、strom路由器项目开发)。了解了strom项目开发,大家能够胜任流计算开发工作,流式计算工程师、大数据开发工程师等相关工作岗位。阶段五 :Scala编程(Scala基础语法、Scala中面向对象编程、Scala中的模式匹配、Scala中的actor介绍、Actor实战、Scala中的高阶函数、隐式转换和隐式参数、Akka编程实战)、Spark(Spark概述、Spark集群安装、Spark HA高可用部署、Spark程序、RDD概述 、创建RDD 、RDD常用的算子操作 、RDD的依赖关系、RDD的缓存机制 、DAG的生成 、spark检查点、Spark SQL概述 、DataFrame介绍以及与RDD对比 、DataFrame常用操作 、DataSet的介绍、以编程方式执行Spark SQL查询、Spark on Yarn介绍、sparkStreaming概述、Spark Streaming原理 、DStream相关操作、Dstream操作实战、sparkStreaming整合flume实战、sparkStreaming整合kafka实战)、Hbase(hbase简介、hbase部署、hbase基本操作、hbase的过滤器、hbase原理、hbase高阶)。完成第五阶段的学习,大家能够胜任Spark相关工作,包括ETL工程师、Spark工程师、Hbase工程师等等。阶段六 : 用户画像(用户画像概述、用户画像建模、用户画像环境、用户画像开发、hive整合hbase、hbase集成phoenix、项目可视化)。完成大数据Spark项目实战能够胜任Spark相关工作,包括ETL工程师、Spark工程师、Hbase工程师、用户画像系统工程师、数据分析师。阶段七 :Flink(Flink入门、Flink进阶、Flink电商项目)。完成Flink实时计算系统的学习,大家能够胜任Flink相关工作,包括ETL工程师、Flink工程师、大数据实时开发工程师等岗位。阶段八 : 机器学习入门(机器学习概念、机器学习数学基础)、机器学习语言基础(Python语言、Python数据分析库实战、用户画像标签预测实战)、集成学习算法、构建人才流失模型、数据挖掘项目、推荐系统、CTR点击率预估实战。完成最后的学习能够胜任机器学习、数据挖掘等相关工作,包括推荐算法工程师、数据挖掘工程师、机器学习工程师,填补人工智能领域人才急剧增长产生的缺口。欢迎分享,转载请注明来源:夏雨云
评论列表(0条)