北京海淀区CDA大数据分析集训营
课程简介
随着电子信息、物联网、互联网等产业的高速发展,智能手机、平板电脑、可穿戴设备与物联网设备已经渗入到现代生产生活的方方面面,每时每刻都产生着大量的数据,当今社会已经进入数据爆炸的时代。各领域中的相关数据不仅量大,而且种类繁多、变化速度快、价值密度低。这些日益凸显的大数据特征在掀起一场全新的思维、技术与商业变革,无论是产业界还是学术界都在持续加大在大数据技术和相关领域的投入。如今大数据技术已经与我们的生活紧密的连接在一起了,例如电商领域的推荐系统、政府疫情防控,都离不开大数据技术的加持。CDA大数据分析就业班课程是立足于市场需求,精心打磨的就业课程。本课程适宜0基础有转行需求的同学学习,课程内容由浅到深,让大家逐步掌握大数据核心技术。
学习目标
1.熟练掌握Linux常用命令,能胜任基础大数据运维工作
2.熟练掌握SQL语法,熟悉MySQL数据库性能优化
3.掌握Java核心编程,具备大数据应用开发能力
4.掌握Hadoop/spark生态核心技术,可根据需求完成离线或实时大数据应用开发任务
5.掌握Python核心编程,完成数据预处理、可视化的代码编写
6.掌握数据挖掘核心技术,胜任数据挖掘工程师岗位
学习对象和基础
1.各行业数据分析、数据挖掘从业者
2.在校数学,计算机,统计等专业教师和学生
3.经济,医学生物研究院科研人员
4.数据分析,数据挖掘兴趣爱好者及转行人士
课程案例,项目特训
Web网站日志分析案例
案例介绍
使用Flume来完成Apache服务器日志收集工作,并自动上传到指定的HDFS系统中存储,使用MapReduce将HDFS中进行数据清洗,使用Hive对清洗后的数据进行统计分析,使用Sqoop将Hive统计后的数据导出到关系型数据库MySQL,数据可视化技术呈现分析结果。
技能涉及
Hadoop是个可靠的、可伸缩的存储和分析平台,主从架构:1台NameNode,多台DataNode。在map阶段,通常执行输入格式解析、投影(选择相关的字段)和过滤(删除不感兴趣的记录),reduce阶段,一个聚合或汇总的阶段。在这个阶段,map阶段的输出被聚合以产生期望的结果。
电子商务网站用户行为分析
案例介绍
数据导入mysql数据库,并用sqoop将其传入hive,在数据库中做数据清洗处理,进行用户地域分布的大数据分析,绘制用户分布画像,分析用户的刷单行为,进行地域、频次、时间特点进行分析。
技能涉及
建立会员偏好模型(可以使用数理统计和数据挖掘相应的算法),通过R与spark软件进行协同过滤、关联规则算法的实现,并比较不同,软件和算法的性能和准确性,进行效果评估。
高速公路收费站各站点每日收费额情况图...
案例介绍
将所有数据导入到mysql中,同时hive中,并编写spark程序,统计出每天的交易额,并输出到mysql中,hive中的数据,编写spark程序,使用漏斗模型统计分析出某日数据增加的原因。
技能涉及
1检查集群、节点、索引的健康情况2管理集群、节点,索引数据、元数据3执行CRUD,创建、读取、更新、删除以及查询4执行的查询操作,比如分页、排序、脚本、聚合等
电力大数据实战主界面
案例介绍
基于用户用电行为典型数据,分析用户用电行为轨迹,抽象用户用电特征,输出用户群体的聚类分析结果和典型行为特征。
技能涉及
电力工业统计基础知识,用电负荷特性指标,数据清洗、归一化处理、聚类程序开发、结果分析。