本次课程以大数据分析师为目标,从数据分析基础、JAVA语言入门和linux操作系统入门知识学起,系统介绍Hadoop、HDFS、MapReduce和Hbase等理论知识和hadoop的生态环境,详细演示hadoop三种模式的安装配置,以案例的形式,重点讲解基于mahout项目的大数据分析之聚类、分类以及主题推荐。区别于普通的JAVA程序员,本课程的重点是培养基于Hadoop架构的大数据分析思想及架构设计,通过演示实际的大数据分析案例。 **阶段:大数据*知识及hadoop入门 1.大数据*知识介绍 2.课程介绍 3.Linux及unbuntu系统基础 4.hadoop的单机和伪分布模式的安装配置 *二阶段:Hadoop部署进阶 1.Hadoop集群模式搭建 2.Hadoop分布式文件系统HDFS深入剖析 3.使用hdfs提供的api进行hdfs文件操作 4.Mapreduce概念及思想 *三阶段:大数据导入与存储 1.mysql数据库基础知识 2.hive的基本语法 3.hive的架构及设计原理 4.hive安装部署与案例 5.sqoop安装及使用 6.sqoop组件导入到hive *四阶段:Hbase理论及实战 1.hbase简介 2.安装及配置 3.hbase的数据存储 4.项目实战 *五阶段:Spark配置及使用场景 1.scala基本语法 2.spark介绍及发展历史 3..spark standalone模式部署 4.spark RDD 详解 *六阶段:spark大数据分析原理 1.Spark内核:基本定义、Spark任务调度 2.Spark Streaming 实时流计算 3.Spark MLlib 机器学习 4.Spark SQL 查询 *七阶段:hadoop+Spark大数据分析 1.实战案例深入解析 2.hadoop+Spark的大数据分析之分类 3.Logistic回归与主题推荐 上海西线学院官/ 高薪等你来拿,快来报名吧!