中科曙光大数据平台简介
1.1 大数据实训平台总体架构
针对大数据人才培养,曙光利用自身在教育行业以及服务器、大数据、人工智能领域的丰富经验,全力打造了大数据实训平台产品。
曙光大数据实训平台主要为院校的大数据人才培养提供完善的实训系统和完整的教学体系。方案整体架构如下:

图 大数据实训平台系统架构
曙光大数据实训平台采用软硬一体的方式给用户提供完整的一站式大数据教学实训解决方案。其中,硬件采用具有最高性价比,出货量最大的大数据专用服务器机型,与实训平台软件在稳定性、兼容性、性能等方面进行了多次深入测试和优化。软件则采用基于B/S架构的大数据教学实训平台。该平台利用目前最主流的容器化技术,将大数据和深度学习服务打包进容器,从而提供更加灵活的集群动态创建与管理,方便老师和学生进行大数据实验教学和学习。
曙光大数据实训平台主要包含教学管理系统、大数据实验环境、大数据开发工具、容器调度系统、运维管理系统、大数据课程体系。
同时,为更好的使用大数据实训平台,助力高职院校大数据人才培养,曙光提供配套的人才培养方案和师资培训服务。
特别的是,除了大数据实训平台之外,曙光针对人工智能人才培养推出了人工智能实训平台。曙光大数据实训平台可以和人工智能实训平台无缝融合,通过统一的教学管理系统进行管理,方便学校扩展人工智能实训平台,进行人工智能人才培养。
1.2大数据实验环境
大数据教学实训平台支持大数据集群的快速创建,采用Docker容器技术构建灵活的实验环境。每个学生可独享一套容器实验环境,彼此互不影响。
大数据实验环境预置了主流的大数据组件,学生可从无到有手动搭建大数据平台,也可一键创建搭建好的大数据平台。
表 大数据实验环境组件列表
模块名称 |
包含组件 |
说明 |
大数据 实验环境 |
HDFS |
分布式文件系统,能够提供高吞吐量的数据访问,适合大规模数据集应用 |
MapReduce |
分布式数据处理框架,能够提供快速并行批量处理海量数据的能力 |
Yarn |
通用资源调度管理系统,可以支持MapReduce、Spark等计算框架 |
Zookeeper |
提供分布式、高可用性的协调服务能力,避免系统的单点故障 |
HBase |
构建在HDFS上的分布式、面向列的分布式数据库系统 |
Hive |
Hadoop之上的数据仓库,对外提供类SQL的HQL语言来操作结构化数据 |
Spark |
融合内存计算的可扩展的数据分析平台 |
Storm |
流式数据处理系统,面向低延迟的实时数据处理 |
Kafka |
分布式消息缓存队列,用于分布式流式数据采集场景 |
Pig |
一种操作hadoop的轻量级脚本语言,用来快速轻松的处理巨大的数据 |
Oozie |
作业流调度系统,可对大数据作业进行调度 |
Mahout |
大数据平台机器学习算法库,包含回归、分类、聚类、推荐、降维等多种算法 |
R |
数据分析与挖掘常用分析语言 |
Solr |
分布式海量数据搜索引擎,实现大数据的批量索引 |
1.3 大数据实训课程体系
提供业界最新的大数据课程讲义与实验指导。课件及指导教材依据曙光大数据技术在公安、军工、金融、医疗、广电、电信领域内的成功经验和对职场大数据紧缺人才应具备的技能深入调研,设计和编制面向高职大数据专业课程体系,展现行业内最新的大数据技术以及应用,培养大数据专业人才,促进学员融入职场和高新就业。
课程设置采用模块化、定制化的方式,可根据实际情况对课程内容、课程时长以及实验内容灵活的进行修改和调整。
1.3.1 高职特色大数据课程规划
针对高职特色人才培养目标,主要面向大数据运维工程师、大数据售中售后技术支持工程师、大数据采集处理与分析工程师岗位要求,训练学生的动手能力和问题解决能力:
表 课程信息
课程分类 |
课程名称 |
课程内容 |
知识点 |
实验 |
推荐教材 |
专业基础课 |
Java基础 |
Java面向对象 |
变量、条件结构、循环、数组 |
有 |
Java核心技术(卷1):基础知识(原书第9版) |
Java面向对象 |
封装、继承、多态、接口、抽象类与方法 |
有 |
Java基础开发 |
语言核心包、异常处理、常用工具包、集合框架、多线程、IO输入输出流、Java反射机制、Java泛型 |
有 |
linux基础 |
Linux基础知识 |
Linux简介与安装部署,熟悉图形化界面、Linux基础命令用户和权限管理、软件包安装 |
有 |
鸟哥的Linux私房菜 (基础学习篇 第三版) |
Linux管理 |
磁盘管理,日志管理,进程管理,服务管理,任务计划、ssh远程管理,rsync远程同步,selinux、常见故障排除、基本网络配置 |
有 |
Linux Shell编程 |
Shell的作用及分类、Bash的常用功能、设置和使用Shell变量、编写Shell脚本、条件测试的应用、使用if条件语句、for、while循环语句、for、while循环语句、函数使用 |
有 |
Hadoop 基础 |
大数据概论 |
大数据时代宏观背景、大数据行业应用介绍、认识Hadoop、Hadoop架构和组件、Hadoop生态系统、Hadoop经典落地案例、Hadoop安装和部署 |
有 |
Hadoop实战手册; |
HDFS实践 |
HDFS特性和目标、HDFS核心设计、HDFS体系结构、HDFS中数据流的读写、HDFS的HA机制、HDFS的Federation机制、文件压缩、文件序列化 |
有 |
MapReduce 实战 |
MapReduce编程模型、WordCount编程实例、MapReduce架构、MapReduce类型与格式、剖析MapReduce作业运行机制、shuffle和排序、任务执行与作业调度、MapReduce基础开发 |
有 |
Zookeeper 应用 |
安装、运行ZooKeeper、ZooKeeper实例、Zookeeper选举机制、Zookeeper服务、使用ZooKeeper构建应用 |
有 |
Yarn实践 |
YARN产生背景、YARN原来与架构、YARN基本操作 |
有 |
专业主干课 |
大数据 采集 |
sqoop实战 |
Sqoop介绍、安装部署Sqoop、Sqoop使用流程、Sqoop实战案例 |
有 |
构建高可用、可扩展的海量日志采集系统 |
Flume实战 |
Flume介绍、安装部署Flume、Flume使用流程、Flume实战案例 |
有 |
kafka实战 |
Kafka介绍、安装部署Kafka、kafka使用流程、kafka实战案例 |
有 |
大数据 存储 |
Hive实战 |
Hive基本概念、Hive数据类型和文件编码、HiveQL:数据定义与数据操作、HiveQL:查询、视图和索引、Hive内置函数和UDF |
有 |
Hive编程指南;HBase权威指南 |
HBase实战 |
HBase原理架构、HBase命令操作 、HBase编程实战 |
有 |
大数据 计算 |
Spark实战 |
Spark简介、生态系统、Spark架构、Spark集群安装与部署、Spark开发环境配置、Spark应用案例编程 |
有 |
Spark大数据处理:技术、应用与性能优化; Storm分布式实时计算模式 |
Storm实战 |
实时流计算Storm、核心组件、Storm特性、Storm应用于什么场景、使用Storm、核心概念和数据流模型、Storm使用综合案例 |
有 |
大数据 扩展学习 |
其他组件 |
Solr实战、ES实战、SQL on Hadoop 学习 |
有 |
|
Hadoop管理与运维 |
规划Hadoop分布式集群、管理Hadoop集群、Hive调优、HBase调优、Yarn 调优、Spark调优 |
有 |
大数据可视化 |
数据可视化实战 |
数据可视化软件介绍,数据可视化实战、大数据Web可视化开发 |
有 |
|
综合案例实践课 |
大数据 项目实战 |
海量日志采集分析 |
以日志采集、分析、处理为应用场景,直接来源于实际项目 |
有 |
|
用户画像分析 |
以行为日志构建用户画像为应用场景 |
有 |
用户微博关系数据分析 |
以微博关系数据分析作为应用场景 |
有 |
曙光实战案例实验手册 |
用户行为数据分析 |
以用户查询日志建模、推荐为应用场景 |
有 |
|
搜索引擎日志分析 |
以搜索引擎日志分析为应用场景 |
有 |
|
流式数据采集与分析 |
以流式数据实时采集、分析、入库为应用场景 |
有 |
|
1.3.2 高职特色大数据实验规划
1.3.2.1 安装部署实验
提供以下13个安装部署实验:
1.Hadoo安装部署
2.HBase安装部署
3.Hive安装部署
4.Spark安装部署
5.Zookeeper安装部署
6.Storm安装部署
7.Kafka安装部署
8.Flume安装部署
9.Solr安装部署
10.Mahout安装部署
11.Sqoop安装部署
12.Hue安装部署
13.Oozie安装部署
1.3.2.2 运维调优实验
提供以下8个高级运维和调优实验:
1.HDFS高级运维与调优
2.MapReduce高级运维与调优
3.Yarn高级运维与调优
4.HBase高级运维与调优
5.Hive高级运维与调优
6.Spark高级运维与调优
7.Storm高级运维与调优
8.Kafka高级运维与调优
1.3.2.3 程序设计实验
提供以下18个程序设计实验:
1.Linux基本操作和常用命令
2.Shell基础编程
3.HDFS基本操作使用
4.MapReduce初级编程实战
5.MapReduce高级编程实战
6.Hbase管理与使用
7.Hive数据处理与分析
8.Spark编程实战
9.Zookeeper编程实战
10.Sqoop基本操作
11.数据可视化工具实践
12.HDFS基本操作(python实现)
13.mapreduce初级编程(python实现)
14.mapreduce高级编程(python实现)
15.Hbase基本操作(python实现)
16.hive基本操作(python实现)
17.Spark编程入门-pyspark原理与简单编程(python实现)
18.Spark编程进阶-pyspark结合numpy,scipy,matplotlib以及panadas等实现数据描述性探索分析,数据统计分析(python实现)
1.3.2.4 算法建模实验(可选)
提供以下5种算法实战实验:
1.SparkMLlib推荐系统实现
2.Spark MLlib分类模型实现
3.Spark MLlib回归模型实现
4.Spark MLlib聚类模型实现
5.基于决策树的森林植被预测