教学科研

课程建设

当前位置: 本站首页 > 教学科研 > 课程建设 > 正文

中科曙光大数据平台简介

发布日期:2021-05-13    作者:     来源:     点击:

中科曙光大数据平台简介

1.1 大数据实训平台总体架构

针对大数据人才培养,曙光利用自身在教育行业以及服务器、大数据、人工智能领域的丰富经验,全力打造了大数据实训平台产品。

曙光大数据实训平台主要为院校的大数据人才培养提供完善的实训系统和完整的教学体系。方案整体架构如下:

图 大数据实训平台系统架构

曙光大数据实训平台采用软硬一体的方式给用户提供完整的一站式大数据教学实训解决方案。其中,硬件采用具有最高性价比,出货量最大的大数据专用服务器机型,与实训平台软件在稳定性、兼容性、性能等方面进行了多次深入测试和优化。软件则采用基于B/S架构的大数据教学实训平台。该平台利用目前最主流的容器化技术,将大数据和深度学习服务打包进容器,从而提供更加灵活的集群动态创建与管理,方便老师和学生进行大数据实验教学和学习。

曙光大数据实训平台主要包含教学管理系统、大数据实验环境、大数据开发工具、容器调度系统、运维管理系统、大数据课程体系。

同时,为更好的使用大数据实训平台,助力高职院校大数据人才培养,曙光提供配套的人才培养方案和师资培训服务。

特别的是,除了大数据实训平台之外,曙光针对人工智能人才培养推出了人工智能实训平台。曙光大数据实训平台可以和人工智能实训平台无缝融合,通过统一的教学管理系统进行管理,方便学校扩展人工智能实训平台,进行人工智能人才培养。

1.2大数据实验环境

大数据教学实训平台支持大数据集群的快速创建,采用Docker容器技术构建灵活的实验环境。每个学生可独享一套容器实验环境,彼此互不影响。

大数据实验环境预置了主流的大数据组件,学生可从无到有手动搭建大数据平台,也可一键创建搭建好的大数据平台。

大数据实验环境组件列表

模块名称

包含组件

说明

大数据

实验环境

HDFS

分布式文件系统,能够提供高吞吐量的数据访问,适合大规模数据集应用

MapReduce

分布式数据处理框架,能够提供快速并行批量处理海量数据的能力

Yarn

通用资源调度管理系统,可以支持MapReduce、Spark等计算框架

Zookeeper

提供分布式、高可用性的协调服务能力,避免系统的单点故障

HBase

构建在HDFS上的分布式、面向列的分布式数据库系统

Hive

Hadoop之上的数据仓库,对外提供类SQL的HQL语言来操作结构化数据

Spark

融合内存计算的可扩展的数据分析平台

Storm

流式数据处理系统,面向低延迟的实时数据处理

Kafka

分布式消息缓存队列,用于分布式流式数据采集场景

Pig

一种操作hadoop的轻量级脚本语言,用来快速轻松的处理巨大的数据

Oozie

作业流调度系统,可对大数据作业进行调度

Mahout

大数据平台机器学习算法库,包含回归、分类、聚类、推荐、降维等多种算法

R

数据分析与挖掘常用分析语言

Solr

分布式海量数据搜索引擎,实现大数据的批量索引

1.3 大数据实训课程体系

提供业界最新的大数据课程讲义与实验指导。课件及指导教材依据曙光大数据技术在公安、军工、金融、医疗、广电、电信领域内的成功经验和对职场大数据紧缺人才应具备的技能深入调研,设计和编制面向高职大数据专业课程体系,展现行业内最新的大数据技术以及应用,培养大数据专业人才,促进学员融入职场和高新就业。

课程设置采用模块化、定制化的方式,可根据实际情况对课程内容、课程时长以及实验内容灵活的进行修改和调整。

1.3.1 高职特色大数据课程规划

针对高职特色人才培养目标,主要面向大数据运维工程师、大数据售中售后技术支持工程师、大数据采集处理与分析工程师岗位要求,训练学生的动手能力和问题解决能力:

表 课程信息

课程分类

课程名称

课程内容

知识点

实验

推荐教材

专业基础课

Java基础

Java面向对象

变量、条件结构、循环、数组

Java核心技术(卷1):基础知识(原书第9版)

Java面向对象

封装、继承、多态、接口、抽象类与方法

Java基础开发

语言核心包、异常处理、常用工具包、集合框架、多线程、IO输入输出流、Java反射机制、Java泛型

linux基础

Linux基础知识

Linux简介与安装部署,熟悉图形化界面、Linux基础命令用户和权限管理、软件包安装

鸟哥的Linux私房菜 (基础学习篇 第三版)

Linux管理

磁盘管理,日志管理,进程管理,服务管理,任务计划、ssh远程管理,rsync远程同步,selinux、常见故障排除、基本网络配置

Linux Shell编程

Shell的作用及分类、Bash的常用功能、设置和使用Shell变量、编写Shell脚本、条件测试的应用、使用if条件语句、for、while循环语句、for、while循环语句、函数使用

Hadoop

基础

大数据概论

大数据时代宏观背景、大数据行业应用介绍、认识Hadoop、Hadoop架构和组件、Hadoop生态系统、Hadoop经典落地案例、Hadoop安装和部署

Hadoop实战手册;

HDFS实践

HDFS特性和目标、HDFS核心设计、HDFS体系结构、HDFS中数据流的读写、HDFS的HA机制、HDFS的Federation机制、文件压缩、文件序列化

MapReduce

实战

MapReduce编程模型、WordCount编程实例、MapReduce架构、MapReduce类型与格式、剖析MapReduce作业运行机制、shuffle和排序、任务执行与作业调度、MapReduce基础开发

Zookeeper

应用

安装、运行ZooKeeper、ZooKeeper实例、Zookeeper选举机制、Zookeeper服务、使用ZooKeeper构建应用

Yarn实践

YARN产生背景、YARN原来与架构、YARN基本操作

专业主干课

大数据

采集

sqoop实战

Sqoop介绍、安装部署Sqoop、Sqoop使用流程、Sqoop实战案例

构建高可用、可扩展的海量日志采集系统

Flume实战

Flume介绍、安装部署Flume、Flume使用流程、Flume实战案例

kafka实战

Kafka介绍、安装部署Kafka、kafka使用流程、kafka实战案例

大数据

存储

Hive实战

Hive基本概念、Hive数据类型和文件编码、HiveQL:数据定义与数据操作、HiveQL:查询、视图和索引、Hive内置函数和UDF

Hive编程指南;HBase权威指南

HBase实战

HBase原理架构、HBase命令操作 、HBase编程实战

大数据

计算

Spark实战

Spark简介、生态系统、Spark架构、Spark集群安装与部署、Spark开发环境配置、Spark应用案例编程

Spark大数据处理:技术、应用与性能优化;

Storm分布式实时计算模式

Storm实战

实时流计算Storm、核心组件、Storm特性、Storm应用于什么场景、使用Storm、核心概念和数据流模型、Storm使用综合案例

大数据

扩展学习

其他组件

Solr实战、ES实战、SQL on Hadoop 学习


Hadoop管理与运维

规划Hadoop分布式集群、管理Hadoop集群、Hive调优、HBase调优、Yarn 调优、Spark调优

大数据可视化

数据可视化实战

数据可视化软件介绍,数据可视化实战、大数据Web可视化开发


综合案例实践课

大数据

项目实战

海量日志采集分析

以日志采集、分析、处理为应用场景,直接来源于实际项目


用户画像分析

以行为日志构建用户画像为应用场景

用户微博关系数据分析

以微博关系数据分析作为应用场景

曙光实战案例实验手册

用户行为数据分析

以用户查询日志建模、推荐为应用场景


搜索引擎日志分析

以搜索引擎日志分析为应用场景


流式数据采集与分析

以流式数据实时采集、分析、入库为应用场景


1.3.2 高职特色大数据实验规划

1.3.2.1 安装部署实验

提供以下13个安装部署实验:

1.Hadoo安装部署

2.HBase安装部署

3.Hive安装部署

4.Spark安装部署

5.Zookeeper安装部署

6.Storm安装部署

7.Kafka安装部署

8.Flume安装部署

9.Solr安装部署

10.Mahout安装部署

11.Sqoop安装部署

12.Hue安装部署

13.Oozie安装部署

1.3.2.2 运维调优实验

提供以下8个高级运维和调优实验:

1.HDFS高级运维与调优

2.MapReduce高级运维与调优

3.Yarn高级运维与调优

4.HBase高级运维与调优

5.Hive高级运维与调优

6.Spark高级运维与调优

7.Storm高级运维与调优

8.Kafka高级运维与调优

1.3.2.3 程序设计实验

提供以下18个程序设计实验:

1.Linux基本操作和常用命令

2.Shell基础编程

3.HDFS基本操作使用

4.MapReduce初级编程实战

5.MapReduce高级编程实战

6.Hbase管理与使用

7.Hive数据处理与分析

8.Spark编程实战

9.Zookeeper编程实战

10.Sqoop基本操作

11.数据可视化工具实践

12.HDFS基本操作(python实现)

13.mapreduce初级编程(python实现)

14.mapreduce高级编程(python实现)

15.Hbase基本操作(python实现)

16.hive基本操作(python实现)

17.Spark编程入门-pyspark原理与简单编程(python实现)

18.Spark编程进阶-pyspark结合numpy,scipy,matplotlib以及panadas等实现数据描述性探索分析,数据统计分析(python实现)

1.3.2.4 算法建模实验(可选)

提供以下5种算法实战实验:

1.SparkMLlib推荐系统实现

2.Spark MLlib分类模型实现

3.Spark MLlib回归模型实现

4.Spark MLlib聚类模型实现

5.基于决策树的森林植被预测

上一条:锐捷实训平台简介