大数据应用实验室建设方案

产品背景近年来,数据正变得越来越有价值,随着数据应用越来越广泛,世界各地的政府、银行、电信公司、互联网以及电子商务等相关机构,都在使用大数据相关技术。大数据技术已经给新兴互联网企业(如电子商务网站、搜索引擎、社交网站、商务广告营销等)、银行金融企业、高端装备制造企业等带来了巨大的商业机遇,大数据在整个企业的价值增值链中发挥着至关重要的决定性作用。大数据时代的到来,一方面为(传统)企业带来了巨大的机


产品背景

近年来,数据正变得越来越有价值,随着数据应用越来越广泛,世界各地的政府、银行、电信公司、互联网以及电子商务等相关机构,都在使用大数据相关技术。大数据技术已经给新兴互联网企业(如电子商务网站、搜索引擎、社交网站、商务广告营销等)、银行金融企业、高端装备制造企业等带来了巨大的商业机遇,大数据在整个企业的价值增值链中发挥着至关重要的决定性作用。大数据时代的到来,一方面为(传统)企业带来了巨大的机遇,推动企业的转型升级和科学决策分析;另一方面由于大数据技术来自于互联网公司,属于近几年的新兴技术,目前大部分高校缺乏大数据技术专业人才和平台建设经验,然而企业所需的大数据技术人才不足也对企业实施大数据发展战略也带来了较大的挑战。

2013年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。2014年以来,随着从大数据相关行业的增多,我国从事大数据工作的人数又创下新高。在大数据快速发展到新的高度,并且在大数据运用相当广泛这样的大趋势下,对大数据技术的学习也变得不可忽视。 随着移动客户端用户数量的剧增,人们产生的数据也是越来越多。同时,来自大数据技术的漏洞也紧随其后,所以,来自内部和外部的攻击与日俱增,但通常都要数月之后才能发现,那些受到这些攻击影响的人正在为此付出沉痛的代价。所以在这样既用大数据来处理问题,又用大数据来防止大数据所带来的问题的时代,大数据已经在我们的生活中变得越来越重要。

Apache Hadoop是最流行的大数据处理技术之一,已被许多组织应用于生产系统之中,其生态系统中的其它组件,诸如Hive、HBase、ZooKeeper等也被大量的应用。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

  • 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

  • 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

  • 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

  • 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

  • 低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

大数据实验平台的优势

真机实验训练

实验室各模块相对独立,交互式的实验任务、实验指导、项目上机操作,教学视频、考试评分、数据监控等,保障学生灵活、快速的掌握大数据核心技术及项目开发能力。

完善的课程体系

十年 IT 培训经验的沉淀,研发出行业领先的大数据课程体系,根据不同学历设置了本科、高职、职业三大方向,满足不同高校大数据教学及实训需求。

典型大数据项目案例

提供 10 大行业典型应用案例的数据包和视频包,以及配套实验手册,边学边练通过实际项目上机演练,多方位学习及训练,做到学生与企业需求无缝衔接,真正解决大数据人才缺口问题。

交互式学习模式

提供完善课程体系、在线学习系统,以大数据课程学习、在线视频、习题、线上测试、线上实验为主线,典型案例贯穿知识点的学习模式,确保学生掌握大数据项目技能。

充分支撑科研工作

整合了数据采集、质量监控、数据集市、数仓建模、数据视图等,提供行业数据及案例用于基础研究,科研人员通过该系统方便对行业数据进行统计分析,按需求生成可视化数据报表。

企业级硬件配置

基于业界最先进的硬件平台,采用企业级融合架构,具备高效融合、安全稳定、性能卓越、敏捷易用等特点。

产品架构

大数据框架图.png

设计要点

  • 界面化的Hadoop部署工具。采用开源的openstack虚拟化平台。

  • hadoop基于Apache Hadoop二次开发,增进了易用性,同时增加了ResourceManager高可用功能,可提供大于2台的ResourceManager, 保证YARN框架的7*24不间断工作。

  • 集成了Hadoop生态圈的大部分生态应用,Accumulo,HBase,Hive,Pig,Storm,Kafka,Sqoop,Flume等. 已预编译为rpm、deb方式, 支持CentOS, RedHat 5/6, ubuntu等Linux操作系统。

  • 提供管理界面, 可通过管理节点以界面化的方式快速部署和管理Hadoop集群, 并提供监控功能, 监测每台节点的运行状况。


部分实验截图

1517820944288638.png

1517820944129373.png




 服务热线:0510-85386543