大数据算法模型的开发训练步骤

⒈大数据开发这么学习第一阶段:Hadoop生态架构技术
1.语言基础
Java:只需了解并练习Java虚拟机内存管理、多线程、线程池、设计模式和并行化。 这需要深度学习。
Linux:熟悉系统安装、基本命令、网络配置、Vim编辑器、进程管理、shell脚本、虚拟机菜单等。
Python:基本语法、数据结构、函数、条件判断、循环等基础知识。
2.准备环境
本节介绍如何在Windows计算机上构建一主两从的完全分布式系统。
我们将提供VMware虚拟机、Linux系统(Centos6.5)、Hadoop安装包、Hadoop全分布式集群环境。
3.MapReduce
MapReduce分布式离线计算框架是Hadoop的核心编程模型。
4.HDFS1.0/2.0
HDFS提供高吞吐量的数据访问,适合大数据集的应用。
5.Yarn(Hadoop2.0)
Yarn是一个资源调度平台,主要负责为任务分配资源。
6.Hive
Hive是一个数据仓库,所有数据都存储在HDFS中。 Hive的主要用途是编写Hql。
7.Spark
Spark是一个快速、多功能的计算引擎,专为大规模数据处理而设计。
8.SparkStreaming
SparkStreaming是一个实时处理框架,对数据进行批量处理。
9.SparkHive
Spark作为Hive的计算引擎,将Hive查询作为Spark任务发送到Spark集群进行计算。 这提高了Hive查询性能。
10.Storm
Storm对每一条添加的数据进行实时处理,保证数据处理的及时性。
11.Zookeeper
Zookeeper是许多大数据框架的基础,也是集群的管理器。
12.Hbase
Hbase是一个Nosql数据库,是一个可靠的、面向列的、可扩展的分布式数据库。
13.Kafka
Kafka是一个消息中间件,充当中间缓冲层。
14.Flume
Flume通常用于从应用程序生成的日志文件中收集数据。 通常有两个过程。
首先,Flume收集数据并将其存储在Kafka中,以便于Storm和SparkStreaming的实时处理。
另一个过程是将Flume收集的数据保存到HDFS,以便以后使用Hadoop或Spark进行离线处理。
第二阶段:数据挖掘算法
1.中文分词
开源分词库的离线和在线应用
2.文本关联算法
3.基于CB、CF、正则化技术、Mahout应用。
4.分类算法
NB、SVM
5.LR、决策树
6.层次聚类、Kmeans/>7.神经网络和深度学习
NN、Tensorflow

⒉华为大数据开发项目流程?

大数据开发阶段:


第一阶段:需求:数据输入输出;


>

第二步:数据量、处理效率、可靠性、可维护性、简单性;


第三步:数据建模


第四步:设计架构:数据如何到达,输出如何显示,最重要的是处理传出数据的架构;


第5步:重新思考大数据系统与企业IT系统之间的交互;


第6步:最终确定选择,规范等;


第七步:根据数据建模编写基础服务代码;


第八步:正式编写第一个模块


第九步:实现其他模块并完成测试和调试;


第10步:测试和验收;


大数据处理:


从流程上来看,整个大数据处理可以分为4个主要阶段。


第一步是数据的收集和存储;


第二步就是通过数据分析技术进行探索性的数据研究,包括剔除不相关的数据,即数据清洗、寻找数据中的模式,探索数据的价值;


<第三步,根据底层数据分析,选择并开发数据分析算法,对数据进行建模。 从数据中提取有价值的洞察,其实才是阿里云真正的大数据学习过程。 这会涉及到很多算法和技术,比如机器学习算法;


最后一步是模型的部署和应用,即搜索到的应用生产环境中的数据模型。


1)数据采集:自定义开发采集程序或使用开源flume架



2)数据预处理:定制开发MapReduce程序运行在Hadoop集群上


3)数据仓库技术:基于Hadoop的Hive


4)数据导出:基于Hadoop的sqoop数据导入导出工具


5)数据可视化:定制开发网页程序或使用kettle等产品