大数据算法模型的开发训练步骤

⒈大数据开发这么学习第一阶段：Hadoop生态架构技术
1.语言基础
Java：只需了解并练习Java虚拟机内存管理、多线程、线程池、设计模式和并行化。这需要深度学习。
Linux：熟悉系统安装、基本命令、网络配置、Vim编辑器、进程管理、shell脚本、虚拟机菜单等。
Python：基本语法、数据结构、函数、条件判断、循环等基础知识。
2.准备环境
本节介绍如何在Windows计算机上构建一主两从的完全分布式系统。
我们将提供VMware虚拟机、Linux系统（Centos6.5）、Hadoop安装包、Hadoop全分布式集群环境。
3.MapReduce
MapReduce分布式离线计算框架是Hadoop的核心编程模型。
4.HDFS1.0/2.0
HDFS提供高吞吐量的数据访问，适合大数据集的应用。
5.Yarn（Hadoop2.0）
Yarn是一个资源调度平台，主要负责为任务分配资源。
6.Hive
Hive是一个数据仓库，所有数据都存储在HDFS中。 Hive的主要用途是编写Hql。
7.Spark
Spark是一个快速、多功能的计算引擎，专为大规模数据处理而设计。
8.SparkStreaming
SparkStreaming是一个实时处理框架，对数据进行批量处理。
9.SparkHive
Spark作为Hive的计算引擎，将Hive查询作为Spark任务发送到Spark集群进行计算。这提高了Hive查询性能。
10.Storm
Storm对每一条添加的数据进行实时处理，保证数据处理的及时性。
11.Zookeeper
Zookeeper是许多大数据框架的基础，也是集群的管理器。
12.Hbase
Hbase是一个Nosql数据库，是一个可靠的、面向列的、可扩展的分布式数据库。
13.Kafka
Kafka是一个消息中间件，充当中间缓冲层。
14.Flume
Flume通常用于从应用程序生成的日志文件中收集数据。通常有两个过程。
首先，Flume收集数据并将其存储在Kafka中，以便于Storm和SparkStreaming的实时处理。
另一个过程是将Flume收集的数据保存到HDFS，以便以后使用Hadoop或Spark进行离线处理。
第二阶段：数据挖掘算法
1.中文分词
开源分词库的离线和在线应用
2.文本关联算法
3．基于CB、CF、正则化技术、Mahout应用。
4.分类算法
NB、SVM
5.LR、决策树
6.层次聚类、Kmeans/>7．神经网络和深度学习
NN、Tensorflow

⒉华为大数据开发项目流程？

大数据开发阶段：

第一阶段：需求：数据输入输出；

第二步：数据量、处理效率、可靠性、可维护性、简单性；

第三步：数据建模

第四步：设计架构：数据如何到达，输出如何显示，最重要的是处理传出数据的架构；

第5步：重新思考大数据系统与企业IT系统之间的交互；

第6步：最终确定选择，规范等；

第七步：根据数据建模编写基础服务代码；

第八步：正式编写第一个模块

第九步：实现其他模块并完成测试和调试；

第10步：测试和验收；

大数据处理：

从流程上来看，整个大数据处理可以分为4个主要阶段。

第一步是数据的收集和存储；

第二步就是通过数据分析技术进行探索性的数据研究，包括剔除不相关的数据，即数据清洗、寻找数据中的模式，探索数据的价值；

<第三步，根据底层数据分析，选择并开发数据分析算法，对数据进行建模。从数据中提取有价值的洞察，其实才是阿里云真正的大数据学习过程。这会涉及到很多算法和技术，比如机器学习算法；

最后一步是模型的部署和应用，即搜索到的应用生产环境中的数据模型。

1）数据采集：自定义开发采集程序或使用开源flume架

2）数据预处理：定制开发MapReduce程序运行在Hadoop集群上

3）数据仓库技术：基于Hadoop的Hive

4)数据导出：基于Hadoop的sqoop数据导入导出工具

5)数据可视化：定制开发网页程序或使用kettle等产品

大数据算法模型的开发训练步骤

相关文章