当前位置:首页 > 大数据 > 正文

大数据专业知识认知报告


1、大数据主要学习什么知识?
分享大数据学习路线:
第一步JAVASE+MYSQL+JDBC

主要学习一些Java语言概念,比如字符、bai流控、面向对象、进程线程、枚举反射等,并学习MySQL数据库的安装、卸载及相关操作,学习JDBC的实现原理以及Linux的基础知识是大数据入门的第一阶段。

第二阶段是分布式理论介绍

主要讲解CAP理论、数据分布方法、一致性、2PC和3PC、大数据集成架构。 涉及到的知识点包括一致性、可用性、分区容错性、数据量分布、2PC过程、3PC过程、哈希方法、一致性哈希等。

第三步,数据存储和数据处理(off-线场景)

主要讲解协调服务ZK(1T)、数据存储hdfs(2T)、数据存储alluxio(1T)、数据采集fly、数据采集logstash、数据同步Sqoop(0.5T)、数据同步datax(0.5T)、数据同步mysql-binlog(1T)、数据模型MR和DAG(1T)、hive(5T)、Impala(1T)、任务调度Azkaban、任务调度airflow等。

第四部分是数据仓库建设

主要讲解数据仓库的历史背景、离线数据仓库项目-半沃汽车(5T)架构技术分析、多维数据模型处理kylin(3.5T)部署与安装、离线数据仓库项目-升级后半沃多维分析会添加auto、kylin;

第五步是分布式数据处理引擎

主要讲解数据处理引擎、scala语言、spark、数据存储hbase、redis、kudu以及实现Spark多维通过一个p2p平台项目进行数据源的读写。

第六步,数据存储和数据处理(实时场景)

主要讲解了数据通道Kafka、实时数仓druid、流式数据处理smart、SparkStreaming,并讲解了一些流量大数据所以你可以转移知识点,就会被理解。

第七阶段是数据搜索

主要讲解elasticsearch,包括全文搜索技术、ES安装操作、索引、索引创建、增删改查、索引、映射、过滤等。

第八阶段是数据管理

主要讲解数据标准、数据分类、数据建模、图存储与查询、元数据、血统与数据质量、HiveHook、SparkListener等。

第九步是BI系统

主要讲解了Superset和Graphna两大主要技术,包括基本介绍、安装、数据源创建、表操作、数据探索与分析。

第十步,数据挖掘

主要讲解机器学习的数学体系、SparkMlib机器学习算法库、Pythonscikit-learn机器学习算法库以及机器学习结合大数据项目。

对于大数据分析感兴趣的朋友,不妨先从阅读大数据分析书籍开始吧!B站上有很多很棒的电脑教程视频,从基础到高级。 知识点讲解得很详细,也有完整的学习路线图。 您也可以亲自查看、下载并尝试。