5、 根据MapReduce产生数据的应用系统分类,大数据的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。 2、数据存取:大数据的存去采用不同的技术路线,大致可以分为3类。 第1类主要面对的是大规模的结构化数据。 第2类主要面对的是半结构化和非结构化数据。
4、 数据收集:从互联网上收集大量数据,如网站流量数据、搜索数据、社交媒体数据等。 数据存储:存储大量数据,并对其进行管理和维护。 数据处理:对数据进行清洗、整理、标准化和特征提取,以便进行分析。
2、 简单来说,从大数据的生命周期来看,无外乎四个方面:大数据采集、大数据预处理、大数据存储、大数据分析,共同组成了大数据生命周期里最核心的技术,下面分开来说:一、大数据采集 大数据采集,即对各种来源的结构化和非结构化海量数据,所进行的采集。
1、 大数据的类型大致可分为三类:传统企业数据、机器和传感器数据、社交数据。 1、传统企业数据(Traditional enterprise data):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。
上一篇:大数据一般包括什么
下一篇:大数据要以什么为标准