大数据知识体系
目录
大数据概述
提示
大数据(Big Data)是指无法用传统数据处理工具进行捕获、管理和处理的数据集合。这些数据具有海量、高速、多样化的特点,需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力。
大数据特征
5V 特征
- Volume(体量):数据量巨大,从 TB 级别跃升到 PB、EB 级别
- Velocity(速度):数据产生和处理速度快,需要实时或准实时处理
- Variety(多样性):数据类型多样,包括结构化、半结构化、非结构化数据
- Value(价值):数据价值密度低,但商业价值高
- Veracity(真实性):数据的准确性和可信度
大数据的核心作用
从海量的高增长,多类别,低信息密度的数据中挖掘出高质量的结果
大数据的核心工作
数据存储,数据计算,数据传输;
大数据技术栈
数据采集层
- 日志采集:Flume、Logstash、Filebeat
- 数据库采集:Sqoop、DataX、Canal
- 消息队列:Kafka、RabbitMQ、RocketMQ
- API 接口:RESTful API、GraphQL
数据存储层
- 分布式文件系统:HDFS、GFS
- NoSQL 数据库:
- 键值存储:Redis、Memcached
- 文档存储:MongoDB、CouchDB
- 列族存储:HBase、Cassandra
- 图数据库:Neo4j、ArangoDB
- 数据仓库:Hive、ClickHouse、Greenplum
- 数据湖:Delta Lake、Iceberg、Hudi
数据处理层
- 批处理:MapReduce、Spark、Flink
- 流处理:Storm、Spark Streaming、Flink
- 机器学习:TensorFlow、PyTorch、Scikit-learn
- 图计算:Pregel、GraphX、Giraph
数据服务层
- 数据可视化:Tableau、Power BI、Grafana
- 报表系统:Superset、Metabase
- API 服务:RESTful API、GraphQL
- 搜索引擎:Elasticsearch、Solr
大数据架构
Lambda 架构
Lambda 架构是一种大数据处理架构,包含三个层次:
- 批处理层:处理历史数据,保证数据准确性
- 速度层:处理实时数据,保证数据时效性
- 服务层:合并批处理和速度层的结果
Kappa 架构
Kappa 架构是 Lambda 架构的简化版本,只使用流处理系统处理所有数据。
数据湖架构
- 原始数据层:存储原始数据
- 清洗数据层:存储清洗后的数据
- 应用数据层:存储面向应用的数据
- 服务层:提供数据服务
大数据处理流程
数据采集
- 数据源识别:确定数据来源和类型
- 采集策略制定:制定数据采集方案
- 数据采集实施:使用相应工具进行数据采集
- 数据质量检查:确保采集数据的质量
数据存储
- 存储方案设计:根据数据特点选择存储方案
- 数据分区策略:制定数据分区策略
- 数据压缩:对数据进行压缩存储
- 数据备份:制定数据备份策略
数据处理
- 数据清洗:去除脏数据、重复数据
- 数据转换:将数据转换为所需格式
- 数据聚合:对数据进行聚合计算
- 数据挖掘:发现数据中的模式和规律
数据应用
- 数据可视化:将数据以图表形式展示
- 报表生成:生成各类报表
- 决策支持:为业务决策提供数据支持
- 智能应用:开发基于数据的智能应用
