大数据知识体系

目录

大数据概述
大数据特征
大数据技术栈
大数据架构
大数据处理流程
大数据应用场景
大数据发展趋势

大数据概述

提示

大数据（Big Data）是指无法用传统数据处理工具进行捕获、管理和处理的数据集合。这些数据具有海量、高速、多样化的特点，需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力。

大数据特征

5V 特征

Volume（体量）：数据量巨大，从 TB 级别跃升到 PB、EB 级别
Velocity（速度）：数据产生和处理速度快，需要实时或准实时处理
Variety（多样性）：数据类型多样，包括结构化、半结构化、非结构化数据
Value（价值）：数据价值密度低，但商业价值高
Veracity（真实性）：数据的准确性和可信度

大数据的核心作用

从海量的高增长,多类别,低信息密度的数据中挖掘出高质量的结果

大数据的核心工作

数据存储,数据计算,数据传输;

大数据技术栈

数据采集层

日志采集：Flume、Logstash、Filebeat
数据库采集：Sqoop、DataX、Canal
消息队列：Kafka、RabbitMQ、RocketMQ
API 接口：RESTful API、GraphQL

数据存储层

分布式文件系统：HDFS、GFS
NoSQL 数据库：
- 键值存储：Redis、Memcached
- 文档存储：MongoDB、CouchDB
- 列族存储：HBase、Cassandra
- 图数据库：Neo4j、ArangoDB
数据仓库：Hive、ClickHouse、Greenplum
数据湖：Delta Lake、Iceberg、Hudi

数据处理层

批处理：MapReduce、Spark、Flink
流处理：Storm、Spark Streaming、Flink
机器学习：TensorFlow、PyTorch、Scikit-learn
图计算：Pregel、GraphX、Giraph

数据服务层

数据可视化：Tableau、Power BI、Grafana
报表系统：Superset、Metabase
API 服务：RESTful API、GraphQL
搜索引擎：Elasticsearch、Solr

大数据架构

Lambda 架构

Lambda 架构是一种大数据处理架构，包含三个层次：

批处理层：处理历史数据，保证数据准确性
速度层：处理实时数据，保证数据时效性
服务层：合并批处理和速度层的结果

Kappa 架构

Kappa 架构是 Lambda 架构的简化版本，只使用流处理系统处理所有数据。

数据湖架构

原始数据层：存储原始数据
清洗数据层：存储清洗后的数据
应用数据层：存储面向应用的数据
服务层：提供数据服务

大数据处理流程

数据采集

数据源识别：确定数据来源和类型
采集策略制定：制定数据采集方案
数据采集实施：使用相应工具进行数据采集
数据质量检查：确保采集数据的质量

数据存储

存储方案设计：根据数据特点选择存储方案
数据分区策略：制定数据分区策略
数据压缩：对数据进行压缩存储
数据备份：制定数据备份策略

数据处理

数据清洗：去除脏数据、重复数据
数据转换：将数据转换为所需格式
数据聚合：对数据进行聚合计算
数据挖掘：发现数据中的模式和规律

数据应用

数据可视化：将数据以图表形式展示
报表生成：生成各类报表
决策支持：为业务决策提供数据支持
智能应用：开发基于数据的智能应用