DukeDuke
主页
文档转换
关于我们
主页
文档转换
关于我们
  • 大数据简介
  • Hadoop 数据存储
  • Flume 数据采集
  • Sqoop 数据导入导出
  • Hive 数据仓库
  • Spark 数据处理
  • Flink 数据处理
  • Kafka 数据采集
  • HBase 数据存储
  • Elasticsearch 搜索引擎

大数据知识体系

目录

  • 大数据概述
  • 大数据特征
  • 大数据技术栈
  • 大数据架构
  • 大数据处理流程
  • 大数据应用场景
  • 大数据发展趋势

大数据概述

提示

大数据(Big Data)是指无法用传统数据处理工具进行捕获、管理和处理的数据集合。这些数据具有海量、高速、多样化的特点,需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力。

大数据特征

5V 特征

  1. Volume(体量):数据量巨大,从 TB 级别跃升到 PB、EB 级别
  2. Velocity(速度):数据产生和处理速度快,需要实时或准实时处理
  3. Variety(多样性):数据类型多样,包括结构化、半结构化、非结构化数据
  4. Value(价值):数据价值密度低,但商业价值高
  5. Veracity(真实性):数据的准确性和可信度

大数据的核心作用

从海量的高增长,多类别,低信息密度的数据中挖掘出高质量的结果

大数据的核心工作

数据存储,数据计算,数据传输;

大数据技术栈

数据采集层

  • 日志采集:Flume、Logstash、Filebeat
  • 数据库采集:Sqoop、DataX、Canal
  • 消息队列:Kafka、RabbitMQ、RocketMQ
  • API 接口:RESTful API、GraphQL

数据存储层

  • 分布式文件系统:HDFS、GFS
  • NoSQL 数据库:
    • 键值存储:Redis、Memcached
    • 文档存储:MongoDB、CouchDB
    • 列族存储:HBase、Cassandra
    • 图数据库:Neo4j、ArangoDB
  • 数据仓库:Hive、ClickHouse、Greenplum
  • 数据湖:Delta Lake、Iceberg、Hudi

数据处理层

  • 批处理:MapReduce、Spark、Flink
  • 流处理:Storm、Spark Streaming、Flink
  • 机器学习:TensorFlow、PyTorch、Scikit-learn
  • 图计算:Pregel、GraphX、Giraph

数据服务层

  • 数据可视化:Tableau、Power BI、Grafana
  • 报表系统:Superset、Metabase
  • API 服务:RESTful API、GraphQL
  • 搜索引擎:Elasticsearch、Solr

大数据架构

Lambda 架构

Lambda 架构是一种大数据处理架构,包含三个层次:

  • 批处理层:处理历史数据,保证数据准确性
  • 速度层:处理实时数据,保证数据时效性
  • 服务层:合并批处理和速度层的结果

Kappa 架构

Kappa 架构是 Lambda 架构的简化版本,只使用流处理系统处理所有数据。

数据湖架构

  • 原始数据层:存储原始数据
  • 清洗数据层:存储清洗后的数据
  • 应用数据层:存储面向应用的数据
  • 服务层:提供数据服务

大数据处理流程

数据采集

  1. 数据源识别:确定数据来源和类型
  2. 采集策略制定:制定数据采集方案
  3. 数据采集实施:使用相应工具进行数据采集
  4. 数据质量检查:确保采集数据的质量

数据存储

  1. 存储方案设计:根据数据特点选择存储方案
  2. 数据分区策略:制定数据分区策略
  3. 数据压缩:对数据进行压缩存储
  4. 数据备份:制定数据备份策略

数据处理

  1. 数据清洗:去除脏数据、重复数据
  2. 数据转换:将数据转换为所需格式
  3. 数据聚合:对数据进行聚合计算
  4. 数据挖掘:发现数据中的模式和规律

数据应用

  1. 数据可视化:将数据以图表形式展示
  2. 报表生成:生成各类报表
  3. 决策支持:为业务决策提供数据支持
  4. 智能应用:开发基于数据的智能应用
最近更新:: 2026/4/17 13:21
Contributors: Duke
Next
Hadoop 数据存储