DukeDuke
主页
项目文档
技术文档
  • 单机版
  • 微服务
  • 代办项目
  • 优鲜项目
项目管理
关于我们
主页
项目文档
技术文档
  • 单机版
  • 微服务
  • 代办项目
  • 优鲜项目
项目管理
关于我们
  • 技术文档

    • 网络原理

      • 交换机
      • 路由器
      • TCP/IP协议
      • HTTP 与 HTTPS
    • 软件架构

      • 什么是软件架构
      • 分层架构
      • 微服务架构
      • 事件驱动架构
      • 领域驱动设计(DDD)
      • 架构图
      • 高并发系统
    • Vue3

      • Vue3简介
      • Vue3响应式系统
      • Vue3组合式API
      • Vue3生命周期
      • Vue3模板语法
      • Vue3组件系统
      • Vue3 路由系统
      • Vue3 状态管理
      • Vue3 性能优化
      • Vue3 TypeScript 支持
      • Vue3 项目实战
      • VUE 面试题大全
      • Node.js 安装
    • JAVA

      • JVM

        • 认识JVM
        • JVM类加载器
        • 运行时数据区
        • 执行引擎
        • 本地方法接口
        • 本地方法库
        • JVM垃圾回收
        • JVM性能监控
        • JVM调优
      • 设计模式
        • 单例模式
        • 工厂模式
        • 策略模式
        • 适配器模式
        • 建造者模式
        • 原型模式
        • 装饰器模式
        • 代理模式
        • 外观模式
        • 享元模式
        • 组合模式
        • 桥接模式
      • Java多线程

        • Java 线程基础详解
        • Java 线程池详解
        • Java ThreadLocal 详解
        • Java volatile 详解
        • Java 线程间通信详解
        • Java 线程安全详解
        • Java 线程调度详解
        • Java 线程优先级详解

        • Java 线程中断详解
        • Java 线程死锁详解
      • Java反射
      • Java 面试题

        • Java 基础概念面试题
        • Java 面向对象编程面试题
        • Java 集合框架面试题
        • Java 多线程与并发面试题
        • JVM 与内存管理面试题
        • Java I/O 与 NIO 面试题
        • Java 异常处理面试题
        • Java 反射与注解面试题
        • Java Spring 框架面试题
        • Java 数据库与 JDBC 面试题
        • Java 性能优化面试题
        • Java 实际项目经验面试题
        • Java 高级特性面试题
        • Java 面试准备建议
    • Python

      • Python简介
      • Python安装
      • Python hello world
      • Python基础语法
      • Python数据类型
      • Python数字
      • Python字符串
      • Python列表
      • Python元组
      • Python字典
      • Python日期时间
      • Python文件操作
      • Python异常处理
      • Python函数
      • Python类
      • Python模块
      • Python包
      • Python多线程
      • Python面向对象
      • Python爬虫
      • Django web框架
      • Python 面试题

        • Python 面试题导航
        • Python 基础概念
        • Python 面向对象编程
        • Python 数据结构
        • Python 高级特性
        • Python 框架
        • Python 性能优化
        • Python 项目经验
    • Spring

      • Spring
      • Springboot
      • Spring Security 安全框架
      • SpringBoot 中的事件详解
      • SpringBoot 中的定时任务详解
      • SpringBoot 自动装配原理与源码解释
    • Mybatis

      • Mybatis
      • Mybatis-Plus
    • 数据库

      • Redis

        • Redis简介
        • Redis(单机)安装
        • Redis配置
        • Redis数据结构
        • RDB、AOF 和混合持久化机制
        • Redis内存管理
        • Redis缓存一致性
        • Redis缓存穿透
        • Redis缓存击穿
        • Redis缓存雪崩
        • Redis Lua脚本
        • Redis主从复制
        • Redis哨兵模式
        • Redis集群
        • Redis数据分片
        • Redis CPU使用率过高
        • Redis面试题
      • MySQL

        • MySQL简介
        • MySQL安装
        • MySQL配置
        • MYSQL日常维护
        • MYSQL优化-慢查询
        • MYSQL优化-索引
        • MYSQL数据库设计规范
    • 消息队列

      • RocketMQ
      • Kafka
      • RabbitMQ
      • 消息队列面试题
    • 微服务

      • SpringCloud 微服务
      • Eureka 注册中心
      • Nacos 注册中心
      • Gateway 网关
      • Feign 服务调用
      • Sentinel 限流 与 熔断
      • Seata 分布式事务
      • CAP 理论
      • Redis 分布式锁
      • 高并发系统设计
    • ELK日志分析系统

      • Elasticsearch 搜索引擎
      • Logstash 数据处理
      • Kibana 可视化
      • ELK 实战
    • 开放API

      • 开放API设计
      • 开放API示例项目
    • 人工智能

      • 人工智能简介
      • 机器学习

      • 深度学习

      • 自然语言处理

      • 计算机视觉

        • CUDA与cuDNN详细安装
        • Conda 安装
        • Pytorch 深度学习框架
        • yolo 目标检测
        • TensorRT 深度学习推理优化引擎
        • TensorFlow 机器学习
        • CVAT 图像标注
        • Windows 下安装 CUDA、cuDNN、TensorRT、TensorRT-YOLO 环境
        • Windows10+CUDA+cuDNN+TensorRT+TensorRT-YOLO 部署高性能YOLO11推理
    • 大数据

      • 大数据简介
      • Hadoop 数据存储
      • Flume 数据采集
      • Sqoop 数据导入导出
      • Hive 数据仓库
      • Spark 数据处理
      • Flink 数据处理
      • Kafka 数据采集
      • HBase 数据存储
      • Elasticsearch 搜索引擎
    • 图像处理

      • 图像处理简介
      • 医学图像web呈现
      • 医学图像处理
      • 切片细胞分离问题
    • 服务器&运维

      • Linux 系统

        • Linux 系统管理
        • Linux 网络管理
        • Linux 文件管理
        • Linux 命令大全
      • Nginx Web 服务器

        • Nginx 安装 与 配置
        • Nginx 负载均衡
        • Nginx SSL证书配置
        • Nginx Keepalived 高可用
      • Docker 容器

        • Docker 简介
        • Docker 安装与配置
        • Docker 命令
        • Docker 部署 Nginx
        • Docker 部署 MySQL
        • Docker 部署 Redis
      • 服务器

        • 塔式服务器
        • 机架式服务器
        • 刀片服务器
      • Git 版本控制
      • Jenkins 持续集成
      • Jmeter 性能测试
      • Let's Encrypt 免费SSL证书
    • 简历

      • 项目经理简历
      • 开发工程师简历

大数据知识体系

目录

  • 大数据概述
  • 大数据特征
  • 大数据技术栈
  • 大数据架构
  • 大数据处理流程
  • 大数据应用场景
  • 大数据发展趋势

大数据概述

提示

大数据(Big Data)是指无法用传统数据处理工具进行捕获、管理和处理的数据集合。这些数据具有海量、高速、多样化的特点,需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力。

大数据特征

5V 特征

  1. Volume(体量):数据量巨大,从 TB 级别跃升到 PB、EB 级别
  2. Velocity(速度):数据产生和处理速度快,需要实时或准实时处理
  3. Variety(多样性):数据类型多样,包括结构化、半结构化、非结构化数据
  4. Value(价值):数据价值密度低,但商业价值高
  5. Veracity(真实性):数据的准确性和可信度

大数据的核心作用

从海量的高增长,多类别,低信息密度的数据中挖掘出高质量的结果

大数据的核心工作

数据存储,数据计算,数据传输;

大数据技术栈

数据采集层

  • 日志采集:Flume、Logstash、Filebeat
  • 数据库采集:Sqoop、DataX、Canal
  • 消息队列:Kafka、RabbitMQ、RocketMQ
  • API 接口:RESTful API、GraphQL

数据存储层

  • 分布式文件系统:HDFS、GFS
  • NoSQL 数据库:
    • 键值存储:Redis、Memcached
    • 文档存储:MongoDB、CouchDB
    • 列族存储:HBase、Cassandra
    • 图数据库:Neo4j、ArangoDB
  • 数据仓库:Hive、ClickHouse、Greenplum
  • 数据湖:Delta Lake、Iceberg、Hudi

数据处理层

  • 批处理:MapReduce、Spark、Flink
  • 流处理:Storm、Spark Streaming、Flink
  • 机器学习:TensorFlow、PyTorch、Scikit-learn
  • 图计算:Pregel、GraphX、Giraph

数据服务层

  • 数据可视化:Tableau、Power BI、Grafana
  • 报表系统:Superset、Metabase
  • API 服务:RESTful API、GraphQL
  • 搜索引擎:Elasticsearch、Solr

大数据架构

Lambda 架构

Lambda 架构是一种大数据处理架构,包含三个层次:

  • 批处理层:处理历史数据,保证数据准确性
  • 速度层:处理实时数据,保证数据时效性
  • 服务层:合并批处理和速度层的结果

Kappa 架构

Kappa 架构是 Lambda 架构的简化版本,只使用流处理系统处理所有数据。

数据湖架构

  • 原始数据层:存储原始数据
  • 清洗数据层:存储清洗后的数据
  • 应用数据层:存储面向应用的数据
  • 服务层:提供数据服务

大数据处理流程

数据采集

  1. 数据源识别:确定数据来源和类型
  2. 采集策略制定:制定数据采集方案
  3. 数据采集实施:使用相应工具进行数据采集
  4. 数据质量检查:确保采集数据的质量

数据存储

  1. 存储方案设计:根据数据特点选择存储方案
  2. 数据分区策略:制定数据分区策略
  3. 数据压缩:对数据进行压缩存储
  4. 数据备份:制定数据备份策略

数据处理

  1. 数据清洗:去除脏数据、重复数据
  2. 数据转换:将数据转换为所需格式
  3. 数据聚合:对数据进行聚合计算
  4. 数据挖掘:发现数据中的模式和规律

数据应用

  1. 数据可视化:将数据以图表形式展示
  2. 报表生成:生成各类报表
  3. 决策支持:为业务决策提供数据支持
  4. 智能应用:开发基于数据的智能应用
最近更新:: 2025/10/11 10:54
Contributors: Duke
Next
Hadoop 数据存储