调试与故障排除

引用文件

本文引用的文件

简介

本指南面向 yudao-cloud 项目的开发与运维人员，聚焦“调试与故障排除”。内容涵盖：

开发调试技巧：IDE 断点设置、变量监控、调用栈分析
日志分析方法：日志级别配置、关键日志定位、异常堆栈分析
性能分析工具：Arthas 火焰图、线程分析、JProfiler/VisualVM 的使用场景
常见问题诊断流程：启动失败、连接超时、内存溢出等
监控指标解读：CPU、内存、数据库连接数、消息队列积压
生产应急处理与预防措施

项目结构

yudao-cloud 采用微服务/单体混合架构，核心由网关与多个业务模块组成，统一通过 Nacos 注册与配置中心、Kafka 消息队列、Redis 缓存、MySQL/TDengine 存储构成。

Mermaid Diagram Code:

graph TB
subgraph "前端"
UI["Web/App 用户"]
end
subgraph "网关层"
GW["yudao-gateway 网关"]
end
subgraph "服务层"
SYS["yudao-system 系统服务"]
INF["yudao-infra 基础设施服务"]
DEV["yudao-device 设备服务"]
LCH["yudao-launcher 运营服务"]
BLK["yudao-blacklist 黑名单服务"]
TSK["yudao-task 任务/OTA服务"]
RUL["yudao-rule 规则引擎"]
end
subgraph "中间件"
NAC["Nacos 注册/配置中心"]
RED["Redis 缓存"]
KAF["Kafka 消息队列"]
TDE["TDengine 时序库"]
MY["MySQL 业务库"]
end
UI --> GW
GW --> SYS
GW --> INF
GW --> DEV
GW --> LCH
GW --> BLK
GW --> TSK
GW --> RUL
SYS -.-> NAC
INF -.-> NAC
DEV -.-> TDE
TSK -.-> TDE
BLK -.-> KAF
GW -.-> RED
DEV -.-> MY
TSK -.-> MY

图表来源

README.md

章节来源

README.md

核心组件

网关与灰度发布：基于 Spring Cloud Gateway 的灰度负载均衡与过滤器链
全局异常处理：Web 层统一异常捕获与提示
日志与监控：API 访问日志、操作日志、Druid 监控、Prometheus 服务发现
配置与数据源：Nacos 配置中心、多数据源（MySQL/TDengine）、Kafka 主题
性能分析：Arthas 火焰图、线程分析、Actuator 指标

章节来源

架构总览

系统通过网关统一入口，后端服务按业务域拆分，结合 Nacos、Redis、Kafka、MySQL/TDengine 构建可观测、可扩展的微服务体系。

Mermaid Diagram Code:

sequenceDiagram
participant Client as "客户端"
participant GW as "yudao-gateway"
participant LB as "灰度负载均衡"
participant Svc as "业务服务"
participant DB as "MySQL/TDengine"
Client->>GW : 发起请求
GW->>LB : 选择服务实例(基于版本头)
LB-->>GW : 返回目标实例
GW->>Svc : 转发请求
Svc->>DB : 读写数据
DB-->>Svc : 返回结果
Svc-->>GW : 响应
GW-->>Client : 返回响应

图表来源

章节来源

README.md

详细组件分析

网关灰度发布机制

版本匹配：从请求头提取版本号，筛选 Nacos 元数据中相同版本的服务实例
权重选择：在匹配实例中按权重随机选择
回退策略：无匹配或无版本头时回退到全部实例

Mermaid Diagram Code:

flowchart TD
Start(["请求进入"]) --> CheckHeader["检查请求头是否存在 version"]
CheckHeader --> |存在| FilterByVer["筛选 metadata.version 等于请求版本的实例"]
CheckHeader --> |不存在| Fallback["回退到所有可用实例"]
FilterByVer --> HasInst{"是否有匹配实例?"}
HasInst --> |是| WeightPick["按权重随机选择实例"]
HasInst --> |否| Fallback
WeightPick --> End(["转发请求"])
Fallback --> End

图表来源

yudao-gateway/src/main/java/cn/iocoder/yudao/gateway/filter/grey/GrayLoadBalancer.java

章节来源

全局异常处理

Web 层统一捕获异常，对未开启模块给出明确提示
引导用户参考文档，避免误以为接口缺失

Mermaid Diagram Code:

sequenceDiagram
participant User as "用户/前端"
participant Handler as "GlobalExceptionHandler"
participant Logger as "Slf4j Logger"
User->>Handler : 发起请求 (访问未开启模块)
Handler->>Handler : 捕获异常 (Check Message)
alt 模块未开启
Handler->>Logger : 记录错误日志
Handler-->>User : 返回通用错误(未实现)
else 其他异常
Handler-->>User : 返回标准错误
end

图表来源

yudao-framework/yudao-spring-boot-starter-web/src/main/java/cn/iocoder/yudao/framework/web/core/handler/GlobalExceptionHandler.java

章节来源

yudao-framework/yudao-spring-boot-starter-web/src/main/java/cn/iocoder/yudao/framework/web/core/handler/GlobalExceptionHandler.java

Prometheus 服务发现

通过 Actuator 暴露服务发现接口，Prometheus 抓取各服务实例
便于统一采集指标，构建监控大盘

Mermaid Diagram Code:

sequenceDiagram
participant Prom as "Prometheus Server"
participant Ctrl as "PrometheusController"
participant Disc as "DiscoveryClient"
Prom->>Ctrl : GET /actuator/prometheus/sd
Ctrl->>Disc : 获取所有服务与实例
Disc-->>Ctrl : 返回服务列表与主机 : 端口
Ctrl-->>Prom : 返回 Prometheus 兼容 Target 列表

图表来源

yudao-module-infra/yudao-module-infra-biz/src/main/java/cn/iocoder/yudao/module/infra/controller/prometheus/PrometheusController.java

章节来源

yudao-module-infra/yudao-module-infra-biz/src/main/java/cn/iocoder/yudao/module/infra/controller/prometheus/PrometheusController.java

日志与监控体系

操作日志：记录用户关键业务操作，便于审计与复盘
API 访问日志：记录请求/响应、耗时、结果码，支持导出与检索
Druid 监控：数据库连接池、慢 SQL、防火墙等
监控中心：Redis/Mysql/Kafka/ES/Nacos/XXL-Job/Grafana/Docker 等集成

Mermaid Diagram Code:

erDiagram
OPERATE_LOG {
string traceId
long userId
integer userType
string type
string subType
long bizId
string action
string extra
}
API_ACCESS_LOG {
long id
string traceId
long userId
integer userType
string applicationName
string requestMethod
string requestUrl
string requestParams
string responseBody
timestamp beginTime
integer duration
integer resultCode
}

图表来源

章节来源

依赖分析

配置加载顺序：公共配置 → 数据源 → 环境配置 → 应用级 Nacos 配置
多数据源：MySQL（业务库）、TDengine（时序/日志）、Kafka（消息队列）
Actuator 暴露端点：统一开放所有端点，便于监控采集

Mermaid Diagram Code:

graph LR
AC["application-common.yaml"] --> DS["datasource.yaml"]
AC --> KC["Kafka 主题配置"]
AC --> MC["监控/日志级别"]
DS --> MYSQL["MySQL 业务库"]
DS --> TDE["TDengine 时序库"]
KC --> KAF["Kafka 消息队列"]

图表来源

章节来源

性能考虑

Arthas 火焰图：CPU/内存采样、线程热点定位
JProfiler/VisualVM：堆分析、GC、线程、CPU 使用率
灰度发布：基于版本头的流量分流，降低风险
监控指标：Actuator 指标 + Prometheus + Grafana

章节来源

arthas/readme.md

故障排除指南

一、开发调试技巧

IDE 断点设置
- 在网关过滤器与业务控制器关键节点设置断点，观察请求头（如版本头）与实例选择逻辑
- 在全局异常处理器处设置断点，捕获未开启模块的异常分支
变量监控
- 观察请求头、Nacos 元数据、实例权重、返回的目标实例
- 在异常处理器中查看异常消息与日志级别
调用栈分析
- 结合灰度负载均衡与过滤器链，定位请求转发路径与异常抛出位置

章节来源

二、日志分析方法

日志级别配置
- 在公共配置中设置日志级别，如 Web 层、安全过滤器、Kafka 消费器等
关键日志定位
- API 访问日志：按应用名、请求方法、URL、耗时、结果码检索
- 错误日志：按异常名、异常时间、处理状态检索，查看堆栈详情
异常堆栈分析
- 使用全局异常处理器捕获的异常进行分类处理，结合 Trace ID 关联访问日志与错误日志

章节来源

三、性能分析工具使用

Arthas 火焰图
- CPU/内存采样、线程热点、Top 线程查看
- 常用命令：dashboard、profiler start/stop、thread -n 10
JProfiler/VisualVM
- 堆分析、GC、线程、CPU 使用率
- 适用于生产环境远程 attach（需配合安全策略）

章节来源

arthas/readme.md

四、常见问题诊断流程

1) 启动失败

检查环境依赖：JDK 17+、MySQL 8.0+、Redis 5.0+、Nacos 2.x、TDengine、Kafka
查看网关 Banner 与模块日志，确认注册中心连通性
核对配置加载顺序与命名空间

章节来源

2) 连接超时

数据库连接池：检查 Druid 连接池配置（初始/最小/最大连接数、等待超时、空闲检测）
Kafka：检查消费者组、主题是否存在、反序列化配置
Redis：确认连接参数与密码

章节来源

3) 内存溢出

使用 Arthas 查看堆与 GC 情况，定位大对象与泄漏点
结合线程分析，排查死锁、长时间阻塞线程
优化缓存策略与连接池参数

章节来源

arthas/readme.md

4) 灰度流量异常

检查请求头版本号是否正确传递
核对 Nacos 元数据中版本标签与权重配置
回退到全部实例验证是否为版本筛选问题

章节来源

yudao-gateway/src/main/java/cn/iocoder/yudao/gateway/filter/grey/GrayLoadBalancer.java

五、监控指标解读

CPU 使用率：结合 Arthas 火焰图定位热点方法
内存占用：关注堆外内存、DirectBuffer、线程数
数据库连接数：监控连接池活跃/空闲/等待/超时
消息队列积压：Kafka 消费 lag、主题分区偏移量

章节来源

六、生产应急处理流程与预防措施

应急流程
- 快速降级：关闭高风险接口或切换到降级方案
- 灰度回滚：移除版本头或回退到稳定版本
- 限流熔断：临时收紧限流阈值，保护下游
- 日志与告警：结合 API 访问日志与错误日志定位根因
预防措施
- 健康检查与就绪探针
- 配置热更新与灰度发布
- 周期性压测与容量规划
- 完善监控与告警策略

章节来源

结论

本指南围绕 yudao-cloud 的调试与故障排除，从开发调试、日志分析、性能工具、常见问题到监控指标与生产应急，形成闭环。建议团队在日常开发中：

规范日志级别与关键字段
使用 Arthas/VisualVM/JProfiler 进行性能画像
借助灰度发布与服务发现保障变更可控
建立完善的监控与告警体系，前置风险

附录

启动流程与端口参考：见项目快速开始与端口配置
配置加载顺序与命名空间：见 Nacos 配置与应用级配置
监控入口：Redis 监控、Druid 监控、Grafana、Nacos、XXL-Job

章节来源

目录​

简介​

项目结构​

核心组件​

架构总览​

详细组件分析​

网关灰度发布机制​

全局异常处理​

Prometheus 服务发现​

日志与监控体系​

依赖分析​

性能考虑​

故障排除指南​

一、开发调试技巧​

二、日志分析方法​

三、性能分析工具使用​

四、常见问题诊断流程​

1) 启动失败​

2) 连接超时​

3) 内存溢出​

4) 灰度流量异常​

五、监控指标解读​

六、生产应急处理流程与预防措施​

结论​

附录​

目录

简介

项目结构

核心组件

架构总览

详细组件分析

网关灰度发布机制

全局异常处理

Prometheus 服务发现

日志与监控体系

依赖分析

性能考虑

故障排除指南

一、开发调试技巧

二、日志分析方法

三、性能分析工具使用

四、常见问题诊断流程

1) 启动失败

2) 连接超时

3) 内存溢出

4) 灰度流量异常

五、监控指标解读

六、生产应急处理流程与预防措施

结论

附录