Linux 运维实战手册
Linux 运维实战手册 面向运维工程师的实战参考手册,涵盖监控、日志、备份、自动化、安全加固、高可用、性能调优、故障排查、信创系统等核心运维领域。与 Linux-使用手册.md 互补,侧重运维场景与操作实践。 目录 第一章:运维体系概述 第二章:监控体系建设 第三章:日志管理 第四章:备份与灾难恢复 第五章:自动化运维 第六章:安全加固 第七章:性能调优 第八章:高可用与负载均衡 第九章:网络诊断与排错 第十章:故障排查实战 第十一章:容器化运维 第十二章:信创系统运维 第十三章:应急响应 第十四章:运维脚本工具集 第十五章:运维最佳实践 第一章:运维体系概述 1.1 运维核心职责 领域 职责 关键指标 监控 7×24 系统状态感知 MTTR, MTTD 变更管理 可控的系统变更流程 变更成功率 容量规划 资源趋势分析与扩容 资源利用率 故障处理 快速定位与恢复 SLA, RTO, RPO 安全合规 系统加固与审计 漏洞修复时效 自动化 减少人工操作 自动化覆盖率 1.2 运维 SLA 指标 可用性 = (总时间 - 故障时间) / 总时间 × 100% 99% = 87.6 小时/年 (两个9) 99.9% = 8.76 小时/年 (三个9) 99.99% = 52.56 分钟/年 (四个9) 99.999% = 5.26 分钟/年 (五个9) RTO (Recovery Time Objective): 业务恢复时间目标 RPO (Recovery Point Objective): 数据丢失时间目标 ...