在证券公司干核心系统运维,是一种怎样的体验?
如果系统运行稳定,那么就是相安无事、平静如水。
可一旦系统出现异常,瞬间便如疾风骤雨。运维人必须快、准、稳,在高压之下迅速定位问题、恢复系统运行。
总结言之:十年苦干无人识,一朝异常天下知。
运维新挑战
随着金融行业数字化转型深入推进,核心系统运维所面临的挑战愈加复杂。
数据孤岛:监控、日志、链路数据分散,缺乏统一分析平台。
信创转型:数据库、操作系统、中间件国产化替换带来兼容性与性能挑战。
高可用要求:监管对RTO/RPO提出明确要求,业务中断容忍度极低。
智能运维处于起步阶段:大模型等AI技术尚未系统化应用于运维分析、预测与决策。
行业普遍呼唤从“被动救火”转向“主动预防”、从“经验驱动”升级为“数据驱动”的新型运维体系。
券商先进实践
在恒生近日举办的“智驭未来·金融核心系统运维沙龙”上,浙商证券、山西证券分享了他们的实践经验,与多家券商共同探讨运维体系建设重点。
浙商证券:构建一体化运维监控体系,实现运维数据驱动
浙商证券核心系统运维负责人李晓奇分享,浙商证券运维体系建设分为三个阶段:
第一阶段,各业务独立运维管理:依赖运维人员的个人技能和经验,建设不成体系。 第二阶段,工具模块化建设:分批建成ITSM、CMDB、自动化、集中监控、日志中心等基础平台。 第三阶段,一体化智能探索:通过统一告警平台实现告警收敛与智能分析,初步实现运维数据统一管理,推动故障自愈、容量预测、运营报告自动生成等场景落地。
同时,基于恒生天鉴4.0平台,实现从业务逻辑、应用服务、数据库、操作系统、超融合虚拟化到基础设施的六大层级全覆盖监控,突破网上交易组件、交易所网关等传统盲区。
流程驱动的资源管理:通过ITSM流程驱动CMDB自动更新,实现资源全生命周期可管可控。
智能告警收敛:利用CMDB拓扑与告警关联分析,大幅减少冗余告警,提升故障识别效率。
故障根因定位:通过APM链路追踪与日志联动,实现业务耗时分析、异常节点快速定位。
山西证券:OTC3.0信创升级中的运维体系重构
山西证券核心系统运维负责人张爱萍分享,山西证券信创转型路径这样的:
标准先行:制定自主的架构和接口标准,确保核心技术路线可控。 融合创新:将信创改造融合于架构演进,在平台演进过程中同步完成信创改造。 平滑演进:局部迭代,接口一致,最大程度保障平台稳定性和业务延续性。
在核心系统升级改造中,重构运维体系:
基于天鉴4.0,实现统一监控运维:通过恒生天鉴4.0实现多数据中心、多技术栈的统一监控,覆盖率达100%。
基于恒生JRES平台,实现全流程优化:山西证券、恒生、华为三方联合团队基于恒生JRES平台,融合鲲鹏原生开发技术,实现从开发-构建-测试-发布-运行的全流程优化。
基于全栈信创环境测试调优,满足性能要求:基于鲲鹏920+麒麟V10 sp2+高斯(9.30)+毕昇JDK的全栈信创环境,系统性能压力测试结果非常理想。
助力行业运维能力升级
恒生基于天鉴4.0系统,结合大模型技术能力,助力券商核心系统运维能力升级,涵盖故障预防、发现、定位、恢复与改进全生命周期。
天鉴4.0:一体化智能运维平台
全栈监控能力:支持5000+指标采集,覆盖微服务、LDP、UF3.0等多类架构。
统一日志与链路:通过标准日志规范与TraceID串联,实现跨系统请求追踪与精准定位。
应急指挥平台:集成预案管理、演练执行、自动化处置等功能,支持一键切换、扩容、回滚。
混沌工程平台:提供500+故障场景库,支持IaaS至SaaS层故障注入,验证系统韧性。
大模型赋能运维智能化
恒生积极探索大模型在运维中的落地应用,目前已形成三类典型场景:
运维开发助手:基于LLM生成采集命令、告警阈值、日志解析脚本,降低脚本开发门槛。
故障分析助手:通过多模态数据融合+知识图谱推理,实现根因定位与处置建议推荐。
运营报告助手:依托RAG技术,自动生成多维度运维报告,支持定时发送与深度分析。
规范与平台并重,构建运维闭环
恒生强调“工具+规范”双轮驱动,助力券商实现运维流程标准化、组织协同化、应急体系化,真正实现故障分钟级发现、定位与恢复,显著提升系统可靠性与运维效率。
券商核心系统运维伴随着信创建设与系统升级不断进化。
通过构建统一监控体系、推动运维左移、积极引入AI技术,行业运维模式逐步实现从被动响应到主动预防、从孤立运维到协同运营的跨越。
恒生将持续与券商深化合作,将天鉴4.0平台与大模型能力深度融合,助力行业构建更加安全、稳定、高效的智能运维体系,为数字化转型提供坚实支撑。