数据库自动驾驶与可观测性
创始人
2026-01-26 12:35:05
0

有一次我和一个分布式数据库厂商的内核研发人员谈到他们的产品的可观测性方面存在不足。他的观点是,分布式数据库太复杂了,不能按照运维Oracle那样去运维它。他们搞数据库内核的人的目标是让数据库完全自治,数据库内部的自愈机制会自动发挥作用,无需运维人员介入分析。因为他们的产品太复杂了,运维人员对于大多数复杂一些的故障是束手无策的。

他的观点在某个角度上看是有道理的,分布式数据库的复杂度太高了,依靠运维监控发现问题,想要快速定位问题是比较困难的。最近一些大系统发生故障后,恢复的时间都相当长,也从侧面说明了这个问题。据说某金融系统故障,仅仅定位一个看似并不复杂的问题,花了近2个小时。对于金融机构要求的1-5-10,一分钟发现,五分钟定位,十分钟恢复,简直就是云泥之别。在这些业务场景中,依靠运维是不靠谱的,依靠数据库的健壮性才能彻底解决问题。

但是又有哪个数据库是100%可靠的呢?数据库内核开发人员水平再高,也不可能考虑到成千上万的用户场景,也不可能在设计中能够针对任意场景都游刃有余,数百人的研发队伍里也不可能不写出一个BUG。在一些国产分布式数据库的大型运营故障中,大多数分为两类,一类是产品对的BUG,另外一类是一些非预期的负载行为引发了某个资源不足。

实际上无论你数据库产品的复杂度如何,技术水平如何,想要用好还是离不开可观测性的。希望数据库运行不依赖于运维,而通过数据库内核来提供保障,这个理想是不错的,但是现在很难做到,未来也不见得能够真正实现。数据库自治能力与可观测性其实不是对立的两极,数据库自制能力也高度依赖数据库的可观测性。数据库内核想要实现高度自治,自己感知数据库内核的问题,也必须要依赖于自身的可观测性。

在不断提升数据库自治能力的同时,通过提升数据库的可观测性,让运维人员可以随时感知数据库内核中存在的隐患,既可以针对数据库的缺陷做提前的优化,又可以在系统故障时更快速地定位问题。这条Oracle以前走得不错的路子,现今依然有参考价值。

相关内容

最新资讯

湖北教师编制,大冶城区学校招聘 01 2026年大冶市中小学公费师范生专项招聘公告 为贯彻实施“人才强市”战略,进一步吸引优秀人才从...
「AI新世代」印奇掌舵阶跃星辰... 本报(chinatimes.net.cn)记者石飞月 北京报道 继2024年执掌千里科技后,印奇再挑...
俄专家称特朗普炫新型武器“纯属... 新华社莫斯科1月26日电 针对美国总统特朗普近日接受美国媒体采访时披露美军在对委内瑞拉军事行动中使用...
makefile基础与实战编译... 引言:构建系统作为软件工程的效率引擎 在现代软件工业化生产的浪潮中,Makefile已从简单的编译工...
福耀科技大学校长王树国回应“5... 日前,“福耀科技大学大一50名学生已被企业抢光”的消息引发众多关注。1月22日,福耀科技大学校长王树...
负责应对所谓中国威胁的美专员被... 据路透社和美国《华尔街日报》23日报道,特朗普政府已决定,将美国商务部负责应对所谓“中国技术威胁”的...
nTopology参数化隐式建... 本软件是关于nTopology参数化隐式建模软件V5.38.3版,大小:1.4 GB,支持Win64...
如何在Linux上轻松使用Wi... 随着Windows 10正式停止支持,越来越多的用户开始寻求替代方案,Linux作为一种开源操作系统...