中国经济网贵阳8月30日讯(记者宋雅静)“面对超维数据激增、跨领域应用需求扩大及AI深度融合的趋势,统计学是破解数据难题、保障AI决策科学性的核心支撑。”2025数博会上,清华大学教授陈松蹊接受中国经济网记者采访时,结合自身在大气环境、医疗健康等领域的研究实践,阐述了统计学的创新应用与协同路径。
清华大学教授陈松蹊。中国经济网宋雅静/摄
超维数据处理:突破关联与多模态挑战
谈及超维大数据的处理难点,陈松蹊指出,自 2000 年人类基因组计划推动超高维数据研究以来,统计学已解决独立超维数据的信号识别、稀疏性分析等问题。但当前数据分布、异质性愈发复杂,新挑战集中在两方面:一是数据存在时空相关性,比如大气观测数据并非完全独立,传统处理方法不再适用;二是多模态混合数据增多,数据来源涉及多个“母体”,难以用单一模型适配。
“以大气科学为例,一公里分辨率的地球系统数据维度可达几千万,即便有每小时的观测数据,样本量仍远低于维度。” 陈松蹊提到,针对关联数据、多模态数据的处理,仍是当前统计学的前沿探索方向。
跨领域应用:统计学方法可跨场景迁移
在探讨环境统计方法向医疗、金融领域迁移的可能性时,陈松蹊强调 “数据共性” 是关键纽带。
他分享研究发现:北方地区沙尘暴溯源需通过密集空气质量监测站数据追踪传播路径,癫痫发作检测需依托脑电图数据判断状态,二者均需高维数据的异常识别与动态追踪,统计学中的信号提取、方差分析等方法可有效适配。
“传统方差分析从农业领域起步,如今已用于医疗效果评估、互联网企业营销策略优化。” 陈松蹊表示,只要核心问题是 “数据特征提取、异常识别、相关性分析”,统计学方法调整参数后,就能为医疗诊断、金融风险预警提供支撑,即便不同领域数据有特性差异(如海洋数据比大气数据更稳定、观测难度更高),也不影响方法迁移。
互补共生:统计学填补AI“不确定性”短板
针对“统计学与 AI 协同发展”的话题,陈松蹊提出“互补共生”的观点。他认为,AI模型(如卷积神经网络)虽有强大的表示能力,但存在不确定性难度量、可解释性不足的问题;而统计学的核心优势在于“量化误差、给出不确定性边界”,能为AI决策提供科学支撑。
“并非所有问题都需要大模型。” 陈松蹊建议,模型训练应优先尝试简单统计模型,若能以低算力、少数据解决问题,无需盲目追求复杂 AI 模型;若场景需要AI模型,也需用统计学方法度量其误差范围、置信区间,确保决策可信。目前,清华大学统计数据科学系已将“人工智能的统计学基础”列为核心研究方向,重点探索 AI 模型的不确定性度量方法。
此外,陈松蹊透露,本次数博会重点关注两大议题:一是数据分析人才培养,去年成立的清华统计与数据科学系正推进相关本科专业与数据分析师专硕项目建设,以填补人才缺口;二是隐私计算,他将在贵州财经大学的论坛中,深入探讨如何在差分隐私框架下平衡数据隐私保护与统计推断准确性。
(责任编辑:王炬鹏)
【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com