科学院院士,大数据分析与应用技术工程实验室主任,中心主任张平文教授表示,天气预报是将大数据与物理过程模型耦合的典型问题。北京大学计算科学与工程系。张教授是北京大学和科学院大气物理研究所合作研究的通讯作者。
一般来说,天气预报在地球科学中是一项很大程度上成功的实践,而且现在,它与数值天气预报(NWP)密不可分。但是,由于NWP和观测的输出包含不同的系统误差,“天气咨询”是进一步提高预报准确性的过程中不可或缺的一部分。
“事实上,理论驱动的物理模型和数据驱动的机器学习是互补的工具。结合这两种方法,可以建立智能天气咨询系统,以协助当前的人工过程进行天气咨询,”张教授说。“与此相关的挑战之一是为两种类型的信息构建适当的特征工程,以充分利用数据。”
为了解决这些问题,张教授和他的团队提出了模拟天气咨询的“ 模型输出机器学习”(MOML)方法,该研究最近发表在大气科学进展中。
MOML是一种基于机器学习的后处理方法,它通过回归函数将NWP预测与观测结果进行匹配。为了测试电网温度预报的新方法,采用了北京地区2米的地面气温。将具有不同特征工程的MOML方法与ECMWF模型预测和修改的模型输出统计(MOS)方法进行比较。MOML表现出比ECMWF模型和MOS更好的数值性能,尤其是冬季; 使用MOML时的准确度分别提高了27.91%和15.52%。
气象咨询数据是独特的,主要包括NWP模型数据和观测数据中包含的信息。它们具有不同的数据结构和功能,这使得特征工程成为一项复杂的任务。特征工程的质量直接影响最终结果。张的小组在广泛的数值实验之后提出了几个特征工程方案。这些方案确保了计算效率,并首次应用于气象研究。张教授指出,MOML方法允许观测数据直接参与计算,并使用数据的高频和低频信息使预测结果更准确。本研究中提出的MOML方法可用于预测即将到来的2022年冬季奥运会期间的天气,希望提供更准确的,
机器学习和深度学习为大数据时代的天气预报提供了多种工具,但在实际应用中也存在许多挑战。
“将天气预报数据和耦合模型纳入混合计算框架,探索和研究观测和NWP数据的结构和特征,并提出适用于天气预报的数据驱动机器学习算法,是未来的重要研究方向,”Prof张总结道。