气象大数据与预报准确率
时间:2022-07-10 13:30:00
就数据本身而言,气象大数据是指与气象工作相关的所有数据的总和;气象大数据可分为工业大数据和互联网大数据。
气象产业大数据由与气象部门工作相关并从气象部门生成的所有数据组成,包括由气象部门建设的具有国内最高专业水平的气象探测系统生成的气象专业探测数据。其他部门通过数据共享/交换收集气象部门,通过气象部门严格质量控制的气象元素探测数据,由气象业务部门和业务系统生成的各种气象服务产品数据、衍生数据和中间产品数据、职能部门管理系统(如财务系统、人力资源系统、项目管理系统等)生成和管理的数据。)、各业务和管理系统的状态数据和日志数据等。
气象互联网大数据由互联网上所有与气象相关的数据组成,包括:移动终端配备的气象元素传感设备的检测数据、网民拍摄上传的天气状态照片、搜索引擎对气象相关敏感词的统计分析数据、所有其他互联网数据等。
气象行业大数据与气象互联网大数据存在较大差异,仅限于空间,难以在此进行详细分析。简而言之,气象行业大数据属于气象业务数据,其生成的直接目标是服务于气象业务和工作,因此其气象信息浓度高,各种技术指标也最符合气象业务和工作的要求。气象互联网大数据不是专门为气象工作而生成的。它来自其他非气象部门的行业和企业,以满足这些行业和企业自身的业务目标。这些数据被纳入气象互联网大数据的范围,因为它们包含与特定气象应用相关的信息内容,而气象行业缺乏大数据;即,这些数据从互联网上收集来弥补气象行业大数据在内容和空间密度方面的不足;因此,气象信息的浓度和数据质量不均匀,技术指标往往不令人满意。
气象行业大数据 | 气象互联网大数据 | |
数据来源 | 部门内部 | 互联网,众筹 |
要素内容 | 专业、全面 | 简单 |
时空密度 | 专业,均匀 | 不均匀,极密或极疏 |
要素精准度 | 精准 | 参差不齐 |
传感器载体 | 专业检测设备 | 移动终端、家用电器、交通工具、非气象监测设备等 |
获取代价 | 国家财政 | 免费 |
体量 | 大,可预测 | 未来是巨大的,未来是未知的 |
表1、气象行业/气象元素在互联网大数据中的差异
从内容上看,气象行业的大数据大致包括:气象观测原始数据、气象观测产品数据、气象业务产品数据、气象服务产品数据、业务日志数据、设备和系统状态数据、气象管理数据等。需要注意的是,目前对气象数据类别的定义只包括前四项,即:气象观测原始数据、气象观测产品数据、气象业务产品数据、气象服务产品数据。随后的业务日志数据、设备和系统状态数据、气象管理数据尚未正式纳入气象数据的定义范围。
从性质上看,气象行业的大数据属于气象业务数据的范畴,即每种数据都有其特定的使用目的、对象和数据形式,所有数据的初始目的是满足气象部门自身独特的数据需求。
从体量上看,虽然气象行业大数据勉强能跻身大数据行列(PB等级),但与互联网公司相比,至少有2~4个数量级之间的差距。以目前行业内现有的处理技术,完全可以满足气象行业大数据分析处理的及时性要求(数值预测除外)。因此,对于气象行业大数据
气象大数据和预测精度
将大数据的概念和方法数据的概念和方法,开展气象大数据工作,能否有效提高预测的准确性,是本文必须积极回答的第一个问题。
探讨大数据概念和方法
《大数据时代》一书的作者将大数据概念的本质概括为三点:不是随机样本,而是所有数据;不是准确性,而是混合性;不是因果关系,而是相关关系。深入研究,人们不可避免地质疑:首先,如果你能通过分析少量样本数据来获得事物的准确性(如适用于数学归纳法的数据集),是否有必要花费巨大的成本来收集和处理所有的数据?其次,如果能获得准确的数据或结论(如台风路径、登陆地点、暴雨地点),是否有必要故意追求混合不准确的数据或结论;第三,如果能理解和掌握因果关系(如人类活动与气候变暖的关系),是否应该放弃对因果关系的探索,只分析相关关系?
答案显然是否定的。
因此,我们不能复制大数据的概念和方法,否则可能会有违反基本常识的措施和结果。对于大数据的概念和方法,其合理的解释应该是:如果通过分析少量的样本数据无法获得事物的本质,人们将不得不花更多的成本来收集和处理所有的数据,以获得事物的真实本质。如果没有准确的数据或结论,人们将不得不接受那些不令人满意非常准确的数据或结论。如果你不能理解事物之间的因果关系,人们就会退而求其次,通过分析相关关系来理解事物。
因此,《大数据时代》作者定义的大数据方法不应该是故意的,而应该是最后的手段:当现有的观测数据不能满足业务需求,布置新的检测设备成本过高或无法布置时,只能找到其他替代数据,以弥补现有观测数据的一些不足。当无法做出准确的预测时,概率预测是第二种预测方法。当气候变化规律不能完全掌握时,气候统计预测方法是填补气候预测方法空白的可接受选择之一,等等。
观测数据和科学研究是气象学的主要支撑
在20世纪20年代和30年代,无线电通信技术引入了气象地面和高空观测信息通信,人们可以获得大量的大气三维观测数据。在此背景下,科学家根据流体力学、动力学/热力学定律等物理原理,通过对观测数据的深入分析,构建了气象学的基本框架,并在未来几年不断丰富和完善。因此,气象学是以观测数据为基础的,气象学家通过深入的科学分析和研究发现了内部机制,然后形成了相应的理论体系。随着数据的不断丰富,科学家们不断发现新的天气/气候变化内部科学机制,气象学可以成长和发展。如果没有气象科学家天才的优秀分析和研究成果,气象观测数据只是一堆天气现象的记录数据。因此,对于气象学科来说,观测数据/产品和科学分析研究是必不可少的。在科学家具备深刻的知识背景和敏锐的捕捉现象的综合分析和判断能力之前,这些科学家只有科学家才能进行综合分析。
气象业务的现代化水平最终体现在气象预报的准确性上,追求准确性和及时性。如果不掌握天气变化的内在规律(即所谓的因果关系),就很难满足及时准确预测的要求。地震前许多动物的行为举止往往异常,但动物举止异常却不见得预示着地震的即将发生。止步于天气现象与气象要素之间相关性的统计分析,不对其做进一步的机理分析研究,对气象学科而言,不是科学的态度。
统计分析是气象部门常用的方法
探究科学机理是十分艰难的。在尚未掌握科学机理的情况下,统计分析是常用的预报方法,如气候领域里的气候统计预测。这种通过对长时间序列气象观测资料进行统计分析,以历史上相似天气现象所发生的天气(或气候)变化的概率为依据,进行气候预测的方法,自气候学科发端之日起,便一直在采用,已达数十年之久。因此“大数据”所推崇的统计分析方法,气象部门早在数十年前便已悉数使用,并不陌生。
但这并不意味着气象部门在该领域的科学研究止步于此。事实上,目前基于动力框架的气候数值预报模式(尤其是集合预报模式等)等方法一直在积极地试验和尝试使用之中,目的就在于探索能够有效发现气候变化规律(即所谓因果关系)的路径和方法——虽然气候统计预测方法仍在使用之中。目前数值天气预报和数值气候预测中所大量采用的集合预报方法,就是“因果”与“相关”、机理与统计之间有机结合的一种尝试。
气象观测数据是所有数据中最重要的贡献者
从上述分析可得知,与一般大数据所使用的数据源不同,气象行业大数据中的气象观测数据及产品是专门为气象预报业务工作而采集的,其时空分布、数据质量及其它各种技术指标最符合气象业务的各项要求,气象业务所需信息的浓度也最高。比较而言,气象互联网大数据的气象信息密度不高,数据质量也难以保证,其它技术指标更是难以保证满足气象应用的需求。因此,从气象行业大数据中的气象观测数据和产品产生出来的统计分析结论以及学科科学机理的发现是具有权威性的。就预报准确率而言,气象观测数据/产品是所有数据中最重要的贡献者,气象互联网大数据是它的补充而绝非替代者。
大数据并非提高预报准确率的终南捷径
综上所述,气象预报对准确率永远的追求决定了,气象学科必须以探究并最终掌握大气运动的内在机理为工作目标。而大数据方法是在特定的、理想状态无法满足情况下的退而求其次的方法,即:在尚未完全掌握大气运动规律、无法通过理论推演和方程计算准确预报天气或气候的情况下,统计分析方法也许是一种补充完善的途径。在无法断定抽样分析所得结论的正确性时,分析全体数据也许是一种最终解决方案。在无法提供准确预报时,概率预报也是一种不错的选择。但是,如果通过努力有可能达到理想状态,人们便不应该盲目的生搬硬套大数据方法;因为对气象预报而言,因果关系的掌握远比相关关系的发现更为重要,后者是为前者提供线索而非取代前者的。同样,精确的分析和预报结论永远比模糊的分析和预报结论更加满足预报需求,收集和处理样本数据永远比收集和处理全体数据更为高效和节省资源。
所以,大数据理念和方法并非提高预报准确率的终南捷径。
当然,笔者并不否认大数据方法在客观预报产品解释应用方面对预报效果的改善有所帮助等正面作用,但这终究是辅助性、修饰性的,不是提高预报准确率的根本途径,且效果难以具体量化。
尤其需要强调的是,以在预报准确率方面赶上世界先进水平为目标的气象工作者,绝不能因拥有了大数据这种退而求其次的方法而放弃对掌握气象规律这一理想事业的追求。而且,这一追求的最终实现,只能靠观测数据和产品在时空密度和质量上的不断提高,以及科学家们辛勤的分析研究。由于就数据而言,对提高预报准确率贡献价值最高的仍然是气象观测数据及产品,因此研制出高质量、高时空密度的气象观测产品数据,便仍将是提高预报准确率以及气象科学研究最重要的基础性工作。至于科学研究工作,没有捷径可走,在这里“工匠精神”永远不会过时。
气象大数据的价值分析
上述分析并非意味着大数据在气象部门无所作为,而只是想说明,大数据并非包治百病的灵丹妙药,而是一个宏观上可在全社会产生巨大正面效益、但也存在一些效益不甚显著区域的、实实在在的思维理念和工作方法。说到底,气象部门之所以引进大数据理念和方法,并非为了大数据而大数据,而是为了解决实际工作中存在的问题。因此,气象大数据必须以业务和工作需求为引领。当业务或工作中出现的问题没有合适的数据信息,或者虽有数据但常规处理方法无助于问题的解决时,气象大数据也许是一种可以尝试的解决途径。通过“气象行业大数据”中的各类数据,在履行其各自的直接业务目标之外,使各类数据间彼此有机融合并协同分析,是能够发掘出新的数据价值、信息价值和知识价值,从而推动业务的发展和管理的进步,不断提高气象部门的工作品质的。气象部门内层级堆叠、工作效率不高的问题长期以来有目共睹,“智慧气象”中“精细的科学管理”,即可从打通部门藩篱、消除管理信息孤岛开始。通过管理信息的整合,优化管理流程,增强职能部门间的工作协同,提高管理效率。通过充分挖掘和发挥出管理信息应用的价值来提高管理工作效率,进而提高气象部门整体的工作效率,通过大幅提高工作效率来创造价值等等。
“气象行业大数据”产生自气象部门,是气象部门赖以运转的最主要资源,同时也是气象部门各项工作的记录载体,在所有数据资源中,它所含有的气象信息最浓;故其应用领域首先应在于气象部门业务工作的有效运转,其次才是社会服务。“气象行业大数据”潜在价值的挖掘和发挥,也应当以提高气象部门工作能力为首要目标。用好“气象行业大数据”,是开展气象大数据工作的重要内容和检验指标。
与此同时,“气象行业大数据”与“气象互联网大数据”之间的有效融合,有可能大幅提高气象观探测的时空密度。物联网技术的有效应用,可以使“气象行业大数据”中专业气象探测的时空分辨率变得富有弹性,以更加有效地应对各种业务需求和社会服务需求。此外,高时空分辨率的探测数据也可为气象科学家发现新的大气运动机理和客观规律提供前所未有的数据资源。
就应用对象及范围而言,“气象互联网大数据”中气象要素数据的产生是与搭载传感仪器的拥有者——人——密切相关的,其所沉积下来的信息中包含有珍贵的人类活动痕迹。凡人迹所至且移动通信可覆盖之地,均有可能成为“气象互联网大数据”的数据源。虽然其传感器搭载体的形式各异,探测环境也很不规范,但也正因为其搭载体拥有者是人,可放置或出入于各种人类活动场所,从餐厅到旷野、从巷道到影院、从居所到河畔,皆可随时对各种场所进行气象基本要素探测,这为气象服务的精细化、专业化和个性化提供了“气象行业大数据”所难以甚至无法提供的现场气象要素数据。此外,利用已广泛布设的非气象监测设备所采集的信息,通过分析得出所需要的气象要素,以弥补专业气象探测设备无法获得的探测信息,是一条值得深入探索的途径,GPS/MET的发掘和广泛应用就是一个典型的成功事例。可以预期,“气象互联网大数据”与“气象行业大数据”以及其它行业大数据之间的有效融合,可在气象社会服务领域开辟出空前繁荣的气象服务新局面。
总之,数据是为应用服务的,气象大数据必须将业务和工作做为最主要的引领。气象大数据战略的首要内容,不是数据的收集、数据源的拓展以及海量数据的管理技术,而是气象工作的持续创新。在技术创新、原理创新、概念创新和思想创新的氛围中,不断涌现出新的应用,根据新应用在信息和数据需求方面的特点,充分发掘现有数据资源的价值,同时有针对性地寻找并拓展新的数据资源,合理运用大数据有关技术,处理并提炼出新的有价值的信息,以推进创新的不断实现。与此同时,由于创新本身是不同概念之间的有机连接和融合,多角度的观察会增加概念连接的机会,大数据所固有的关联分析以及由此产生的相关事物的现象信息,对开拓概念连接的范围会有所帮助,对气象部门在新形势下的创新当有所裨益。于是,初始创新启动大数据应用,大数据应用促进新的创新——这应该是气象大数据战略的基本轮廓。
(本文节选自《再析气象大数据及其应用》作者沈文海,国家气象中心副总工程师)