现代农业科学学院 现代农业科学学院

水生所联合研发基于大数据挖掘和深度学习的有害藻类水华预警系统

  • 转自:中国科学院水生生物研究所公众号
  • 日期:2024-03-22
  • 1536

近日,中国科学院水生生物研究所毕永红团队联合德国卡尔斯鲁厄工学院(KIT)研发出基于大数据挖掘和深度学习的有害藻类水华预警系统。相关论文以封面文章形式发表在环境科学领域权威期刊Environmental Science & Technology

该研究致力于创建高时间分辨率的水柱垂向维度有害藻华(HABs)早期预警系统,内容包括创建大数据平台、采集高时空分辨率的水生态环境大数据、开发自主学习并能跨时间点聚类捕获Chl a动态的先进聚类算法、设计专门处理复杂多变量时间序列的预测模型等。具体工作以太湖为研究水域,构建高频垂直剖面监测系统(VAMS)进行水生态大数据采集,基于大数据开发了具有深度学习功能的Bloomformer-2模型,通过“DeepDPM-光谱聚类”和Bloomformer-2模型优化建模策略,智能识别水柱分层并进行不同水深藻类生物量的精确预测,将预测结果与世界卫生组织的“警戒级别框架”有机结合,构建了有害藻类水华的预警系统。该系统不仅能及时预测有害藻华的发生,还能识别出藻华的主要驱动因子,提高了藻华的预测能力以及预测模型的环境适应性,为藻华预警及其防控提供了新的解决方案。

所开发的Bloomformer-2具有时空多头自注意力(MHSA)机制,该机制使用了时间和空间自注意力层的“查询”(query)、“关键词”(key)和“值”(value)输出,有效综合了时间和空间维度;通过优化该机制,可更好进行多变量时间序列预测(TSF)中的上下文学习。通过这种时空多头自注意力机制,充分识别和提取各种水生态环境参数间的时空相互关系,用于Chl a的精确预测。不同于传统方法,该模型为特定时间框架内的每个变量设置了独特的上下文优先级;利用基于Transformer的编码器-解码器架构,处理由历史和目标数据生成的双时空序列,整个过程包括并行双序列输入、时空嵌入、时空注意力和效率优化。为了阐明Bloomformer-2性能稳健性,本研究使用了LSTM(long short-term memory)作为比较模型。为了帮助识别和优化模型,使其在短期和长期预测中都能提供准确预测结果,本研究进行了单步预测和多步预测,从而更全面地评估模型在不同时间尺度上的表现和适用性,为不同预测需求提供支持。

该研究证明了预测模型在单步和多步预测中的优越性,能准确识别藻华动态的主要驱动因素,为提前采取预防措施提供了依据。此外,该系统利用大数据的5Vs特性,显著提高了数据采集的体积、速度、多样性以及分析数据的价值,大幅增强了早期预警系统的性能可靠性。未来,将通过扩大VAMS监测网络和增加传感器进一步提升系统的大数据容量和应用范围,使其更广泛地应用于HABs监测和预警中。

图  Bloomformer-2模型的单步预测(A)和多步预测(B)结果及其与LSTM预测结果的比较

德国KIT与水生所联合培养博士生钱儆为论文第一作者,论文通讯作者为水生所毕永红。