城市环境研究所构建水环境动态数据挖掘框架
发布时间:2022-06-13来源:徐耀阳研究组
水环境动态性是环境科学和生态学在水域生态系统的主要交叉研究主题之一。根据水域生态系统边界特征,水环境动态性关联机制包括外部和内部两个方面。一方面是,从环境科学角度看水环境动态性受到系统外部因素的驱动,例如流域内气候水文和人类活动叠加作用下水体环境变化;另一方面是,从生态学角度看水环境动态性与系统内部水生生物之间具有相互作用,如通过有机物生产和分解等过程改变水体的环境。水体野外原位观测数据和科学文献与日俱增,给环境科学和生态学在水环境动态性外部和内部关联机制多尺度定量剖析带来了新机遇。
类似于其它领域的研究,水环境动态性的研究随着水体野外原位观测数据快速递增带来“喜悦”的同时,增长中的“烦恼”也随之而来。简单说来,观测数据和科学文献的快速递增亟待破解数据共享中遇到的一系列难题。例如,不同研究中在观测期限和频率上的差异,明显成为数据共享的主要壁垒之一。鉴于此,中国科学院城市环境研究所联合美国新墨西哥州立大学,以水库总氮这一关键营养物季节变化为案例,构建了一个针对科学文献水环境动态数据挖掘的系统性框架。
水环境动态数据挖掘框架包括三个逐级关联的模块。第一级是数据提取模块,其模块功能是文献下载、筛选和分组以及文献图表数据的提取与汇总;第二级是数据分流模块,其模块功能是根据观测时长、观测频率和原始数据表达方式等限制条件对第一级模块产生的数据进行多次分流,即分出“混浊”数据,洗出“清洁”数据产生时间序列数据矩阵。第三级是数理统计模块,其模块功能是对时间序列数据矩阵进行归一化处理和凝聚层次聚类分析及分析结果可视化。
在案例分析中,该框架识别了水库总氮动态的三种模式。一是夏低谷模式,即水库总氮动态由浮游植物的生长和降雨等自然过程驱动;二是夏高峰模式,即湿沉降和农业径流导致水库总氮在夏季处于峰值;三是春高峰模式,即水库总氮季节动态可能受到人为排放的干扰。值得注意的是,这个案例分析并不意味着全球总氮动态仅有三种模式。随着水库总氮动态原位观测数据和科学文献的继续递增,迭代应用该框架可能会识别出更多的模式,或者有更充足的证据表明仅存在三种模式。
水环境动态数据挖掘框架进一步整合和夯实了主要科研人员多年前两项研究中的数据分析路径。该框架的第一级和第二级模块,对其中一项针对产油藻类种群动态科学文献数据提取路径进行了分级和优化;第三级模块对另一项关于水库浮游植物动态同步性检验统计学方法进行了相应改进。这些路径分级和优化及方法改进,并不意味着该框架已经能够完全适用于水环境动态数据挖掘。事实上,因水环境参数多种多样及数据观测过程和表达方式差异化,其科学文献数据共享依然存在不同程度的挑战。这意味着水环境动态数据挖掘框架的优化和升级任重而道远。
水环境动态数据挖掘框架和案例分析结果以Revisiting seasonal dynamics of total nitrogen in reservoirs with a systematic framework for mining data from existing publications为题,发表在《Water Research》上。据悉,研究团队主要成员还在《Water Research》上同期以Bayesian change point quantile regression approach to enhance the understanding of shifting phytoplankton-dimethyl sulfide relationships in aquatic ecosystems题为发表了水域生态系统冷室气体物质对浮游植物生物量响应的边界变点模型合作研究成果。
图1:数据挖掘框架中提取-分流-统计逐级关联模块
文献资料:
Guo, Z.F., Boeing, W.J., Xu, Y.Y., Yan, C.Z., Faghihinia, M., Liu, D. 2021. Revisiting seasonal dynamics of total nitrogen in reservoirs with a systematic framework for mining data from existing publications. Water Res. 201, 117380.
Liang, Z.Y., Liu, Y., Xu, Y.Y., Wagner, T. 2021. Bayesian change point quantile regression approach to enhance the understanding of shifting phytoplankton-dimethyl sulfide relationships in aquatic ecosystems. Water Res. 201, 117287.
Stagge, J.H., Rosenberg, D.E., Abdallah, A.M., Akbar, H., Attallah, N.A., James, R. 2019. Assessing data availability and research reproducibility in hydrology and water resources. Sci. Data 6, 190030.
Dupas, R., Tavenard, R., Fovet, O., Gilliet, N., Grimaldi, C., Gascuel-Odoux, C. 2016. Identifying seasonal patterns of phosphorus storm dynamics with dynamic time warping. Water Resour. Res. 51(11), 8868-8882.
Xu Y.Y., Boeing W.J. 2014. Modeling maximum lipid productivity of microalgae: Review and next step. Renew. Sust. Energ. Rev. 32, 29-39.
Xu, Y.Y., Cai, Q.H., Shao, M.L., Han, X.Q. 2012. Patterns of asynchrony for phytoplankton fluctuations from reservoir mainstream to a tributary bay in a giant dendritic reservoir (Three Gorges Reservoir, China). Aquat. Sci. 74(2), 287-300.
附件下载: