规范的数据是拥抱材料AI时代的基础:一种计算元数据标准
近日,课题组研究生在Journal of Materials Informatics期刊发表“A metadata schema for lattice thermal conductivity from first-principles calculations”研究论文,提出了面向材料基因工程数据库的一种计算元数据标准。
材料基因组工程数据库是数据驱动材料设计的基础设施之一,其中数据资源应满足 FAIR(可查找、可访问、可互操作、可重用)原则。目前,材料高通量实验与计算数据缺乏有效的管理模式,数据标准化、数据准确性和数据寿命等各种挑战仍然阻碍了数据驱动材料科学的进步。在本文工作中,我们以第一性原理计算热导率为例,提出了晶格热导率计算元数据模式。晶格热导率计算流程包括结构优化、原子间力常数计算和晶格热导率计算。计算过程中产生的数据分别对应于材料基因工程数据通则中规定的虚拟样本信息、原始数据和处理后的数据。按照《材料基因工程数据通则》,系统地定义每个动作的元数据结构和元数据模式,并且可以完整地收集所有元数据元素。
基于数据通则,我们把晶格热导率计算过程分为三个阶段,分别为虚拟样品制备、虚拟样品表征和数据分析,如图1所示。针对三个计算过程分别制定对应的元数据规范:《第一性原理结构优化计算元数据规范》、《第一性原理力常数计算元数据规范》和《第一性原理晶格热导率计算元数据规范》。此系列元数据规范在数据集层次上分别描述第一性原理结构优化计算数据、第一性原理力常数计算数据和第一性原理晶格热导率计算数据的概念模型,规定了构成该系列模型的一组必选的、条件必选的和可选的元数据子集、元数据实体和元数据元素,提供了对该系列模型的形式化描述。
图1 晶格热导率第一性原理计算元数据规范示意图
结构优化元数据规范
本标准制定了结构优化的基本框架,且归纳了结构优化的基本要素,该模型将结构优化数据的特征分为4类:管理信息、元素和结构信息、输入文件信息、输出文件信息,如图2所示。
图2 结构优化计算元数据模式
力常数计算元数据规范
本标准根据力常数计算的基本框架,归纳了力常数计算的基本要素,该模型将力常数计算数据的特征分为3类:管理信息、输入文件信息、输出文件信息,如图3所示。
图3 力常数计算元数据模式
晶格热导率计算元数据规范
本标准根据ShengBTE晶格热导率计算的基本框架,归纳了ShengBTE晶格热导率计算的基本要素,该模型将晶格热导率计算数据的特征分为3类:管理信息、输入文件信息、输出文件信息,如图4所示。
图4 晶格热导率计算元数据模式
本文制定的三类计算数据规范是国内材料基因工程数据领域首个关于计算数据的标准,在《材料基因工程数据通则》和《元数据标准化基本原则与方法》框架和指导下,建立了第一性原理结构优化、力常数计算和晶格热导率计算元数据规范,为计算领域第一性原理结构优化、力常数计算和晶格热导率计算数据的管理提供统一的标准管理方式,促进该类数据质量提升和管理方式协同,支撑数据驱动研究模式的顺利开展;此外,为材料基因工程中其它计算数据规范的制定提供案例性参考。
原文链接:https://jmijournal.com/article/view/5249
论文的第一作者是上海交通大学中英国际低碳学院2020级博士研究生饶勇超,上海交通大学汪洪教授、鞠生宏副教授,贵研铂业股份有限公司张爱敏为论文共同通讯作者。