近日,hbs04红宝石线路--化学与生物信息学实验室蒲雪梅教授在Nature Communications杂志上在线发表了论文:Coupling complementary strategy to flexible graph neural network for quick discovery of coformer in diverse co-crystal materials,开发了一种普适性强准确度高的深度机器学习的共晶筛选模型,该模型可灵活应用于多种领域的共晶预测(药物、有机功能以及含能材料等),大幅提升了机器学习对共晶虚拟筛选的泛化能力和准确度,其构建策略可为深度学习在其它领域的应用提供了参考和指导。
共晶工程已经成为制药、有机功能材料以及含能材料等领域中改善性能的有效手段,实验往往是通过大量的试错尝试来确定合适的共晶对,实现对共晶的合成,导致实验成本和时间消耗大,因此迫切需要能提升共晶合成效率的技术。人工智能技术的深度机器学习方法具有挖掘复杂关系的强大能力,并且相对于传统的机器学习可以避免特征工程,然而深度机器学习需要大数据的支撑,而真实世界面临的数据常常是有限的,尤其是化学和材料领域,并且数据多是不均衡的分布,比如共晶数据中正样本多而负样本缺乏,有限且不均衡的样本数据对深度机器学习的应用是一种挑战,一直被认为是一个困难的任务。
作者针对此挑战,通过在图神经网络的end-to-end的自我学习中嵌入共晶形成的先验知识,并通过结合数据增强、注意力机制、集成学习和迁移学习的策略成功开发了一款针对有限且不均衡数据分布的共晶样本的图神经网络框架的筛选模型CCGNet(Co-crystal Graph Net),准确度高普适性强,有效克服了共晶样本数据有限和不均衡的困难,预测准确度明显高于7个竞争性模型(3个传统机器学习和4个深度学习模型),实验验证进一步证实了其在实际中的应用潜力,有望成为共晶实验筛选的有效预测工具。
图1. CCGNet的整体框架。
文章的第一作者是hbs04红宝石线路的博士研究生江源远,四川大学化学学院蒲雪梅教授为通讯作者,hbs04红宝石线路为第一单位。特别感谢国家自然科学基金委、科技委、四川省科技厅和中国工程物理研究院化工材料研究所基金的经费支持。
原文链接:https://rdcu.be/czmAI,