应用案例

  • 详情
  • -
  • 解决方案概括
image

AI助力指纹识别

通过结合神经网络以及指纹领域知识,基于公安部物证鉴定中心提供的档案指纹,实现指纹识别端到端设计。

预期目标

实现基于深度学习的指纹自动识别算法

实际目标

实现指纹识别的端到端设计

项目和模型详细介绍

中科院网络信息中心与公安部物证鉴定中心合作,研发了基于多任务学习的指纹自动识别算法。本算法以多任务网络为基础,实现了基于Gabor、纹理以及指纹细节点的特征提取,并以定长向量特征为基础构建了指纹自动识别算法及系统,可作为传统指纹自动识别技术强有力的补充。相较于之前的工作有以下亮点:(1) 针对公开指纹数据集指纹质量分布单一,难以反映指纹数据真实分布情况的问题,提出了三种不同的指纹评价数据集,并用指纹质量评价工具定量指纹质量的分布、方差以及平均数,让数据集更加具有参考性以及实用性;针对指纹多分类神经网络训练难以收敛的问题,本算法优化了神经网络结构以及损失函数,在4万张指纹图像训练集的基础上,只需训练1000步,在训练样本上就可以达到91.2%精确度,同时在标准数据集上可以达到98.9%的匹配精确度;针对指纹自动识别在劣质指纹上识别准确率快速下降的问题,本算法提出了指纹自适应增强技术,劣质指纹分类模型结合传统指纹增强技术可以针对特定的四类指纹进行自适应增强,增强后的指纹质量以及匹配精度大幅度提升,与传统指纹自动识别具有良好的互补效果。

本算法还部署在公安部物证鉴定中心,并进行了5000万指纹库的验证,测试中针对指纹质量较好的指纹依然有较高的识别率。

image

AI助力构建蛋白质三级结构高精度快速预测

AlphaFold2整个算法包含DataPipeline,Evoformer以及Structure module三个部分。AlphaFold2在进行蛋白质结构推理时,模型输入氨基酸序列,输出三维结构坐标实现,通过对其中模块进行优化加速从而达到端到端结构快速预测。.

预期目标

实现蛋白质三级结构端到端预测

实际目标

实现蛋白质三级结构端到端快速高通量预测

项目和模型详细介绍

在DataPipeline阶段,利用并行技术进行加速。一号工作流负责使用HHBlits软件对BFD及Uniclust30数据集进行搜索,二号工作流负责使用JackHMMER软件对MGnify数据集进行比对搜索,三号工作流负责首先使用JackHMMER软件对UniRef90进行MSA检索,之后HHSearch使用该MSA结果基于PDB70数据库进行模版匹配。三个工作流并行进行从而加速特征提取阶段,快速得到所需的同源序列矩阵(MSA)以及模版信息(Template)。

在模型结构计算模块,为保障推理结构的准确性,AlphaFold2使用了五组不同配置的模型生成蛋白质三维结构,最终生成的五个模型按照置信度从高到低排序,取最佳模型作为输出模型。利用并行的方法,对五个模型进行多GPU卡并行计算,每个GPU卡独立计算一个模型,利用Ray实现对五个计算任务的分发以及计算结果回收管理。为了加速弛豫过程,在流程中使用openMM的GPU版本进行计算,提高弛豫速度。

image

AI助力构建无机材料物性高精度预测

通过神经网络方法及准确的材料特征描述符,基于自研海量高质量数据,获得预测无机晶体形成能的高精度泛化模型,实现材料端到端设计。

预期目标

实现材料快速筛选与智能设计

实际目标

实现材料的端到端智能设计

项目和模型详细介绍

在中科院网络安全和信息化专项应用示范项目的支持下,中科院网络信息中心与中科院物理所、松山湖材料实验室合作,开发了一套预测无机晶体形成能的高精度泛化模型。相比于同类工作,本项工作构建出的模型不仅预测准确性高(预测平均误差仅为72 meV/atom),且具有很好的泛化能力。业界往往通过大量数据清洗获得高精度的AI模型预测模型,因其较差的泛化能力而不具备应有价值。本项工作通过构建具有物理思维的材料结构描述符,各项性能较优秀的DenseNet算法,以海量高质量数据为核心优势,精确且有效的捕捉到原子间的相互作用和构效关系。本工作为新材料搜索提供了一种高效、低成本的结合能预测手段。

本项研究近期已被中科院一区期刊Science China Materials接收,并已在线发表(Science China Materials, published online)。

本项工作的数据源自物理所自研的第一性原理数据库(atomly.net)。在项目支持下,结合数据科学优势,发展了全链条的“大数据+人工智能”模式,目前已支持了多种材料的筛选和设计,例如凝聚态物理核心材料CsV3Sb5 笼目晶格体系的筛选【Chin. Phys. Lett. 39 (4): 047402 (2022)】,类MgB2超导材料的端到端设计等,其中通过数据驱动方法推荐的类MgB2超导材料在实验组的支持下进行了实验验证(Physical Review B, published online)。

相关文献资料 (已发表的论文的链接)

  • [1]“A universal model for accurately predicting formation energy of inorganic compounds”. Science China Materials, 2022.
  • [2]“Screening Promising CsV3Sb5-Like Kagome Materials from Systematic First-Principles Evaluation”. Chinese Physics Letters, 39, 047402, 2022.
  • [3]“Superconductive materials with MgB2-like structures from data-driven screening”. Physical Review B, 2022.
image

中国北方草地碳呼吸预测

该模型基于encoder、decoder框架,在encoder阶段,采用local spatial attention机制,衡量了站点内收集的不同特征的重要性高低。在decoder阶段,temporal attention注意力机制可以自适应的选取encoder中的应着重关注的隐藏层状态。

该模型基于encoder、decoder框架,在encoder阶段,采用local spatial attention机制,衡量了站点内收集的不同特征的重要性高低。在decoder阶段,temporal attention注意力机制可以自适应的选取encoder中的应着重关注的隐藏层状态。

预期目标

站点尺度预测结果有10%的提升

实际目标

站点尺度预测结果有15%的提升,并完成从站点到区域的尺度上推

项目和模型详细介绍

本项目与中国科学院地理科学与资源研究所合作,主要任务是发展考虑空间相关性的深度学习方法以估算中国北方草地区域尺度生态系统呼吸值(RE),以2001-2015 年18个站点的中国北方草地RE为例,使用发展的深度学习方法获取中国北方草地呼吸区域尺度基准数据及其空间格局。

本项目发展能够提取草地生态系统呼吸值(RE)空间特征信息的GEOMAN算法,该算法包括编码器和解码器。其中编码器包含站点内特征注意力机制,站间空间注意力机制和LSTM模型,以提取待预测站点的站内局部特征和与周边相关站点的站间空间特征。解码器包含时间注意力机制和LSTM模型,LSTM模型对编码器输出的特征向量进行解码,从而预测草地生态系统呼吸值RE。

站点尺度,GeoMAN相较于栈式自编码网络的整体预测效果有约15%左右的提升。同时,Geoman可以在不同的草地类型中都能很好地捕捉生态呼吸值的季节动态,且生长季的高值区和非生长季低值区都具有较好模拟效果,并研究各要素对最终模拟结果的影响,发现植被类型和土壤质地是对中国北方草地生态呼吸值(RE)估算影响最大的两个环境因子。区域方面,以中国北方草地栅格数据作为驱动数据输入训练好的模型,预测整个中国北方草地的生态系统呼吸数据,预测结果大小及空间分布均符合地理学规律。

image

AI为推进构建以新能源为主体的新型电力系统提供新思路

设计一种面向多源异构数据的智能预测框架,能够有效提取各种类型数据(如分布式多传感器实时采集的测量数据、数值天气预报和卫星图像数据)的空间和时间特征并进行融合,有效提高了光伏发电预测精度。

预期目标

实现高效智能的光伏功率预测

实际目标

实现一套智能的新能源功率预测框架

项目和模型详细介绍

在中国科学院战略性先导科技专项(A类)和国网河北省电力有限公司科技项目的支持下,中科院网络信息中心开发了一套面向多源异构数据的智能预测框架。相比于同类工作,本项工作构建出的模型不仅集成了处理非结构化数据的Advanced U-Net 模型和处理结构化数据的Encoder-decoder架构,且具有更高的预测精度。业界往往缺少高质量的能源类数据集。本项工作通过构建具有较高普适性的预测框架,以光伏功率输出数据集和数据预处理算法为核心优势,精确且有效的捕捉到辐射度与光伏功率的映射关系。本工作为提高太阳能紫苑利用率,提高电力系统的可靠性和经济性提供了一种新型预测手段。

本项研究已发表在《能源电力领域高质量科技期刊分级目录》中T1级国际顶级期刊IEEE Transactions on Sustainable Energy、Solar Energy、电工技术学报等。

相关文献资料 (已发表的论文的链接)

  • [1] Yao T, Wang J, Wu H, et al. Intra-Hour Photovoltaic Generation Forecasting Based on Multi-Source Data and Deep Learning Methods[J]. IEEE Transactions on Sustainable Energy, 2021, 13(1): 607-618.
  • [2] Yao T, Wang J, Wu H, et al. A photovoltaic power output dataset: Multi-source photovoltaic power output dataset with Python toolkit[J]. Solar Energy, 2021, 230: 122-130.
  • [3] 刘晓艳,王珏,姚铁锤,张沛,迟学斌.基于卫星遥感的超短期分布式光伏功率预测[J].电工技术学报,2022,37(07):1800-1809.
  • [4] 时珉,许可,王珏,尹瑞,张沛.基于灰色关联分析和GeoMAN模型的光伏发电功率短期预测[J].电工技术学报,2021,36(11):2298-2305.
计算机领域 生命领域 材料领域 气象领域 能源领域
Online Help!

email: wanmengdamon@cnic.cn

在线训练&推理Training & Verification 下载案例文档Audit & Assuarance 下载使用手册Audit & Assuarance