• {{item.name}}

平台概述

中国科学院计算机网络信息中心人工智能部基于国产异构智能基础软硬件,满足材料计算、生命科学、金融、能源等学科科研需求,构建了服务多学科交叉融合的VenusAI人工智能开放平台。平台简化并加速了人工智能模型的迭代和流动,解决了AI for Science场景下计算资源匮乏难以调度、查找数据困难和人工智能开发环境搭建繁琐等重要问题。

如果平台帮助到您的AI for Science,欢迎引用我们的论文

一、引用文章,可以从下面两篇里面任意选择一篇引用即可
1、VenusAI: An artificial intelligence platform for scientific discovery on supercomputers
2、OpenVenus: An Open Service Interface for HPC Environment Based on SLURM
二、致谢部分
中文致谢建议:感谢中国科学院计算机网络信息中心的人工智能计算及数据应用平台提供的云端计算服务。
英文致谢建议:for the support in providing computational resources on the VenusAI platform that contributed to the success of our research.

资源介绍

VenusAI建立在异构HPC超级计算机、集群和云虚拟机上,由P100、K80、V100和其他GPU加速器组成,已连通东升一号超算集群、AI专用计算集群、华为昇思计算集群和横琴超算集群,共享高性能计算资源,双浮点数性能538PF,存储容量538PB。用户通过集群资源申请,实现人工智能计算作业一站式全生命周期服务。

平台功能

VenusAI致力于协助不同学科领域的科研工作者与开发者,将数据、模型、算力资源与科学论文等深度整合,打造即开即用的协作式云端开发环境。

(1)学科领域开放数据,用户可以实现科学数据检索、数据托管与共享、数据绑定与数据迁移,提高数据驱动的人工智能检索和研究效率;

(2)科研场景适配模型,用户可以快速获取和复现多学科领域预置模型,使用云端协作与版本控制管理的能力,开展高效管理下的交叉学科应用研究;

(3)灵活可变的计算资源,用户无需干预即可实现多集群、多规格资源的配置与弹性调度,灵活的对计算资源与基础镜像进行组合定制,提升计算任务运行的扩展性和稳定性;

(4)即开即用云端开发环境,用户可以一键启用Vscode和JupyterLab的在线开发环境,VenusAI通过singularity容器化环境的监控、调度和优化管理,实现退出资源自动释放、启动环境状态自恢复和环境共享等功能。

(5)大规模计算,对于高性能计算需求的用户,通过在线开发环境预置大规模计算提交任务脚本,快速提交支持MPI的大规模计算任务;

(6)科学论文前沿,解析高质量学科论文,提供论文数据集下载和模型试用,解决论文模型数据环境难以搭建、结果难以复现的问题,也能供更多读者快速学习交流。

使用场景

VenusAI可以应用到教研、论文复现、科学数据集和模型研究等多个场景。

>

场景一:跨领域科研

场景二:论文正确性复现

场景三:教研一体化与大赛

大模型应用

ALphafold2

ALphafold2针对蛋白质结构预测问题给出了惊艳的结果,但是其推断过程运行缓慢。为了缓解这一问题,对alphafold2推断过程进行了优化。AlphaFold2在进行蛋白质结构推理时,将氨基酸序列输入模型,经过数据预处理阶段,在现有数据库中进行同源序列搜索,搜索过程各自独立,因此可以了利用AI计算集群对其搜索过程进行并行提高同源序列矩阵等初步数据生成效率。Alphafold2使用多个利用基于注意力机制的网络模型对数据中氨基酸残基之间的内在关系进行提取,来提高最终结果的准确性,模型计算过程中可以采用数据并行的方式加速多个模型的推理速度。利用多个模型抽取的数据,最后生成氨酸序列对应的可能的三维结构,最后利用加速卡对结构进行弛豫,得到稳定的蛋白质三级结构实现端到端结构预测。

紫东太初

“紫东太初”跨模态通用人工智能平台是由中国科学院自动化研究所研发的以多模态大模型为核心、基于全栈国产化基础软硬件平台,可支撑全场景AI应用。依托面向超大规模的高效分布式训练框架,构建了具有业界领先性能的中文预训练模型、语音预训练模型、视觉预训练模型,并开拓性地通过跨模态语义关联实现了视觉-文本-语音三模态统一表示,构建了三模态预训练大模型,赋予跨模态通用人工智能平台多种核心能力。

用户数据

版本更新

V1.0.1 (2022/7/1  16:00)

更改:

● 应用案例内容改变:变更了计算机领域、材料领域、生命领域、生态领域和能源领域的应用示范内容。

新增:

● 增加资源锁:解决用户在重复启动、刷新启动页等行为下的多任务启动问题,现已能够保证一个用户在同一时刻内,即使多次反复刷新,一个镜像下只存在一个运行镜像。

● 新增huawei队列:增加对开源大赛的支持,开辟新的超算集群队列,提高第三届开源软件创意大赛的总体支撑水平。

修复:

● 可写层修复:修复一些bug,会导致在某些场景下由于停止任务乱序而导致用户可写层overlay损坏,无法启动的问题。

V1.0.2 (2022/7/6  12:00)

更改:

无

新增:

● 用户任务统计(管理员):增加管理员账户的资源管理权限,可以查看到每个用户的总任务书、运行任务数和完成任务数,并按照419和ai集群进行筛选。

● 当前运行任务总数(管理员):管理员现在可以通过用户任务上方栏查看到整个平台正在运行的任务总数量。

修复:

● 访问量计数修复:修复前端页面数据中心点击后不计数的问题。

V1.0.3 (2022/9/2  16:30)

更改:

● 对启动速度进行了优化,基本保证工作台能够在180秒内启动成功。

新增:

● 白海IDP在线编译器:高性能AI IDE,运行速度快,深度支持Python和SQL。

● 用户资源自定义:新增单卡、双卡、四卡、独占节点(需要单独申请)和一天-两周使用时长的自定义资源启动设置。

● 用户共享目录:特定用户组群可以申请共享某一资源,该资源用户可以实时同步访问。

● 版本更新公告:在使用文档 - 平台简介路径下,新增平台版本更新公告栏目,能够实时更新平台最新功能。

修复:

● 修复某些用户启动过程中失败的bug。

V1.0.4 (2023/6/12  16:30)

更改:

无

新增:

● 增加任务节点:标记了用户启动任务的节点,解决用户在某一个节点失败后,停止停不掉、停止顺序错误的问题。现已经能保证用户在停止时从相应节点开始停止

● 增加任务的使用时长和gpu数量:解决了用户在新建之后,再次启动时,gpu数量和使用时长为默认值的、提醒用户剩余时长不正确的问题,现已经能保证用户在启动时延续上次新建的使用时长和gpu数量

修复:

无

V1.0.5 (2023/6/19  16:30)

更改:

无

新增:

● 增加镜像权限列表:镜像类型增加权限限制,用户申请所需要的镜像,管理员进行审核并且对该用户配置指定镜像,方便管理员管理进行管理。

● 增加一键新增超算账号功能:在用户通过审核之后,需要管理员每次手动添加超算账号、添加用户,添加超算授权等操作,现已改成通过审核后自动新增超算账号等操作。

● 增加一键配置功能:用户在使用之前,需要管理员手动的为用户配置镜像,现改成直接在代码层面执行自动化脚本实现一键配置,方便管理员管理进行管理。

修复:

无

V1.0.6 (2023/6/26  16:30)

更改:

无

新增:

● 增加用户通过审核回显功能,方便与管理员进行操作。

● 增加申请资源缓冲时长:优化启动问题。

● 增加环境列表回显字段,jobId,nodeIp等重要字段,方便与技术人员快速运维。

修复:

无