『大数据』

现代医学进步靠什么突破?中国医学科学院:HPDA推动大数据科研

“尽管大型制药公司付出了巨大努力,但21世纪猎药的主要技术跟5000年前并没什么两样:煞费苦心地从数量庞大的混合物中抽样做实验,希望能有一种是有效的。”

在《猎药师:发现新药的人》一书中,作者Donald R. Kirsch也许用了一种夸张的口吻描述了药物研发面临的挑战和瓶颈,不过也确道出了新药研发的艰难之处。“十万个化合物,十亿美金投入,耗时十年时间”,这一定律通常用来形容药物研发的“冒险之旅”。

而把药物研发放大到整个生物医学领域来看,创新与突破都是困难重重。哪怕随着现代医学的发展,基因测序作为解锁生命奥秘的重要方式之一,人类首次基因组的测序完成也是花了13年。因为从基因的提取、分析到解读,是一个数据量浩大的工程,同药物研发一样,同样充满曲折。

阻碍生物医学发展的重要因素之一正是对庞大数据的价值挖掘过程,在“神农尝百草”的故事中,我们可以读出古人在原始的药物临床试验数据上的以身探索。而当下,生物医学领域数据呈爆炸性增长,以数据和计算为驱动的“计算医学”的发展,引发了生物医学研究向数据密集型的科研范式的转变。

中国医学科学院建设,医学科技创新IT基础设施底座

作为我国首屈一指的医学研究机构和医学教育机构,中国医学科学院以建设成为世界一流科研所院和医学科技创新体系的核心基地为战略目标,坚决推进国家创新战略,强化资源集成衔接,切实发挥战略支撑作用,也早已认识到数据与计算对于医学研究的重要推动作用。

在早先的数字化实践中,由于中国医学科学院下设多个二级法人单位及非法人独立学院,部分院所和学院已根据各自科研业务开展的需要配置了部分大型共享计算设备或构建了大规模科学计算平台,不过地域分散的院所客观造成了大型计算设备或平台建设分散、效用无法最大化发挥等问题。如何将整个医科院系统内相较分散的海量生物医学数据充分地整合、存储和共享起来,并利用统一的计算和大数据分析平台实现对数据的价值挖掘就显得尤为迫切和重要,这也是中国医学科学院面向未来实现现代医学科研攻关突破的关键支撑。

因此,为了进一步强化医学和健康的源头创新供给,中国医学科学院开始推进医学科技创新体系核心基地数据中心的顶层设计和全面建设,通过建设统一的国家生物计算与大数据中心,满足23个下属院所的高性能计算业务、国家人口健康科学数据中心业务、信息研究所文献共享业务的业务部署需求,为国家生物医学高性能计算中心建设奠定基础。

其中,高性能计算区为生物计算提供超高及充足的算力和存储能力,承担了中国医学科学院开展基因测序、药理毒理等科研工作的强大IT基础设施底座作用。

数据密集型的生物医学,中国医学科学院打造HPDA样板点

186个计算节点,总达747万亿次双精度浮点运算能力,在华为的帮助下,中国医学科学院构建起了一个领先的医学创新高性能计算中心。

而在存储方面,高性能数据分析(HPDA)的引入更为中国医学科学院高性能计算集群提供了更强大的性能表现,树立了数据密集型超算领域的全球标杆。

正如前文所言,生物医学的发展使得数据爆发式增长,基因测序、新药研发、蛋白筛选等工作所需的数据分析处理效率成为推动医学发展的关键要素。在此背景下,HPC产业正从计算密集型走向数据密集型,HPDA也开始引领HPC产业的未来发展。华为OceanStor Pacific 9950高密性能型分布式存储助力中国医学科学院打造了一个统一的HPDA数据底座。

整个HPDA平台采用全对称并行分布式存储,配置30个分布式存储节点,每个存储节点配置36块14TB企业级SATA硬盘与2块3.2TB NVMe SSD缓存硬盘。全对称的架构使得不会存在元数据节点或存储管理节点带来的性能瓶颈问题,充分发挥存储节点的性能,每扩容一个存储节点可带来存储容量和性能的线性增长。由于生物医学数据多、体量大,对存储性能和容量提出了高要求,华为为中国医学科学院HPDA平台构建了15PB的裸容量、10.5PB的可用容量、50GB/s的带宽性能,超强的数据处理和分析能力可有效支撑院所基因测序、肺部影像自动标注等核心业务应用。

通过建设统一的HPDA高性能数据分析平台,中国医学科学院开展医学攻关获得的价值是明显的:

首先,医学科研涉及多种业务流程,因访问协议差异,过去往往需要建设多套存储来满足需求,不仅低效且投资成本较高。而华为OceanStor Pacific系列存储最大的特点就是搭载了无损协议互通的能力,一份元数据、一份数据满足多种服务访问,让数据在不同的环节间自由流转,从根本上提升了数据流转效率。

其次,华为OceanStor Pacific采用新一代并行文件系统,结合元数据打散分布、大小I/O分流、动态磁盘索引等技术,一套存储就能同时承载高带宽、高OPS负载,面向混合负载,使业务更高效。

再者,华为OceanStor Pacific存储的高密全闪硬件和高密大容量硬件可以大幅度节省机房空间,此次项目建设中,通过融入整个数据中心,采用All-In-One设计理念,冷电控一体化预集成在一个集装箱内,实现了快速部署。并深度集成联科集团融合调度平台,实现资源灵活调度、动态释放和极简运维。

整体而言,华为为中国医学科学院打造的HPDA高性能数据分析平台,具备多协议融合访问、混合负载访问、超高密设计等出色能力,无疑打造了一个高性能的数据底座。在前期的行业实践探索中,华为HPDA平台已经发挥出巨大“威力”,将人类全基因组分析时间从24小时缩短到分钟级。这也让我们有理由相信,在中国医学科学院的后续应用实践中,HPDA平台有望再次助推形成生物医学领域的科研攻关突破。

让HPDA高性能数据分析触手可及

毫无疑问,从生物医学的基础研究、药物研发、临床医疗到健康管理等环节,数据已经渗透在每一个环节和领域,未来医学的突破与进步已然离不开大数据驱动。

对于生物医学科研攻关而言,让高性能计算和高性能数据分析变成科研人员触手可及的技术和能力,在对数据的高效挖掘分析中缩短生物医学科技创新的周期,降低科技创新的成本,现代医学的未来突破也将变得触手可及。中国医学科学院携手华为建设医学创新高性能计算中心,构建HPDA高性能数据分析平台样板点推动大数据科研,引入生物医学发展的新范式,在实施“计算医学”的道路上迈出了一大步。

数字化变革,央国企需要一朵什么样的云?

上一篇

向分销市场纵深挺进,华为与伙伴的一次蓝海远航

下一篇

你也可能喜欢

热门标签

微信扫一扫

微信扫一扫