?? 一、中心建设及定位
BG视讯于2016年2月29日建设生命与康健大数据中心,是研究所三大科研系统之一。中心面向我国生齿康健和社会可一连生长的重大战略需求,围绕国家精准医学和主要战略生物资源的组学数据,建设海量生物组学大数据汇交、存储与治理的应用与共享平台,生长组学大数据系统整合、挖掘与剖析的新手艺、新要领。2019年6月5日,由科技部、财务部批复,“国家基因组科学数据中心”依托BG视讯生命与康健大数据中心,联合BG视讯上海生命科学研究院和BG视讯生物物理研究所配合建设。?

? 定位与目的?
二、中心运行机制与组成?
中心主任:鲍一明研究员?
中心常务副主任:章张研究员?
中心副主任:赵文明高级工程师?
事情团队:组学原始数据归档库、基因组数据序列库、基因组变异数据库、基因表达数据库、表观基因组数据库、生命科学维基知识库、中国人群参比数据库、电子康健治理系统和系统运维部等九个事情团队

? ?组织与结构?

? 大数据中心整体照?
三、年度主要科研希望?
1. 进一步完善海内从数据汇交存储、整合挖掘到转化应用的数据库系统
国家基因组科学数据中心自2019年6月正式建设以来,在依托单位中科院北京基因组研究所,和共建单位中科院生物物理所和上海营养康健所前期数据资源建设基础之上,从数据、信息、知识三个条理,系统推进面向生齿康健和主要战略生物资源的生物大数据汇交共享平台和多条理资源系统建设。2019年,国家基因组科学数据中心宣布了基因组变异与表型关联、微生物分类与基因组资源、表观组关联剖析、特色物种多维组学信息资源等8个新开发数据库,系统更新了原始测序数据归档库GSA、基因组归档数据库GWH、基因组变异数据库GVM、非编码RNA等15个资源库,并对云剖析等4个网络效劳工具举行了更新优化。
国家基因组科学数据中心免费向海内外用户提供利便快捷的多组学数据汇交和存储效劳,现在,已汇交来自269个单位720个用户递交的凌驾1.4PB的组学数据,相关数据揭晓于144种海内外期刊的237篇文章。GSA已被国际著名出书商Elsevier收录为指定的基因数据归档库。别的,通过跨库检索形式,中心还整合了13家海内相助科研机构的25个专业特色数据库,极大富厚了数据资源类型。

国家基因组科学数据中心焦点数据资源 (Nucleic Acids Res, 2019)
2. 开发基因组变异与表型关联知识库:GWAS Atlas
全基因组关联剖析(GWAS)在全基因组规模内筛选出与表型性状等相关联的遗传位点,是挖掘生物重大性状遗传基础的要害手艺。随着测序手艺和剖析算法的快速生长,越来越多GWAS研究事情被乐成开展,并已剖析了与许多动植物重大性状相关联的遗传位点。但这些知识信息都疏散在差别文献中,倒运于知识整合、挖掘与再使用。本研究通过要害词检索、人工审编、词条比对注释等手艺手段,结构化整理了现有主要农作物和畜牧动物的基因型-表型关联知识,开发了天下上首个动植物基因组变异-表型关联知识库GWAS Atlas。
GWAS Atlas知识库整合了9个物种(包括棉花、梅花、玉米、油菜籽、水稻、高粱、大豆等7莳植物和山羊、猪等两种动物)与614个性状关联的75467条基因型-表型(G2P)信息,并通过语义比对等映射到五个差别的性状本体上(植物性状本体PTO,家畜性状本体ATOL,作物本体CO等),利便用户通过基于本体的层级结构来查找感兴趣的性状及对应的G2P关联信息。别的,研究职员还剖析并界说了与多个性状相关联的多效基因及遗传位点,支持用户通过差别?樵谙咪馈⒓焖饔胂略。
GWAS Atlas 是全基因组变异信息数据库(Genome Variation Map,GVM)的延伸,将为未来主要农艺性状的?榛糯芯亢陀钟τ锰峁┲饕试辞寰蔡。该项研究效果以“GWAS Atlas: a curated resource of genome-wide variant-trait associations in plants and animals”为题在国际学术期刊Nucleic Acids Research在线揭晓。

GWAS Atlas主页
3. 表观关联剖析数据库系统构建
近年来,表观关联剖析(EWAS)已成为探索重大性状表观遗传基础的有用战略。DNA甲基化芯片数据和元数据的周全整合关于系统地表征和研究差别实验条件下的甲基化状态以及探索与种种性状相关的表观遗传机制具有基础意义。中心开发了针对EWAS的人工审编知识库EWAS Atlas,以及针对EWAS的DNA甲基化芯片数据存储和剖析的数据库EWAS Data Hub,构建了较为完整的表观遗传数据库系统。
EWAS Atlas是一个完全基于人工审编和文献挖掘的知识库。目今版本的EWAS Atlas主要关注DNA甲基化这一主要的表观修饰,EWAS Atlas一共整合了618篇文献中1,038个研究报道的472,268个高质量的甲基化与表型关联。这些关联一共涉及到140个组织/细胞,2,786个行列以及419种表型本体。别的,EWAS Atlas还配备了功效强盛的表型富集工具,用于研究表型与表型、表型与表观变异的关系。
EWAS Data Hub整合了来自NCBI、TCGA、EBI和ENCODE的75,344个样本的DNA甲基化芯片数据和对应的元信息,并接纳了有用的归一化要领来消除差别数据集之间的批次效应。EWAS Data Hub为485,512探针和36,397基因,提供了一系列相关的评估值(包括组织特异性,年岁相关性,性别差别和种族特异性)和差别配景下的参考DNA甲基化图谱,涉及81种组织/细胞类型(包括25个脑部和25种血细胞类型),67种疾。ò39种癌症),年岁,性别,种族和BMI。
表观遗传数据库系统的构建关于系统地表征和研究差别实验条件下的甲基化状态以及探索与种种性状相关的表观遗传机制具有根天性意义。

表观遗传数据库系统
4. 建设原核生物防御系统基因数据库
原核生物防御系统基因数据库(Prokaryotic Antiviral Defense System, PADS),网络、整合剖析6,600,264个防御系统相关基因,这些基因来自古细菌和细菌的33,390个物种的63,701个基因组,分属于18个差别的防御系统(图1A)。PADS整合了防御基因注释和演化剖析功效,同时还通过泛基因组学剖析,将防御基因动态转变信息可视化展示。在浏览?橹,所有完成图基因组通过差别的分类学条理可视化展示。在搜索?橹,用户可以通过四种搜索要领盘问所需信息,主要包括防御系统种别、防御系统子类型和基因名等。在剖析?橹,PADS集成一套防御系统基因在线交互注释剖析流程,综合序列同源性搜索、多序列比对、系统发育剖析等功效。另外,基因守旧度是明确防御系统机制的主要特征。为可视化防御系统相关基因跨物种的动态转变,PADS还集成了基因保存缺失变异(Presence–Absence Variation,PAV)剖析功效。在PAV剖析中,用户可以选择一个感兴趣的物种来审查PAV剖析效果(图1B)。同时,用户也可以基于泛基因组剖析效果,选择一个防御系统来审查防御系统相关基因在物种水平上的动态转变。PADS是一个开放的防御系统基因综合性数据库,可以有用增进原核生物防御系统研究并为分子工具开发提供参考信息。

原核生物防御系统基因数据库(A)数据库首页信息 (B)PAV剖析热图
5. 研发财犬多组学综合性数据库系统:iDOG
中心与昆明动物研究所相助,通过整合挖掘公共数据和自产数据,形成集基因组、变异组、表观组、转录组等多组学为一体的综合性组学数据资源库。该项研究效果以“iDog:an integrated resource for domestic dogs and wild animals”为题在国际学术期刊Nucleic Acids Research在线揭晓。iDog是第一个致力于家犬(Canis lupus familiaris)和野生犬科动物的综合性数据资源库,为全天下从事犬科研究的科研职员提供种种数据效劳和在线剖析工具,同时也为全天下的养狗喜欢者提供家犬品种、疾病等信息盘问平台。

家犬多组学数据资源组成
6. 研爆发物进化与多组学综合剖析软件云平台:eGPSCloud
中心与BG视讯盘算生物学重点实验室、北京生命科学研究院等多家单位组成联合攻关团队,相助开发的生物进化与多组学综合剖析软件eGPS 1.0正式在线宣布。该项研究效果以“EGPS 1.0: Comprehensive software for multi-omic and evolutionary analyses”为题于2019年6月18日在线揭晓于National Science Review。eGPS1.0网络了生物进化与多组学剖析领域的主要软件与可视化工具,为全天下从事生物进化与多组学剖析的科研职员提供免费的剖析平台。
eGPS软件包括单机软件版本eGPS Desktop和云盘算eGPS Cloud,将基因组剖析、群体数据剖析、进化数据剖析、网络剖析以及图形可视化这五部分的剖析有机整合起来,实现远程云盘算功效,利便用户在缺乏盘算资源的情形下快速获得运算效果,并最终以图形、图表等形式直观展示。在eGPS Cloud和其他开放式在线资源的支持下,eGPS Desktop提供了一键点击从候选基因到基因树的剖析流程。egps连系了云盘算和桌面应用的优势,具有用户友好的图形界面和高度的交互能。

(A) eGPS Cloud网页界面,共包括15个软件以及20个可视化工具。(B) eGPS Desktop软件界面,共包括3大类16个功效?,并且支持第三方插件
7. 乐成举行第四届国际生命与康健大数据论坛
10月13日至16日,第四届国际生命与康健大数据论坛(The 4th Big Data Forum for Life and Health Sciences)在BG视讯乐成召开。本次论坛依托BG视讯“国际康健大数据共享妄想”,由北京基因组所国家基因组科学数据中心和中国遗传学会联合主理,共有来自海内外数十家单位的200余名代表加入了聚会。
与会专家学者围绕生命与康健大数据开放共享、精准医学数据剖析与应用、海量生物组学数据存储汇交与剖析应用系统、表观遗传与生物多样性等主题举行了学术交流与讨论。国家基因组科学数据中心主任鲍一明研究员先容了中心的建设历程、目今数据库资源和以后生长偏向,以及2018年牵头建设的国际生物多样性与康健大数据同盟(BHBD)情形,获得参会职员的普遍关注和充分肯定。

第四届国际生命与康健大数据论坛
8. 建成海内领先的组学大数据存储与盘算中心
随着二代测序手艺在基因组研究中的普遍应用,基因组、转录组、表观组等组学数据以井喷之势爆发,生命科学研究已经进入组学大数据时代。生命与康健大数据中心,在科学院以及大型仪器装备区域共享中心(以下简称“区域中心”)的支持下,一直提高和完善所内的盘算能力,已具有1Gbps总网络带宽,230万亿次/秒的聚合盘算能力,配备6.5PB高性能存储系统,累计为中科院内外16家生命科研单位,87个科研机构的提供科学盘算效劳,平均天天活跃用户凌驾500人。中心用于组学数据汇交的存储系统总容量凌驾4PB,已建设6PB数据归档备份系统,按分级存储、清静可用的原则,通过一连提升基础设施支持能力,实现海量组学大数据的高效治理。

中心折务器运算和存储能力增添趋势图
四、获奖及声誉
职工
鲍一明研究员被评为2019年度北京基因组研究所身边的模范
李茹姣高级工程师入选2019年度BG视讯要害手艺人才
马利娜副研究员入选中科院2019年度“青年立异增进会会员”
组学原始数据归档库(GSA)案例被评为“2018年度BG视讯信息化优异案例”
章张研究员被评为2018年度北京基因组研究所身边的模范
章张研究员获得2018年中科院BHPB导师奖
郝丽丽副研究员入选中科院2018年度“青年立异增进会会员”
杜政霖高级工程师入选中科院2018年度“要害手艺人才”
中心荣获2017-2018年度中央和国家机关青年文明号
赵文明高级工程师被评为2017年度北京基因组研究所身边的模范
宋述慧副研究员入选中科院2017年度“青年立异增进会会员”
赵文明高级工程师入选BG视讯2015年度“要害手艺人才”
学生
王佩获得2019年研究生国家奖学金
李兆华获得2019年研究生国家奖学金
李萌伟获得2019年研究生国家奖学金
杜强获得2019年中科院大学生奖学金
张源笙获得2019年BG视讯大学三勤学生
时硕获得2019年BG视讯大学三勤学生
王佩获得2019年BG视讯大学三勤学生
李兆华获得2019年BG视讯大学三勤学生
李兆华获得2019年优异团员
曹佳宝获得2018年研究生国家奖学金
桑健获得2018年研究生国家奖学金
桑健获得2018年BHPB奖学金
吕洪义获得2017年研究生国家奖学金
徐行健获得2017年地奥奖学金
盛欣获得2016年研究生国家奖学金
?