
图源:国家数据局
9月15日,国家数据局官网发布了“高质量数据集建设先行先试工作名单”。
由深圳市政府服务和数据管理局推荐,华大基因申报的“分子检测高质量数据集建设”项目成功入选。同批入选的还有由青岛市大数据发展管理局推荐,青岛华大基因研究院申报的“海洋生物高质量数据集”项目。
行业主管部门、地方数据管理部门、央企总部共推荐符合条件的有效申报335个。经专家严格遴选,首批高质量数据集建设先行先试共140个。

此次高质量数据集建设先行先试工作覆盖全国25个省份,支撑科学研究、医疗卫生等18个重点领域,以及智慧海洋、生物制造等5个创新领域。从政府层面为分子检测等场景的AI模型训练、评估与落地提供了“蓝本”,推动了“人工智能+”在医疗卫生等行业的深入应用。
3,000万+样本PB级数据底座,
支撑精准健康
高质量数据如何获得、又如何用好?华大以技术与模式双轮驱动,给出答案。
在人类遗传资源管理相关法规政策指导下,华大基因依托超3,000万例全生命周期人群检测积累的PB级测序数据,构建覆盖生育健康、肿瘤防控、病原检测等领域的数据库。

在生育健康领域,华大基因以高通量测序和质谱检测为核心,提供覆盖婚前、孕前、产前、新生儿和儿童成长各阶段的临床检测服务,助力出生缺陷防控,保障妇幼健康。
截至2025年6月30日,华大基因各项生育健康检测产品累计服务超过 3,717 万人次,其中无创产前基因检测服务超1,945万人次。
依托大规模样本,在相关法规的规范下,经合规授权与去标识化处理,华大基因聚焦东亚人群高发疾病(如地贫、鼻咽癌),建立覆盖千余种孕前检测位点的场景化子库,弥补国际数据库对中国人群遗传特征覆盖不足的问题,使应用更贴近人群特征。

华大基因肿瘤“时珍数据库”覆盖基因与变异数量超国际权威库“OncoKB”;病原数据库整合十万级微生物基因组与耐药基因,成为全球首个“病原-宿主-环境”联动的感染防控数据平台。
高质量数据搭乘AI:
加速精准医学“智惠化”
“高质量数据集”的价值最终要体现在能否更早发现健康问题、更精准识别风险,并为个人定制可执行的健康管理方案上。要把这些价值落到实处,关键是用AI将“大数据”转化为可临床应用的“高质量数据”。

9月9日,“健康美丽,人人可及”2025华大集团全球新品发布会上,华大基因围绕公共卫生大数据,推出全读长SEQALL全基因组综合解决方案和BGI智惠医学系统,并发布了SEQALL、GeneT Agent和iGeneT Pro三大关键产品。
面向个人健康管理,“133111i”多组学健康管理模式与i99智健平台亮相,而支撑这一系统运行的GigaLab智惠实验室解决方案成为技术底座。华大基因通过AI技术创新,不断提升数据处理效率,加速精准医学应用落地,助力医学检测和个人健康管理“智惠化”。

华大基因正在依托自主可控平台与多年积累的大数据把“点状技术”连成“系统能力”。当标准化治理的高质量数据与行业化算法深度耦合,公共卫生、临床与个人健康就能在同一数据底座上协同迭代,把健康管理真正前移到“未病”阶段——以可复制、可落地、可持续更新的方案,助力“人工智能+”落地与“人人健康”的长期目标。