在这个星球上,没有任何生命形式在数量和多样性上能与病毒相提并论。据估算,地球上大约存在1031 个病毒颗粒。这是一个什么概念?如果把它们排列起来,长度甚至超过了银河系的直径。然而,面对如此庞大的数字,人类目前所掌握的知识却显得微不足道。
即使是在基因组测序技术突飞猛进的今天,像 IMG/VR (Integrated Microbial Genome/Virus Resource) 这样最庞大的病毒基因组数据库,也仅仅收录了约 1530万 个病毒基因组片段。这与真实世界相比,连九牛一毛都算不上。更令人焦虑的是,即便是这“九牛一毛”中,能够被国际病毒分类委员会 (ICTV) 正式分类和命名的,还不到 0.01%。
这是一个巨大的不对称:我们的测序能力在指数级增长,每一滴海水、每一克土壤都在告诉我们要发现成千上万的新病毒,但我们的分类体系却像是一台老旧的打字机,试图跟上超级计算机的输出速度。传统的分类方法依赖于专家的手工 (Manual Curation),这种方式虽然严谨,但在宏基因组学 (Metagenomics) 的海量数据面前显得捉襟见肘。
12月19日,《Nature Biotechnology》的研究报道“Machine learning enables scalable and systematic hierarchical virus taxonomy” ,研究人员开发了vConTACT3这不仅仅是对前代工具的简单升级,而是一次底层的重构。它不再满足于仅仅将病毒划分到“属” (Genus) 这一层级,而是利用机器学习建立了一个分层框架,首次实现了从“属”到“目” (Order),甚至跨越宿主界限(原核与真核)的精准分类。
告别“扁平化”:构建多维度的分类宇宙
在深入数据之前,我们先来看看为什么之前的工具不够好。此前的明星工具 vConTACT 和 vConTACT 2.0 虽然在当时具有开创性,但它们主要依赖于 ClusterONE 算法。这种算法在处理重叠群集时表现出色,但它有一个致命的弱点:它是“扁平”的。它只能告诉你哪些病毒聚集在一起形成了一个“属”,却无法告诉你这些“属”之上是如何汇聚成“科” (Family)、“目” (Order) 的。
而在最新的 vConTACT3 中,研究人员抛弃了原有的算法,转而采用了一种优化的层次聚类框架 (Hierarchical Clustering Framework)。这种新框架巧妙地整合了基因共享网络 (Gene-sharing Network) 的拓扑结构与自适应距离优化 (Adaptive Distance Optimization)。
为了让这个系统足够“聪明”,研究人员进行了一场规模惊人的参数优化实验。他们利用 NCBI RefSeq 数据库中约 20,000 个已知病毒基因组,测试了超过 6000万 种参数组合。这一过程涵盖了六个主要的病毒域 (Realm) 和三个宿主域(细菌、古菌、真核生物)。
请注意这个工作量:他们并没有简单地设定一个通用的阈值,而是针对不同的病毒域和宿主,寻找特定的最佳切分点。
数据显示,这种“量体裁衣”的策略是极具洞察力的。研究发现,不同病毒类群的进化速率存在巨大差异,因此单一的划分标准在整个病毒圈是行不通的。例如,在感染原核生物的 双链DNA病毒 (Duplodnaviria) 中,用于建立蛋白质聚类的序列一致性标准从“目”到“属”逐渐提高(从30%到70%),而成对距离切分值 (Pairwise Distance Cut-offs) 则从0.99下降到0.55。
相比之下,对于感染真核生物的病毒,只需要两个蛋白质聚类一致性标准(30%和40%),且切分值的范围更窄(0.99到0.74)。这一数据生动地说明了原核病毒和真核病毒在基因组演化上的本质区别:为了在原核病毒中通过基因共享来实现与 ICTV 标准一致的分类,我们需要更宽的距离范围和更多的参数层级。
准确性的跃迁:不仅仅是快,更是准
对于任何分类工具而言,准确性是安身立命之本。vConTACT3 在这方面的表现可以说是“统治级”的。
当研究人员将 vConTACT3 的分类结果与 ICTV 的官方分类进行比对时,结果令人振奋。在对 35,545 个原核病毒基因组的测试中,vConTACT3 在绝大多数域中实现了超过 95% 的一致性。
具体来看,对于 双链DNA病毒 (Duplodnaviria)、单链DNA病毒 (Monodnaviria)、线状病毒 (Adnaviria) 和 多样DNA病毒 (Varidnaviria) 这四个域,vConTACT3 在“属”这一层级的分类准确率分别达到了 97.6%、98.7%、100% 和 90.6%。而在更高的层级,如“科”和“目”,其准确率甚至更高,在某些类群中直接达到了 100%。
这种高准确率并非仅限于原核病毒。对于 13,524 个真核病毒基因组,vConTACT3 同样展现了强大的适应性。在“域” (Realm) 这一最高层级,它的分类一致性达到了 100%;在“目”和“科”的层级,一致性也分别高达 98.7% 和 96.7%。
这是一个里程碑式的进步。过去,我们往往认为基于基因共享网络的分类方法只适用于噬菌体(原核病毒),而对于基因组结构更为复杂、变异更为剧烈的真核病毒束手无策。vConTACT3 用数据打破了这一成见,证明了只要参数调优得当,基因共享网络同样是解析真核病毒演化关系的利器。
挑战“暗物质”:在碎片中寻找真相
宏基因组学时代带来的最大挑战之一,就是数据的碎片化。我们在环境中测到的往往不是完整的病毒基因组,而是被打碎的片段。对于传统的基于参考基因组比对的工具来说,这些碎片就像是缺失了封面的拼图,难以归位。
为了测试 vConTACT3 处理这些“残片”的能力,研究人员设计了一个巧妙的计算机模拟实验 (In Silico Fragmentation Experiment)。他们随机选取了 20,000 个病毒序列,将其打碎成 41,536 个片段,长度分布在原始基因组的 20% 到 80% 之间。
结果显示,超过 90%(确切地说是 38,133 个)的片段能够被 vConTACT3 有效分类。更值得关注的是片段长度与分类精度的关系:
1-3 kb 短片段:只有极少数能被精确分类到“属”。
3-10 kb 中等片段:约有 35.1% 可以分类到“属”。
>10 kb 长片段:这通常也是许多病毒组学研究的质量控制标准,vConTACT3 将其中 96.3% 的片段准确地归类到了“属”或“亚科”层级。
这组数据为我们提供了极其宝贵的实践指南:在处理环境病毒数据时,如果能获得 10 kb 以上的重叠群 (Contigs),我们就有很大的把握利用 vConTACT3 获得高分辨率的分类信息。
此外,研究人员还发现了一个有趣的现象:即便是一些无法被分类到“属”的短片段,vConTACT3 依然能正确地将它们放置在正确的“目”或“科”的位置上。在整个实验中,没有出现错误的分类,只有分类精度的下降 (Underclassification)。这意味着,vConTACT3 是一个保守而可靠的向导,它或许不会在证据不足时把你带到具体的门牌号,但绝不会把你指引到错误的城市。
发现未知的力量:走出已知世界的舒适区
现有的许多分类工具(如 VPF-Class, GeNomad 等)在处理已知病毒时表现尚可,但面对全新的病毒序列时,它们往往只能告诉你“它像什么”,而无法告诉你“它是什么”。因为这些工具缺乏一个能够创建新分类单元 (Taxa) 的统计框架。
vConTACT3 的核心优势在于它具有“从已知学习,向未知推演”的能力。它建立的规则虽然基于已知序列,但这种规则是一个开放的统计框架,允许它为那些从未见过的病毒创建新的“属”、“科”甚至“目”。
为了验证这一点,研究人员使用了 INPHARED 数据库(一个高质量的噬菌体基因组数据库)。在分析的 23,227 个序列中,针对其中已有 ICTV 分类的 4,827 个基因组,vConTACT3 展现了与其高度的一致性。但更令人兴奋的是对于那些未分类序列的处理。
当 vConTACT3 被应用于整个 INPHARED 数据集时,它自动创建了大量的分类单元,其中包括 3,113 个属(包含964个现有参考属并合并了72个)、1,335 个亚科、803 个科以及 192 个目。
想象一下,这意味着仅仅通过一次运行,vConTACT3 就为我们描绘出了数百个全新的病毒科和上千个新的病毒属。这些分类建议并非空穴来风,它们是基于严格的基因共享网络拓扑结构计算得出的。事实上,这些结果是非常可信的,以至于它们已经被用于支持 2024年提交给 ICTV 的18项新病毒科分类提案。
案例分析:当机器战胜数月的人工苦役
为了直观地展示 vConTACT3 的效能,让我们来看一个具体的案例:Ackermannviridae (阿克曼病毒科)。
这是一个分类学上颇为复杂的病毒科。传统的分类方法需要顶尖的分类学专家,耗费数月的时间,通过构建核心基因组系统发育树 (Core-genome Phylogenies) 来进行手工分析和界定。在本次研究中,研究人员选取了八个 ICTV 病毒科(代表了 2,422 个基因组)进行对比分析。
结果显示,vConTACT3 的自动化分类结果与专家耗时数月得出的结论高度一致。在系统发育树上,vConTACT3 预测的“科”以彩色的圆圈清晰地标记在分支的中间点,其预测的“目”则完美地覆盖了外围的环。
更重要的是,vConTACT3 能够处理人类专家难以处理的“边缘情况” (Edge Cases)。在分析中,约有 9% 的案例属于分类极具挑战性的区域。在这些情况下,基因组之间的平均核苷酸一致性 (ANI) 处于 65% 到 70% 的尴尬区间(ICTV 的种属界定标准通常为 70%)。vConTACT3 在这些模糊地带提供了基于全基因组基因共享模式的客观判断,指出了哪些类群可能需要合并,哪些应当拆分。
这不仅节省了时间,更消除了人为判断的主观偏差。对于那些尚未被 ICTV 覆盖的空白区域,vConTACT3 实际上是在为未来的分类工作绘制蓝图。
分类学的极限:我们真的需要15个层级吗?
ICTV 最近将病毒分类体系扩展到了 15个层级(从“种”一直到“域”)。然而,vConTACT3 的大规模数据分析对这一繁复的体系提出了深刻的思考:数据真的支持这么多层级吗?
通过对海量病毒序列空间的系统性评估,研究人员发现,基于基因共享 (Gene-sharing) 的分析方法,对于大多数病毒域来说,只能自信地定义四个层级:属 (Genus)、亚科 (Subfamily)、科 (Family) 和目 (Order)。
在数据图中,我们可以清晰地看到准确率曲线在距离切分值为 1.0 时达到峰值,这通常对应于几乎没有共享基因的情况。这表明,在“目”以上的层级(如纲、门、界),病毒之间的基因共享已经极其稀少,单纯依靠基因共享网络已经难以分辨彼此的演化关系。
这一发现具有重要的理论意义。它暗示我们,如果要构建更高层级的病毒分类(比如“纲”或“门”),我们需要引入基因共享之外的信息,例如特异性的标志基因 (Hallmark Genes) 或者蛋白质折叠结构 (Protein Fold) 数据。
同样,在分类的另一端——“种” (Species) 这一层级,vConTACT3 也显示出了局限性。这是因为“种”的界定通常依赖于全基因组序列相似性(如 ANI > 95%),而这超出了基因共享网络的解析范围。对于这一层级,研究人员建议继续使用 VICTOR、VIRIDIC 或 ViPTree 等基于序列相似性的工具。
这并不是 vConTACT3 的失败,恰恰相反,它为我们划定了基因共享网络分析的有效边界:从属到目。这是病毒分类学中最核心、也是最为庞杂的中段。
迈向自动化的分类学未来
vConTACT3 的出现,标志着病毒分类学正在经历一场从“手工匠人时代”向“工业化时代”的转型。
在过去,ICTV 的分类工作很大程度上依赖于专家的个人经验和对特定病毒群体的深入理解。这种方式虽然精细,但面对环境样本中涌现出的数以万计的新病毒,显然已经难以为继。vConTACT3 提供了一个可扩展、系统化且统计严谨的框架,它不仅能够处理已知,更能探索未知。
当然,正如研究人员在文中所指出的,没有任何工具是完美的。vConTACT3 在处理极度稀疏的序列空间时,其对高层级分类(如“目”)的指派可能会出现波动;对于极大规模的数据集(如超过50万个基因组),虽然其分类稳定性(通过归一化互信息 NMI 衡量达到 0.94)极高,但仍需对稀有类群保持谨慎。
但无论如何,这项研究成果让我们离这一愿景更近了一步:建立一个基于基因组数据的、通用的、能够反映病毒演化本质的分类体系。在这个体系中,每一个从深海、土壤或人体中发现的病毒片段,都能快速找到属于自己的演化坐标。
在这个 1031 的数字迷宫中,我们要么被数据淹没,要么学会制造更聪明的指南针。vConTACT3,正是这样一枚指向新大陆的指南针。
参考文献
Bolduc B, Zablocki O, Turner D, Bin Jang H, Guo J, Adriaenssens EM, Dutilh BE, Sullivan MB. Machine learning enables scalable and systematic hierarchical virus taxonomy. Nat Biotechnol. 2025 Dec 19. doi: 10.1038/s41587-025-02946-9. Epub ahead of print. PMID: 41420049.
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!