来自CAP-China平台的一项病原检索工具——基于PubMed文献摘要的呼吸道病原菌检索数据库
来源: 呼吸界 2021-12-12

1. 引言


由于第二代测序(next generation sequencing,NGS)的高敏感性,其在诊断呼吸道病原体中的应用愈加普及。由于样本污染而造成NGS假阳性混淆临床诊断,亦或是检测出病原菌无法区分定植菌和病原菌,或是临床医生缺少相关微生物知识,这都限制了NGS报告的正确解读。当临床工作人员遇到NGS报道的物种而无法确定其是否是病原菌时,常需要根据临床经验和既往关于此物种致病的报道进行判断。对于物种致病的报道常通过检索PubMed获得,但是检索PubMed常常获得很多非临床相关文献,阅读大量文献花费临床医生大量时间,还可能导致临床医生无法快速获取准确的文献。为了更准确更快速解读NGS报告中的呼吸道病原菌,中日医院曹彬教授团队借助神经网络模型筛选了PubMed中报道呼吸道病原菌的文献并建立了呼吸道病原菌检索数据库,结合文献摘要信息,为临床医生提供初步的病原判读帮助。对该病原菌检测数据库介绍如下。


2. 病原菌检索数据库概述


如图2-1所示,左侧后台端描述了呼吸道病原菌检索数据库产生和更新的流程。研究者使用美国微生物学会编撰的第11版《Manual of Clinical Microbiology》中涉及的细菌名称在PubMed数据库中进行检索并下载相应文献的摘要。将下载的文献摘要分为两组,分别进行人工标注和模型标注,标注过程为判断文献中提及的细菌是否为呼吸道致病原,并提取文献中相关信息(包括患者的人数、年龄、性别、免疫状态、呼吸道基础疾病、检测此病原菌所用的标本、预后等信息)。人工标注的文献被进一步用于训练神经网络模型,并使用训练好的神经网络模型其余的文献(注:由于文献原文无法批量获取,人工标注和模型标注的过程中只使用了文献的标题和摘要)。通过校对者的检查,人工判断呼吸道致病病原菌的准确度为92%。对模型进行交叉验证,模型判断呼吸道致病病原菌的准确度为87%,Precision为0.69,Recall为0.89,F1为0.78。后续定期对PubMed数据库进行检索以获取新发表的文献,并使用神经网络模型对新检索的文献进行标注以更新数据库。右侧Web端是面向用户的网页端检索工具,用户可通过「中国肺炎研究」官方网站首页(https://www.chinapneumonia.cn/)选择「病原检索」进入或直接由https://www.chinapneumonia.cn/pathogens进入。


图 2-1:软件运行流程图


3. 检索工具使用说明


3.1 运行步骤


如图3-1所示,在「中国肺炎研究」官方网站首页(https://www.chinapneumonia.cn/)上方选择「病原检索」(位置如图3-1中①所示)进入病原检索页面。


图 3-1:进入检索页面


如图3-2所示,进入病原检索页面后,在中部的搜索栏中输入目标细菌名称,支持中文或英文名称,且搜索栏支持联想功能,可以通过输入部分细菌名称以获得联想的细菌名称。①处提供了帮助链接,包含了此工具的使用说明书。


图 3-2:搜索病原菌


图3-3显示了搜索后的结果页面。


①显示了报道此细菌为呼吸道病原菌的文献的数量。

②处为排序选项,可以以「物种英文名称」、「物种中文名称」,患者的「样本量」、「年龄」、「免疫状态」、「证据等级」(检测病原菌所用的样本类型),文献的「发表日期」进行排序。

③处为筛选选项,点击此处可以显示筛选栏.

④可以按照患者的「性别」、「样本量」、「年龄」、「免疫状态」、「证据等级」和文献的「发表日期」进行筛选。

⑤处显示了一篇文献的信息,包含了文中患者的「性别」、「样本量」、「年龄」、「免疫状态」、「证据等级」,文献的「标注方式」、「发表日期」、「原文链接」的信息。


图 3-3:搜索结果


3.2 结果解释


每条搜索结果为一篇报道了搜索细菌为呼吸道病原菌的文献的信息概要。包括了细菌信息(英文名称、中文名称),患者的基本信息(样本量、性别、年龄、免疫状态)、证据等级、标注方式、文献信息(原文链接和发表日期)。如果细菌被判断为呼吸道病原菌,则其「是否病原菌群」结果为「yes」,否则为「no」。患者样本量被分为「1」、「1-10」、「11-100」、「100以上」及「none」(表示未获取相关信息);患者年龄被分为「1岁以下」、「1-17岁」、「18-65岁」、「65岁以上」及「none」(表示未获取相关信息);患者免疫状态包括「正常」、「抑制」及「none」(表示未获取相关信息),符合以下的任一条件,便被定义为免疫受损:(1)患有血液癌或实体肿瘤及接受化疗者;(2)因血液癌/骨髓移植/固体器官移植而进行免疫抑制治疗;(4)慢性类固醇使用;(5) 患有艾滋病;(6) 再生障碍性贫血等其他导致免疫细胞数量或功能缺陷的血液类疾病;(7)无脾(8) 其他免疫功能不全(任何免疫功能不全状态,包括先天性/遗传免疫不妥协);证据等级是基于微生物学和病理学评价判断细菌是否为呼吸道病原菌的标准,表3-1列举了证据等级的分类标准。标注方式包括 「人工标注」和「模型标注」,「人工标注」表示此文献中的细菌是否为致病菌由人工判读结论确定,「模型标注」表示此文献中的细菌是否为致病菌由神经网络模型判定。


3.3 注意事项


为了高效且全面地检索文献,同时由于文献全文无法批量获取,因此我们仅通过文献的摘要判断目标细菌是否为致病细菌,这可能导致部分信息的缺失。另外,本数据库尚未纳入报道病毒与真菌在呼吸道致病的文献,计划将来补充相应数据。


* 分子学诊断包括PCR / RT-PCR和二代测序。

表3-1 证据等级分类标准


作者介绍


刘正平


清华大学临床八年制医学博士在读,曾赴美国匹兹堡大学访学两年,现于北京协和医院进行临床学习。


本文完
排版:Jerry
1113