tuzhiluobo
让AI技术与基础医学理论结合,成为AI用于临床 探索 的新思路。目前这一新思路已被证实确有更大潜力——
最近,由广州市妇女儿童医疗中心教授夏慧敏和加州大学圣地亚哥分校教授张康领衔、人工智能公司依图 科技 等共同参与的科研团队设计出一套基于AI的疾病诊断系统,就将医学知识图谱加入其中,使AI可以像人类医生一样根据读取的电子病历来“诊病”。
结果也颇为乐观:用纳入系统的55种常见儿科疾病和部分危急重症作测试,AI的诊断水平可达到儿科主治医生的专业水准。
目前,这一研究成果《使用人工智能评估和准确诊断儿科疾病》已于2月中旬在线发表于《自然—医学》杂志。
将深度学习技术与专业医学知识图谱进行结合,是该人工智能辅诊平台的最大特色。依图医疗总裁倪浩在接受笔者采访时说,未来对临床数据进行学习、为医生提供更多的辅助诊断能力(病种),采用深度学习+知识图谱的方式“很可行”。
为了使AI辅诊平台拥有专业的儿科医学知识,科研团队让它学习了万名儿童136万份电子文本病历中的诊断逻辑。这些来自广州市妇女儿童医疗中心2016年1月至2017年7月间的电子病历,覆盖了初始诊断包括儿科55种病例学中常见疾病的亿个数据点。
除了将医疗知识进行整合,科研团队还利用依图 科技 的自然语言处理(NLP)技术构建了一个自然语言处理模型,以对这些电子病历进行注释——通过将病历变得标准化,该模型在未经过“培训”的情况下可以粗略地将临床信息进行分类。
“粗略分类是指,将整个电子病历当作输入,将专家诊断结果作为输出,以达到粗略的分类。但这样并没有真正理解疾病本身,也很难解释为何做出了这个诊断。”倪浩告诉笔者, NLP模型虽然突破了病历文本语言和计算机语言之间的障碍,但知识图谱才是让AI诊断平台获取专家能力的关键 。
这也是他们接下来的一项重要工作:由30余位高级儿科医师和10余位信息学研究人员组成的专家团队,手动给电子病历上的6183张图表进行注释、持续检验和迭代,以保证诊断的准确性。
通过资深医疗专家注释的图表对AI诊断平台进行“培训优化验证”后,研究人员发现,经过深度学习的NLP模型可以对电子病历进行很好的注释,在体检和主诉项目的注释上分别达到最高灵敏度和精确度。也就是说, 深度学习的NLP模型能够准确地读取电子病历中记录的信息,并可以准确作出符合临床标准的批注。而这也是整个研究中最为关键的部分。
“通过引入知识图谱将每种疾病的电子病历深入解构,使得NLP模型具备了理解电子病历的能力。例如手足口病与哪些特征密切相关,川崎病最相关的特征是什么,让模型在给出准确诊断的基础上,能够具备更好的医学可解释性。”倪浩解释说,“有了知识图谱,再用深度学习技术来解构电子病历,就能够真正理解临床数据。基于此,机器学习分类等算法就有用武之地,否则把电子病历当成‘黑盒子’,是无法构建高精度可解释的模型的。”
综合利用深度学习技术与医学知识图谱对电子病历数据进行解构,研究人员据此构建了高质量的智能病种库,这使得后续可以较容易地利用智能病种库建立各种诊断模型。
构建一个多层级的诊断模型,是研究人员把AI诊断平台打造成为儿科医生的第二步。倪浩介绍说,这一基于逻辑回归分类器创建的诊断模型,首先会按呼吸系统疾病、胃肠道疾病、全身性疾病等几大系统分,然后在每一类下面做细分—— 这是让AI模拟人类医生的诊疗路径,对目标患儿的数据进行逐级判定 。
结果显示,基于NLP模型准确读取的数据,AI诊断模型能够对儿科疾病作出精确诊断: 平均准确率达90%,对神经精神失调疾病的诊断准确率更是高达98%。
在对相应儿科疾病的划分和诊断上,该诊断模型同样表现不俗。系统对上呼吸道疾病和下呼吸道疾病的诊断准确率分别为89%和87%。同时,该系统对普通系统性疾病以及高危病症也有很高的诊断准确率,例如传染性单核细胞增多症准确率为90%,水痘为93%,玫瑰疹93%,流感94%,手足口病为97%和细菌性脑膜炎为93%。
这揭示出,该诊断系统可以根据NLP系统注释的临床数据信息对常见儿科疾病作出较高准确度的判断。
研究人员随后运用11926个临床病例比较了AI诊断系统和5个临床治疗组诊断儿科疾病的水平,其中参与研究的治疗组从事临床工作时间和资历逐渐增加。结果显示, AI诊断系统反映模型综合性能的F1评分均值高于2个年轻医生组成的治疗组,但稍逊于3个高年资医生组成的治疗组。
论文认为,这说明该AI诊断系统可以协助年轻治疗团队进行疾病诊断,提升团队诊疗水平。
今年1月1日,该系统在广州市妇女儿童医疗中心投入临床应用。 仅1月1日至1月21日短短20天,该院医生实际调用它开展辅助诊断30276次,诊断与临床符合率达到。广州市妇儿中心医务部主任孙新在体验该系统后表示,这套系统在对疾病进行分组分类方面“比较科学”。
上述论文发表后,《纽约时报》点评这项研究称,“前后访问了儿科医院18个月中数十万名中国就医儿童的数据,能有这么庞大的数据量用于研究,也是中国在全球人工智能和竞赛中的优势。”
“数据确实是我们此次研究成果的核心关键之一。”倪浩说,“不过,高质量标准数据来源于强大的联合团队,我们专门开发了数据标准系统,进行了大量的数据标注。”
论文通讯作者之一、广州市妇女儿童医疗中心教授夏慧敏表示,这篇文章的启示意义在于“通过系统学习文本病历,AI或将诊断更多疾病”。不过他提醒道, 当下还须清醒认识到,仍有很多基础性工作要做扎实,比如高质量数据的集成便是一个长期的过程。
笔者了解到,该医院在近3年里注重将数据标准化、结构化处理,实现了50多个诊断数据子系统的相互交流和互联互通,为该系统应用打下了基础。
“此外,A I学习了海量数据后,其诊断结果的准确性仍然需要更大范围的数据对其进行验证和比对。 ”夏慧敏说。
AI技术落地的4元素之中,场景也非常重要。论文的另一位通讯作者张康认为,该研究以儿科疾病为对象意义重大。
“对儿科疾病的诊断是医疗中的一大痛点。一些儿科疾病威胁程度较大需要尽快得到治疗,而儿童恰恰不善于表达病情,因此快速、准确地对儿科疾病进行诊断非常必要。”张康表示,当前儿科医生供不应求,论文中构建的AI诊断系统对于严重不足的医疗资源会有很大的辅助作用。
相关论文信息:DOI:
迷路的豆豆
人类与基于模型学习的计算机视觉算法区分开来的一个特点是,能够获取关于世界的知识,并利用这些知识对视觉世界进行推理。人类可以了解物体的特性以及它们之间的关系,从而学习各种各样的视觉概念,通常只用很少的例子。本文研究了结构化先验知识在知识图谱形式下的应用,表明利用该知识可以提高图像分类的性能。我们在最近关于图端到端学习的工作的基础上,引入了图搜索神经网络(Graph Search Neural Network)作为一种有效地将大的知识图谱合并到视觉分类管道中的方法。我们在许多实验中表明,对于多标签分类,我们的方法优于标准的神经网络基线。
(a)将GSNN()作为一种将潜在的大知识图谱合并到端到端的学习系统中的方法,该系统在计算上对大图是可行的; (b)一个使用噪声知识图谱进行图像分类的框架; (c)解释我们的图像分类的能力。使用传播模型。我们的方法明显优于多标签分类的基线。
将GGNN用于图像任务的最大问题是计算可伸缩性。例如,尼尔(NEIL)[4]有超过2000个概念,而内尔(NELL)[3]有超过200万个自信的信念。即使对我们的任务进行了删减,这些图仍然是巨大的。标准GGNN上的正向传播是( ), 是节点数,反向传播是( ),其中 是传播步骤数。我们在合成图上对GGNNs进行了简单的实验,发现在超过500个节点之后,一个向前和向后的传递在一个实例上会超过1秒钟,即使在做出大量参数假设时也是如此。在2000个节点上,单个图像需要一分钟多的时间。不可能在盒子外(out of the box)使用GGNN。
我们解决这个问题的方法是图搜索神经网络(Graph Search Neural Network ,GSNN)。顾名思义,我们的想法是,不要一次对图形的所有节点执行循环更新,而是从一些基于输入的初始节点开始,只选择扩展对最终输出有用的节点。因此,我们只计算图子集上的更新步骤。那么,我们如何选择要用哪个节点子集初始化图呢?在训练和测试期间,我们根据目标检测器或分类器确定的概念存在的可能性来确定图中的初始节点。在我们的实验中,我们对80个COCO类别中的每一个都使用了更快的R-CNN(Faster R-CNN)[28]。对于超过某个选定阈值的分数,我们选择图中的相应节点作为初始激活节点集。
一旦我们有了初始节点,我们还将与初始节点相邻的节点添加到激活集。考虑到初始节点,我们首先要将关于初始节点的信念传播到所有相邻节点。然而,在第一个时间步骤之后,我们需要一种方法来决定下一个扩展哪个节点。因此,我们学习了一个每个节点的评分函数,它估计该节点有多“重要”。在每个传播步骤之后,对于当前图中的每个节点,我们预测一个重要性得分
是一个学习网络,重要性网络(importance network)。
一旦我们有了 的值,我们就将从未扩展到的得分最高的 个节点添加到我们的扩展集(expanded set),并将与这些节点相邻的所有节点添加到激活集(active set)。图2说明了这种扩展。t=1时,仅扩展检测到的节点。t=2时,我们根据重要性值扩展所选节点,并将其邻居添加到图中。在最后一个时间步骤 中,我们计算每个节点的输出,并重新排序和零填充(per-node-output and re-order and zero-pad)输出到最终分类网络中。
为了训练重要性网络(importance net),我们将目标重要性值分配给图中给定图像的每个节点。与图像中真值概念(ground-truth concepts)相对应的节点被赋予1的重要性值。这些节点的邻居被分配了一个值 。两跳(two-hop)之外的节点具有值 ,以此类推等等。其思想是,最接近最终输出的节点是最重要的扩展。
现在我们有了一个端到端的网络,它将一组初始节点和注释作为输入,并为图中的每个激活节点输出每个节点的输出。它由三组网络组成:传播网、重要性网和输出网(the propagation net, the importance net, and the output net)。图像问题的最终损失可以通过输出网络从管道的最终输出反向传播,而重要性损失则通过每个重要性输出反向传播。参见图3查看GSNN架构。首先 ,检测信任初始化(detection confidences initialize) ,初始检测到的节点的隐藏状态。然后我们初始化 相邻节点的隐藏状态,使用0。然后我们使用传播网络(propagation net)更新隐藏状态。然后使用 的值预测重要性分数 ,该分数用于选择要添加到 的下一个节点。.然后用 初始化这些节点,并通过传播网络再次更新隐藏状态。T步之后,我们采取所有的累积隐藏状态来预测所有激活节点的GSNN输出。在反向传播过程中,二元交叉熵(binary cross entropy,BCE)损失通过输出层反馈,重要性损失通过重要性网络反馈,以更新网络参数。
最后一个细节是在GSNN中添加节点偏置(node bias)。在GGNN中,每个节点的输出函数 接受节点 的隐藏状态和初始注释,计算它的输出。在某种意义上,它与节点的意义不可知(agnostic)。也就是说,在训练或测试时,GSNN采用了一个可能从未见过的图,以及对于每个节点一些初始注释 。然后,它使用图的结构通过网络传播这些注释,然后计算输出。图中的节点可以表示任何东西,从人际关系到计算机程序。然而,在我们的图网络中,一个特定的节点表示“horse”或“cat”这一事实可能是相关的,我们也可以将自己约束到一个静态图而不是图像概念。因此,我们引入节点偏差项,对于图中的每个节点,都有一些学习值。我们的输出方程 , 是一个与整体图中的特定节点 相关联的偏差项。该值存储在一个表中,其值由backpropagation更新。
. 图像管道和基线(Image pipeline and baselines) 另一个使图形网络适应视觉问题的问题是如何将图形网络合并到图像管道中。对于分类,这是相当简单的。我们获取图形网络的输出,对其进行重新排序,使节点始终以相同的顺序出现在最终网络中,并对未展开的任何节点进行零填充。因此,如果我们有一个具有316个节点输出的图形,并且每个节点预测一个5维隐藏变量,那么我们将从该图形创建一个1580维特征向量。我们还将该特征向量与微调后的VGG-16网络的FC7层(4096 dim)连接起来[35],并将更快的R-CNN(80 dim)预测的每个COCO类别的最高得分连接起来。这个5756维特征向量被输入到一层最终分类网络中,该网络经过辍学训练。 对于基线,我们比较:(1)VGG基线-仅将FC7输入最终分类网;(2)检测基线将FC7和最高COCO分数输入最终分类网。
[1] 论文笔记:GSNN: The More You Know: Using Knowledge Graphs for Image Classification [2] The More You Know: Using Knowledge Graphs for Image Classification ——用知识图谱进行图像分类论文阅读笔记
[1] KMarino / GSNN_TMYN [2] SteinsGate9 / gsnn_demo
你好 毕业论文包括 1.封面(由学校发给学生自行打印) 2.标题:也可以说是题目 所表现的角度主题要有记忆点,加深读者印象 3.目录:可以说是小标题 把主题更加
写论文的关键是提纲。只有写了提纲,才能写出一篇成功的 毕业 论文,有了毕业论文提纲,你的写作流程思路也会更加清晰,下面我给大家分享毕业论文提纲怎么写,希望能
题目:应简洁、明确、有概括性。关键词:从论文标题或正文中挑选3~5个最能表达主要内容的词作为关键词。摘要:(150字)要有高度的概括力,语言精练、明确,交代本文
税务会计专业毕业论文范文 如何写相关专业的毕业论文呢?以下是一篇税务会计毕业论文范文,仅供参考。 摘要: 随着我国经济生产力的迅速发展和税法、税制的日益健全,税
会计学专业的毕业论文提纲 大学本科毕业论文是培养本科生创新意识和创新能力的有机环节,是大学本科生今后就读研究生、从事科研工作的前期训练。开题报告是本科生毕业论文