当前位置:首页  〉 科研学术  〉 业界声音

刘士远:医学影像AI发展进入深水区后的思考

发布时间:2018-10-15 发布来源:上海市科学学研究所

  近日,由上海市卫生和健康发展研究中心、上海交通大学人工智能研究院、生物谷联合主办的“2018未来医疗科技大会”在复旦大学枫林校区举办。在医疗人工智能应用论坛上,第二军医大学附属长征医院影像医学与核医学科主任医师、教授刘士远做了题为“医学影像AI研究现状与挑战”的演讲,三思派将内容整理发布。
  
  我作为一名医生代表,来谈一谈关于医学影像AI方面的一些认识。AI现在很热门,应该说达到了一种全民AI、人人智能的境界,我们想到的行业都在做人工智能。医疗领域中的每个环节、每个学科也都在做,大家都觉得这是一块很好的蛋糕,想要来分享一下它成长过程中带来的一些利益,当然也不愿意被这班列车抛弃,毕竟代表着一个时代的方向。
  
  在医疗方面,影像可能是最先应用人工智能的,因为普遍认为影像比较简单,数据可以结构化。AI最开始被大家认识就是从图像大赛开始的,就是看图这么简单的事,尤其是皮肤癌、眼底病,它一看就知道,所以进入医学影像的AI公司特别多。
  
  影像的需求很大,因此对影像科医生的需求也很大。目前上海三甲医院的预约时间都在两周以上,现在据说已经在一个月以上了。技术员可以轮班倒,机器可以不休息,但是临床影像中医生人力不足,做完以后没有这么多医生出报告,这可能是一个瓶颈问题。如果初诊能够让机器人来做,这个愿望自然是很好,我们现在都面对这样的压力,仅凭这些影像科医生写报告,可能写到角膜脱落也写不完,写不完则会造成漏诊、误诊,这其中风险很大。
  
  需要真正的人工智能公司和真正的算法科学家
  
  影像AI、全国AI很热,又有国家政策支持,热风频吹。中国人口多,需求大,医生不足,医疗行业对AI的需求也很大,所以公司也特别多,新兴公司雨后春笋一样,原本做设备的老牌公司也分一块出来做AI,原来做软件的公司近水楼台更加方便,也开始做AI。基本上和医疗相关的公司没有不做AI的。我昨天看到,阿里巴巴、腾讯也在涉足AI。人工智能的范围很大,从简单的机械臂到各种自动化,都可能归到智能的范围。然而我们所说的人工智能到底是什么?可能现在大家说的都是基于深度学习的人工智能,但是这些公司又都在做什么方面的人工智能、哪个环节的人工智能,它们的核心竞争力在哪里。医生选择合作伙伴的时候也要知道合作公司的水平在哪里、核心竞争力在哪里。公司在聘请科学家时要瞪大眼睛,现在所谓的AI算法科学家很多,但据我所知依然是奇缺,真正的科学家很少。
  
  我们有很多学会、联盟,比如新成立的全国AI的学会,还有所有学会内成立的AI分会。有一家医院联合一两家公司成立的联盟,也有我们这种上百家医院数十家公司的联盟。当然这是好事,我们希望这些学会、联盟能够促进行业的发展。不过无论是学会还会联盟,这些组织要知道自己干什么,组织和组织之间不仅仅是竞争关系,还应该想到一个如何互通、分享,如何共同把这个行业的规范做好,把行业引导向一个好的方向。
  
  现在关于AI的会议特别多,有政府组织的,也有学会、公司或投行等组织的。但是这些会议讲故事的偏多,我希望会议能聚焦核心问题,比如某个算法的问题怎么解决,比如一些标注的问题,数据库的构建怎么解决等等。我们目前的正面环境很好,但要解决的是在哪里烧旺一点,在哪里应灭灭火。
  
  影像医生需要发挥更多的核心作用。对于任何AI产品,医生是终端用户,又是AI产品研发的启动者、源头。产品所要解决的问题是由医生提出的,数据也在医生手里,基于深度学习的核心是标注的数据,也在医生手里。医生有引领、培育AI的作用,医生还要建立一些与行业、产品相关的标准。AI产品好不好用要及时反馈,比如现在临床方面的一些AI产品,医生是不是愿意用,这些反馈便于AI公司不断地完善。AI是一个好工具,医生要拥抱它、宣传它、引领它,只有大家一起努力,才能让AI在一个好的环境里像新生儿一样越长越壮,将来能够服务人类。
  
  医学影像需要什么样的AI产品?
  
  影像工作从问诊、检查、阅图、分析、判断,到出报告、建议、随访每个环节,都欢迎能够改善现有工作体验、提升工作效率的产品。应该说,对于影像工作流中每个环节里的问题,只要AI能够提供解决方案,包括我们所谓的排队系统、叫号系统,临床都是欢迎的。现在大家集中在阅图、分析和判断,主要是检测和鉴别。我相信通过这些工作能够提升报告的质量,也能够把医生从屏幕上解放出来,然后让医生有更多的时间和患者沟通。影像科医生可以更多地去解释报告,去做门诊,也可以在单位时间内做更多的工作,提高效率。
  
  什么样的产品是临床上受欢迎的?首先要符合临床使用的场景。研发人员在研发之前最好到临床看一看,到影像科看一看影像科医生是怎么样读图的、怎么样写报告的,只有符合这些习惯,研发才是有前途的。另外做好的产品一定要使用方便,要具备一个友好的人机交互界面,大家才愿意去用。当然,核心是产品要有好的敏感性和特异度,不能漏诊、误诊。总之,产品要以检查部位和检查目的作为终端解决方案,要像现在影像科出报告一样,有一些描写,有一些诊断,有一些建议,实现多器官多任务的输出形式,这才是有前途的。
  
  目前关于影像的AI产品,最接近临床的是肺结节的检测,肺结节的鉴别现有效果也不错。其他方面做得比较多的还有脑卒中、骨折,以及冠脉和乳腺,在背景相对单一、简单的部位开展试点是正确的选择,可以先从简单的开始解决。在脑出血方面,关于脑卒中的自动识别、检测以及量化,已经在我们医院上线,比如我们肉眼看两次脑出血的量认为差别不大,但是AI能够准确分析出量的变化和差异,以及出血是活动性的,还是已经稳定了的,是否需要进一步治疗,因此它的临床指导意义很大。
  
  关于鉴别诊断,不同的公司都在做,展现出很好的前景。现在做两千例的一个训练级的模型,敏感性和特异性已经达到相当高的水平。未来如果进一步扩大数据量,这个准确性还会得到进一步的提高。当然这个模型,我常常把它比喻成一个新生儿,将来能不能长大成人,还要看交给谁来培养。如果交给一个猴子来培养,他可能连话都不会说,如果交给一个靠谱的老师,他将来就会成为一个有用的人才。通过用我们标注的训练集逐渐进行调试,最后可以把假阳性降到非常低,低到可以接受的范围。这个训练集是老师编的教材,这个教材其实就是对于这个病历的正确的标注,因此这个标注是很重要的。对于急诊有没有骨折,有的甚至是外伤,漏诊的话会有一些后患,牵涉到医疗的纠纷、医疗官司,如果AI能够解决这些问题会很有意义。
  
  关于人机大赛,我认为这是拿一个局部的问题来进行比较,或者是闭环的数据来进行检测。对于结节的发生,主治医生来判断,是方方面面的综合判断,比检测、比速度一定是输的。是不是医生一定不如AI,一定会被取代呢?这个答案是肯定的,也是否定的。
  
  AI目前的发展,大多是从单一的疾病入手,而且单纯以图像训练为主,用于疾病筛查能做的很好,比如说在体检中心效果是好的,但用于临床的工作是不行的。另外企业用的训练集,也就是数据库的质量是参差不齐的,因此导致产品不稳定,还需要提高所有产品的普适性。某个模型拿出的数据非常好,但是换了其他的数据评价是不是依然好?最近我们帮中检院建立了数据库,就说明我们需要一个公认的第三方平台来评价这些产品。
  
  AI数据生产环节的问题
  
  关于数据方面,一方面,我们缺乏有效的训练数据,关于先前使用的国外训练数据、国外公开的数据集,不仅有人种的偏异,而且数量有限,会带来同质化的问题。国内尽管数据很多,但数据获取来源不畅,没有合法透明的渠道。另外,行业标准缺乏,比如做脑出血,脑出血图像的辨识需要大家达成一致的认识,用于描述它的术语需要统一,如何标注它需要统一,如何进行量化也需要统一。但是实际上现在每个公司都是让各自的合作医生自己研究,研究方向有可能是对的,但也有可能走了偏路,过两年发现走偏了,很可能已经晚了。我在联盟建议,要先组织一个专家组,形成专业术语的共识,形成图像识别的共识,形成标注的共识,然后再做。
  
  为什么大家不愿意贡献数据,是因为现在数据拿出去了就不知道是自己的了,这需要真正让数据可溯源,知道这些数据是我的贡献。然后是数据的伦理问题,需要相应的部门立法,出台一些管理的法规、体制。
  
  图像标注环节的问题(DLAI成败的关键)
  
  图像标注的问题其实是深度学习的核心问题,但是解决得并不好。关于肺结节有12家公司在申请拿证,于是就委托我来构建肺结节的标准检测库。我们在全国影像科医生中招募志愿者,最后有260个专业影像医生报名。我们用30例肺结节来考试,看看哪些靠谱,结果这260个人当中对于结节的标注准确率只有30%。影像科医生标注专业的,而且是在影像学当中比较简单的肺结节黑纸中点白点,只有30%合格,说明这里面有很多的问题。可能还有其他的问题,这个标注也许不是影像科医生的,甚至不是医生的。例如有些公司可能为了省钱,直接请标注公司帮助标注。标注公司也可能只是请了大学生标注一下,结果可想而知。
  
  另外,图像的认识不统一。比如肺结节说起来很简单,但是里面有磨玻璃结节,还有实性结节,尤其是小的结节,可能看上去像是一个磨玻璃结节,但实际上是实性结节,这牵涉到这个结节多大,在什么位置,怎么判断。这些都需要专家来进行讨论确立。还有比如说结节,这个边界到底是清楚还是不清楚,从不同的角度可能得出的结论不一样,然后结节的边界不一样,可能标出来的结果就是不一样的。
  
  标注的方法方面,有的用区域标注法,有的用紧密包裹法。当然,我不懂计算机,可能在座专家有研究算法的。标注方法也不只这两种,这两种方法对于结节的差别很大,有血管的改变都会影响它的性质的判断,所以说用什么样的标注方法来标注,也会影响你输出的结果。我们说4毫米以上的病灶需要定量,定量就需要进行分割,分割说起来容易,大家总觉得实体性的分割难,难道空腔就容易吗?其实并不是,比如说边上的毛刺,然后你怎么来分,如果说不达成一个共识,张三只画里面的部分,李四全部的体积,这个会极大的影响它的准确。
  
  还有量化、测量大小、测平均直径、测体积,有很多的方法,你用什么样的方法来测,这个都需要有共识,这是要有定义的。
  
  AI产品检验环节的问题
  
  在产品检验环节,医生是比较被动的。首先要知道这个生产过程是怎样的,我们只有参与更多、了解更多,才能有发言权,模型的效果还需要第三方公认的来检测。我们前期在中检院,通过肺结节的构建,已经建立一套标准数据库建设的模式,未来对其他疾病模型的标准构建可以参照这个模式。在使用的环节有些评价的问题。当然也有人担心,比如说肺结节检测,假如都由机器完成了,年轻医生得不到锻炼,能力会不会废掉。就像开车一样,现在大家开车有百度地图,都会导航,未来可能不会开车的80岁的人也同样可以驾驶上路。实际上,肺结节的识别发现不是一个问题,没有技术含量,未来医生资源应该投入到对结节是什么的判断,而不是找有没有结节。
  
  医学影像AI发展的建议
  
  公司现在核心是数据,未来AI的方向不是数据,而是算法。目前基于深度学习,基于图像标注的这种算法是没有出路的,因为这是对单一的病种逐个标注,大数据完成小任务。未来如果说无监督学习,应该比如说学一万例正常的,一万例异常的可以标注出来。未来还是要靠算法才能够真正形成突破,才能够根本地解决问题。
  
  今年4月份我牵头成立了中国医学影像AI产学研用创新联盟,这个联盟包括近一百家公司机构,下半年还会增补。我们的目的是做行业的共识、标准,以促进行业的发展,同时也做政府的智囊团。
  
  总的来说形势一片大好,但是对于AI来说并不一定。大家觉得看图好像很简单,但影像的图其实不只是一个皮肤的图,影像图是多维的。我经常跟AI公司说,脊柱的磁共振检查都是重复的报告,没有技术含量,大家都不愿意写。但目前也没有哪家公司愿意做,为什么?维度太多了,有锥体维度等很多维度。基于目前的深度学习方法,很难弄清这些维度,所以还是要算法有根本突破才行。
  
  不管怎么说,AI很好,我从16年下半年开始对它感兴趣,然后合作开始搞这方面的研发,我也希望它未来能够解决我们的痛点,能够成为我们影像科医生的好帮手,但是我们医生要培养,把这个婴儿养大成人,将来服务我们。我希望AI在大家的培养下能够早点落地,能够有更好的明天,谢谢大家。
  
  作者介绍
  
  刘士远,第二军医大学长征医院影像医学与核医学科主任,教授、主任医师,博土生导师。从事医学影像诊断工作30余年。入选上海市领军人才、优秀学科带头人及21世纪优秀人才。

分享到:

版权所有©上海市科学学研究所

沪公网安备 31010402001155号