“我们医生现在最怕的就是AI研究人员直接上来对我们说:你们什么都不用管,只要给我数据,我就一定能做出成果来。这类人我遇到过很多。”
四川大学前副校长、华西医院病理科教授步宏曾在雷锋网的报道中如此说道。
步宏教授指出,他们也许认为只要把数据给到即可,但医生还必须考虑哪些信息必须隐去,因为涉及到伦理。
“现在不少医生开始研究人工智能,我的学生也在看计算机科学专家发表的结果,他们有时候会拿着论文跑过来对我说:老师,你看!这篇论文连基本的医学常识都没有。是不是该给它加一个医学的reviewer呢?”
“如果真的这么做,很多论文其实根本发表不出来。论文成功发表并不代表取得了成果,只说明在你reviewer的知识范畴中这种方法是可行的,实际应用到临床当中,就会暴露很多问题。我也绝不相信随便拿一堆片子就能做出研究成果来。”步宏教授补充道。
上个月,吴恩达团队发布AI+医学影像研究成果,声称该算法在识别胸透照片中肺炎等疾病上的准确率上超越了人类专业医师。
成果发布不久,放射科在读博士Luke Oakden-Rayner随之发布长文提出质疑:《吴恩达肺炎诊断成果不靠谱?放射科博士长文质疑:有些数据集根本不能用》。此外,不少影像科主任医师也向雷锋网反馈了该成果存在的诸多问题。
2017年,雷锋网参加了数十个顶尖医疗人工智能大会,而大会期间和会后交流环节,时常出现影像科医生批评市场上众多医学影像AI辅助诊断产品种种问题的情况,而当事人AI从业者面对这些批评时也往往却无法反驳,连连点头。
诸多医院科室主任解释到,过去一年里,他们经常看到“AI读片准确率、精确率高达百分之九十几,超越医生”这些字眼,这些报道有很多是不负责任的。
这样的判断方法回避了医学常用的“敏感度”和“特异度”的评价标准。
而AI研究者说采用的“准确率”和“精确率”严重依赖于样本总数里阳性和阴性的配比,举个极端的例子,设计一个系统,对于所有的输入都报阳性,即敏感度为100%,特异度为0,这就是个没有实际用处的系统,那么此时取100个测试样本中,99个为阳性,1个为阴性,此时计算出的准确率为99%,精确率也是99%。
评价医学人工智能系统是否有用,要同时看其正确的判断阳性的能力和正确的判断阴性的能力,即敏感度和特异度。
不负责任的舆论声音,从某种程度上激化了医生们对AI的反击心里。
与此同时,医院自身的客观问题,也导致AI专家进入医疗领域,远比想象的艰难。
在上一篇文章《“AI+医疗”这片领土上,科技巨头为何不再敢说自己是巨头?》中,我们谈到一个很多人没有异议的观点:医疗,是人工智能最难完全攻下来的领域。
医工交叉与产学结合,这两个由来已久的问题随着人工智能的兴起,让医学影像分析面临着全新的机遇与挑战。
隔行如隔山,这对IT界和医学界来说尤为贴切,当双方团队共同打造一个产品时,面临着话语体系不同、评价方式不同、谁来主导等诸多问题。
目前这个市场还处于初期,各路玩家相继入场,产品仍处于科研摸索期。
如果只是将人工智能现有的算法直接套用在医学影像领域,很难取得优秀成果。与此同时,只满足把自己定位于一个人工智能研究者来看待医学影像问题,将图像识别技术单纯地嫁接到医学影像原有的系统上,即便数字结果看起来不错,但距离“好用的产品”依旧非常遥远。
AI要顺利进入医学影像领域,会面临哪些阻碍?
医疗行业,技术不仅要为影像科、病理科服务,还要为临床服务。
只不过技术是通过影像科和病理科医生最终服务于临床的,服务于临床是最高目标。在这个过程中,医生的指导非常重要。
科大讯飞医疗事业部总经理陶晓东博士向雷锋网介绍了自己的一个原则:要用正确的工具解决正确的问题,即先准确地定义问题,然后寻找合适的解决手段。
“我经常跟同事讲,一个问题如果能用90年代的技术解决,就不要想着用2000年的技术;如果能通过人和机器一起解决,就不要想着做全自动的方案。总之,不要总想着用最新的技术,关键是要能解决实际问题。回归到医疗行业,我们要解决的是临床问题,肯定需要医生的合作,一起完成很多工作,并不断碰撞出火花。”
二、数据不足、质量不过关
影像数据的质量和数量很难兼顾,AI从业者很难找到满足要求的数据,尤其是由医生标注过的高质量数据。
除此之外,还要结合病人的其他信息来判断,比如实验室检测、病理标本等,这更是增加了难度。
广东省人民医院刘再毅教授曾向雷锋网介绍了他们团队所做的项目,该项目过程中需要临床检测项目数据,像基因、血液等相关检查数据,预计能拿到500~600例可用的数据,但投入起码为百万级,这需要科研基金来支撑,医院和病人都不可能负担这个成本。
正因为难以获取基因、病理等方面数据,所以一大波创业公司才蜂拥进入影像领域,他们的很多研究是基于影像信息判断和推断基因、病理和临床信息情况,这是一种可行的方式,但还是需要很多数据去验证。
医疗数据非常稀缺,非常宝贵。
当前很多医院的PACS系统做得很不错,尽管存在影像标准化的问题,至少有图像,但很多数据是没有的,比如病人做了检查、手术、治疗之后,没有完整的随访机制,没有后续数据评估临床疗效和预后等数据。医生自己做研究,要花很大力气搜集整理这些数据。
除此之外,数据质控也很关键。比如,通过电话随访,如果病人电话号码更换就无法再联系;其次是打电话随访信息准确性问题,随访信息有很多方面,比如肿瘤手术之后,有无复发?是否死亡?化疗有无进展?
具体的病逝时间较为容易确认,99%的亲人都记得,但“有无进展”很难评估。
另外,每个随访工作人员的态度也影响随访质量。许多污染数据对医院的研究团队不但没有意义,还有害处。
医疗数据并没有那么简单,不仅仅是挖掘一个点,而且包含很多方面。不像购物,调查消费者的购物习惯时,看其买了什么东西,价格多少,什么时候买的?这类数据很明确,也很容易找到。
但医疗数据很多是不确定的,很难打通,这种情况下,具备完整信息的病人资料就尤其宝贵。
医院能用的数据比例很小,判断数据是否有价值主要取决于具体研究目的。
拿肺癌或其他肿瘤来说,在大医院,满足要求的可能只有10%~20%,即便如此,也已经算不错了;在二甲等地方医院,很多病人做完检查之后,转移到上级医院看病,有完整资料的病人可能只有1%~2%。
Google团队关于糖尿病视网膜病变的研究成果经常被当做范例来解读,但顶级期刊JAMA(美国医学会杂志)也指出了几点问题:
首先是数据量的问题,Google的这项研究用到了128000张医学图像,在很多人看来,数量已经非常旁大,但其中严重的病变事实上只有200多个,还远远不够。
疾病种类繁多,没有人能保证病人检测出不是糖网后就无需再看医生。一个模型并不能解决所有问题,还需要更加庞大的数据量。
同时,一项研究成果究竟好不好,不是由工程人员说了算,也不是有了较高的精确率就行,而是要经过一系列的验证。
任何新药临床应用之前,都需要经过一系列的研究和验证,证明安全、有效之后才能在临床中应用。人工智能亦如此。
优质的海量数据是人工智能算法的基础,但信息孤岛在每个医院都是一大难题。病房场景、教学场景、ICU场景、急诊场景的系统都是不互通的。各个医院之间的信息化水平参差不齐,要实现所有医院的数据互联互通,目前来说还很困难。
当前医院内部的数据都难以做到互联互通,存在以下顾虑:
一、不敢。数据安全是一个让行业比较痛苦的问题。大家都想要彼此的数据,但是对于到底该不该给对方提供优质的数据支撑又犹豫不决。
二、不愿。医疗在很多地方都是香饽饽,牵涉到各个部门的利益,大家都不愿意将自己的数据交出去。
三、不能。目前懂人工智能的医生和懂医生的IT人才还极其稀少。
四、脱敏数据也存在问题
新华医院副院长潘曙明在接受雷锋网采访时谈到,目前行业内的共识是,将数据用于人工智能模型训练前必须进行脱敏处理,确保病人的隐私。
但这也带来了数据的真实性问题,因为恰恰只有那些敏感的信息(比如身份证号、手机号)才能确保数据的真实性和唯一性。
假如保险公司拥有10万张保单,对方可以说这10万张保单的数据都是真实的,因为每一张保单都对应了一个身证份号。但医院的住院号等编码并不是唯一的,一旦脱敏数据进入市场流通,这些数据可能会被反复打包多次,丢失真实性和唯一性。
研发医疗AI产品必须找到病人数据的“源代码”,这些“源代码”就存储在医院里。但究竟该如何运用这些数据,还亟待国家出台相关法律进行明确。这些问题需要逐一理清。
由于医疗涉及到人的生命健康,因此对AI可解释性的要求远高于任何一个行业。
美国医学与生物工程院会士、医疗人工智能领域国际学术权威学者沈定刚教授在雷锋网的一次报道中指出,可解释性从理论上来说是非常难的,当然,也有人在做这方面的研究。比如在脑部疾病诊断中,分析到底是大脑哪些区域的病变导致了老年痴呆或者自闭症。方法是把结果往前传,通过function connectivity分析究竟哪些connectivity和疾病的诊断有关。
即便如此,沈定刚教授仍旧认为实现可解释性非常困难,如果要做到这一点,就必须在网络设计方面做调整,要求网络非常稀疏。
面对诸多问题,这也迫使不少从业者不断从算法和模式上进行创新,如微软亚洲研究院副院长张益肇在接受雷锋网采访时提到,他们团队在医学影像数据量受限的情况下,采用弱监督学习提升算法的有效性;而一些AI创业公司抛弃过去较为单薄的产品形态,从深度和广度上选择打造更接近医生的多链条端到端的产品平台。那么
产业界如何才能开发出更好用的医学影像辅助诊断产品?
学者们该怎样利用AI技术更好地解决医学问题?
医院各科室需要什么、考量什么、在意什么、应该做什么?
CFDA和FDA等监管机构对人工智能的态度与规范进度如何?
近一年来,雷锋网与近百位应用过AI产品的三甲医院院长、影像科主任医师、信息中心主任,以及与40位医疗人工智能公司CEO和数百位AI研究员进行过深入探讨和报道记录。
本次,雷锋网精选了63篇深度案例报道,重磅推出“AI+医疗经典项目案例库”。
深入挖掘「行业标杆企业、三甲医院、海内外名校」三界63个“医疗人工智能”案例(平均每篇4300字),全链条梳理AI在医疗各细分场景,尤其是医学影像中的“学术研究+算法实战+工程实施+解决方案搭建+系统集成+最终落地”流程。(共825页PDF),助力AI和医疗从业者更快地让产品落地并实现大规模商业化。
雷锋网(公众号:雷锋网)「AI+医疗」经典项目案例库
案例数:63个,平均每篇4300字,共825页PDF
案例分类:高校案例、企业案例、医院案例
获取方式:点击文章底部阅读原文
案例内容:学术研究+算法实战+工程实施+解决方案搭建+系统集成+最终落地
在本案例库中,你将学习到:
AI+病种:掌握人工智能在肺癌、糖尿病视网膜病变、阿尔茨海默病、皮肤病、乳腺癌、咽喉癌、胃癌、结直肠癌、儿童骨龄等影像方向的全面应用。
案例:企业与医院的AI商业化应用落地案例
流程:了解从算法到工程,再到端到端产品的研发全流程
经验:学习多位产、学、医专家,在研发医疗人工智能项目中走过的弯路、失败经验与深刻总结,以及新的机遇。