自ChatGPT引爆人工智能领域以来,迅速吸引了来自不同领域的科学家和从业者的目光,期待着这一里程碑式的技术为自己的行业带来新的变革。
近日,上海科技大学生物医学工程学院创始院长、联影智能联席CEO沈定刚教授主持举办了一场线上MICS学术沙龙活动,乔治亚大学计算机科学系终身教授刘天明,美国亚利桑那州梅奥诊所放射肿瘤学教授和医学物理部科研主任、AAPM Fellow刘伟,美国伦斯勒理工学院生物医学工程系P.K. Lashmet讲席副教授闫平昆,哈佛大学医学院和麻省总医院讲师李响四位学者,共同探究ChatGPT在医学影像领域中的诸多可能性。
在讨论中,刘天明指出,ChatGPT的效果惊艳,是因为采用了In-context Learning或者叫做prompt(提示词)等技术,同时利用具备大量参数的Transformer对转换为向量的文本进行处理。这些技术的发展都需要长期的积累和研究。
然而,在医学等专业性较强的领域内,ChatGPT的表现还不够好,仍需对其进行从常识性知识到生物医学领域知识的迁移和进一步的学习训练,以提升其在专业领域中的表现。
刘伟表示,如果想将ChatGPT应用到医学影像之中,多模态学习必不可少。医学领域中目前存在很多的图像、音频、文本等不同种类的数据,必须利用多模态学习将其进行结合,才能应用在临床工作中。
此外,还要考虑到特定领域数据的限制,针对医学这种专业领域的数据,需要使用更专业的提示词来生成问题。
李响分享了团队的一个新进展,他们尝试利用包含了医学领域专业知识的知识图谱来帮助更好地使用ChatGPT。
知识图谱可以加在整个流程之中,不论是文本的输入、语言的生成还是ChatGPT的效果改善等。
但是,获得一个好的知识图谱很困难,李响团队正在尝试利用ChatGPT从大量的专业语料库中自动发掘知识图谱,为语言模型在临床工作中的部署提供重要的先验知识。
闫平昆则认为,从影像分析的角度来看,ChatGPT之所以如此成功,尤其相较于现在的视觉模型而言,是因为它学习的对象——文字,具有人类表达方式的先天优势。
当前阶段应该考虑的是,如何将图像信息更好地输入进大模型之中。一种方法是通过图像分析模型提取图像中的信息,将其发送给ChatGPT。另一种方法是多模态学习,特别是视觉-语言学习。将图像信息与语言结合在一起后,就可以直接对图像信息进行编码,与文字一起发送到大模型中。
沈定刚:首先来介绍一下我自己对ChatGPT的认识,OpenAI是一家小公司,只有87个年轻的员工,平均年龄为32岁,大部分员工都是90后。
在数据分析领域,年轻人是非常重要的力量,从ChatGPT团队取得的成就也可以看出,我们要支持年轻人的发展,为他们提供成长的机会。
虽然人数不多,但ChatGPT团队的成员都是名校毕业、曾在知名公司工作的经验丰富的人才,如谷歌、Facebook、NVIDIA、Microsoft、DeepMind和Apple等企业。
ChatGPT的团队构成比较均衡,包括本科生、硕士研究生和博士,各个级别的人才都很重要,这样才能把技术做好。这个团队虽然年轻,但经验非常丰富,成员中也有包括顶尖的AI科学家。
这样的成员构成使得他们能够在AI领域取得很好的成绩,也证明了人数并不是唯一的关键,团队的质量更重要。
很多人疑问,为什么ChatGPT出现在美国而非其他国家?
在人工智能领域,中国发表了非常多的论文和专利,但其中的大多数都来自于高校,而美国的论文和专利大多数来自公司。
高校和公司都在做同样的事情,但是很多创新和资源都在公司。因此,高校需要与公司进行紧密的产学研结合,协同创新,才能体现出高校独有的特色和优点。
在科学研究和技术创新方面,美国起步很早。早在1958年,美国就开始做老化研究,通过测试了解人的身体、认知、情绪等方面的变化,1989年就开始使用磁共振技术进行研究。
在过去的几十年中,许多重要的研究项目都采集了大量数据,这些数据被保存下来并一直在被研究。这些项目的成功与否与其前瞻性、长期性和理想主义密切相关。
一些早期采集的数据在当时无法得到很好的分析,但现在随着人工智能和深度学习技术的发展,这些数据成为了非常有用的资源,对于了解人类的早期发育、认知、神经系统疾病等方面非常重要。
如今,人工智能已经进入AI 2.0时代,大领域模型在数据足够多且模型足够大的情况下可以取得飞跃性的性能提升。
在医学和影像领域中,我们需要一个视觉模型来帮助医生诊断病情。相对于视觉模型来说,语言模型更容易训练,因为前后有逻辑关系,而且可以从互联网和书本中获取数据进行学习。
而视觉模型需要学习的是每个位置与其他位置之间的关系,非常困难。我们可以利用语言模型来帮助视觉模型的学习。
例如,视觉模型从图像中识别出病灶位置,将其告诉语言模型,语言模型根据之前的学习经验指导视觉模型去其他位置检查是否存在病灶。
我们将语言模型与视觉模型结合起来,让二者相互配合,即可提高整个系统的能力。
初期,语言模型与视觉模型的水平可能存在差异,但随着合作的深入,二者可以联合工作,最终达到像AlphaGo下棋一样高效合作的目的。
下面回到我们今天的问题上。
沈定刚:ChatGPT的成功在技术上有哪些要素?这些技术对医学影像的分析有什么样的启发?
刘天明:我认为ChatGPT在技术上是需要长期积累的,可能需要十年到十五年的时间。其中最重要的两个技术是Word Embedding和Transformer。
Word Embedding是十多年前出现的技术,它将单词转化为一个向量,放入一个Embedding空间中,这是一个革命性的技术。而Transformer是近年来非常热门的技术,它在语言和视觉领域都有很广泛的应用。
我认为最近出现的ChatGPT能够做得这么好,是因为它采用了In-context Learning或者prompt等技术,能够将文本转化为向量,再利用Transformer进行处理。这些技术的发展都需要长期的积累和研究。
李响:ChatGPT的成功是因为它可以同时完成多个任务,这种多任务的方式在医学影像分析中也很重要。
ChatGPT的训练方式相对容易,因为语言是一种顺序的任务,而图像则需要考虑多个方向上的相关性。
“ Masked autoencoders are scalable vision learners”等文章探索了图像多任务学习的方法,但目前还没有类似于ChatGPT的大规模,多任务图像模型出现。未来在医学影像和信号处理中,多任务和多模态集成的方法可能会得到更多的应用。
闫平昆:沈定刚老师、刘天明老师和李响老师从不同角度介绍了ChatGPT技术,我从图像的角度介绍一下。
ChatGPT使用的硬件和网络架构都很厉害,它的模型量很大,从小到大分别有125兆和1750亿个参数,下一步要考虑的问题就是如何把视觉模型做得更大。
此外,ChatGPT不仅学习语言,还学习了编程语言和互联网上的代码,这说明对ChatGPT来说,不同的数据代表着不同的价值。
第三,提示技术和高质量数据也对模型性能的提升有很大的作用。强化学习和Human in the loop等也是重要的因素。
刘伟:我是一个临床医学物理师,专注于放射治疗。
我认为ChatGPT在一般的医学知识方面表现出色,但在更具体和相关性更强的领域,例如放射学,表现并不出色。
这可能是因为ChatGPT是通过强化学习进行训练的,而且专家的介入有限。如果我们想要提高ChatGPT在这些领域的表现,我们需要进行专家介入的强化学习,这可以通过专家的反馈实现。
此外,ChatGPT的数据来源是互联网,其中与医学领域相关的知识相对有限,主要是为了科普性质的知识。
因此,如果我们可以收集大规模的医学图像、文本数据,并通过专家的介入进行训练,我相信ChatGPT在医学领域将有更广泛的应用。
沈定刚:我们应该如何在医学影像领域中应用和集成ChatGPT?
刘天明:我认为刚刚刘伟老师说的话题很好,从人类反馈到专家反馈的强化学习是在医疗影像中应用和集成最关键的因素。
ChatGPT利用公开的常识性知识生成语言和答案时,已经做得非常好了,但我们在和医生、药剂师的一次讨论中发现,ChatGPT在他们的专业领域生成的语言和答案时往往并不合理。
当下人们对ChatGPT的反馈可以分为两类:一类认为它在常识性的知识上做的非常好,另一类则认为它在专业知识领域一本正经地说瞎话。
因此,在ChatGPT的训练中增强专家的反馈非常关键,必须将专家的反馈纳入循环中,才能进一步提高ChatGPT的质量。
一年多前我们发表了一篇有关放射学的文本分析文章(ClinicalRadioBERT: Knowledge-Infused Few Shot Learning for Clinical Notes Named Entity Recognition),我们将积累的几万篇公开数据应用在文本分析中后,得到的结果比以往的常规分析要好得多。
因此,在ChatGPT的训练中,也需要逐步从常识性知识升级到生物医学领域知识,再升级到放射学领域知识。
当然,放射学是一个非常大的领域,要将这一领域细分到什么程度,才能达到我们想要的效果,仍需各位专家来界定。
闫平昆:刘天明老师提到了强化学习中的人类反馈,是ChatGPT中一个非常重要的技术,我们应该将专业医生的反馈更多地融入其中,让ChatGPT像超人一样从弱小到强大地成长起来。
ChatGPT在进行训练时,使用了大量由人工标注的材料和反馈样本,才能够达到如今的效果。
将来我们在训练自己的图像模型时,也要花费更多地耐心和精力去准备数据,毕竟机器学习的特点就是“Garbage In,Garbage Out”,如果数据质量不够好,模型的性能也上不去。
另外,刘天明老师刚刚提到prompt Engineering提示工程,也是非常重要的一个技术。
十几年前做机器学习时,人们都在做特征提取,深度学习出现以后大家又改做Network Engineering网络工程,而现在进入人工智能2.0时代,每个人都有自己定制的提示服务。
李响:这个发展其实很有意思,越来越多对深度学习或机器学习不够熟悉的人,也能通过自然语言来实现这些技术。
In-Context Learning解决了pretrain大模型的问题,是一个非常有用的技术。它不仅在技术上有改变,同时也在社会经济上对人类行为上有所改变,使得AI的受众变得更广泛,医生现在也可以自己做NLP相关的AI研究了。
在没有基于In-Context Learning的ChatGPT之前,医生们根本不可能完成这些事情,这是一个思想意识上的巨大转变。
在利用专业知识方面,Active Learning和Federal Active Learning在这个过程中都起到非常重要的作用,这是最核心的一个步骤,虽然只是一个小数据,但能够撬动整个大模型,使其向更好的方向发展。
这一过程仍有很多设计上的问题需要解决,也许暂时还回答不了,但我们目前已经在进行这方面的研究。
刘伟:如果我们想将ChatGPT应用到医学影像之中,那么多模态学习就是必不可少的。医学领域中目前存在很多的图像、音频、文本等不同种类的数据,必须利用多模态学习将其进行结合,才能应用在临床工作中。
此外,还要考虑到特定领域数据的限制,针对医学这种专业领域的数据,需要使用更专业的提示词来生成问题。
第三,ChatGPT目前使用的是一个很简单的训练奖励模型,回答的结果仅仅由人来进行简单的评估,我认为将来应该进一步提升这一环节的复杂度,利用多模态学习等技术,进行多维度评估。
沈定刚:简单来说,要将ChatGPT技术应用在医学影像或放射学等领域中,需要将相关领域的知识和信息融入到ChatGPT的模型之中,以提高其在该专业领域中的表现。具体而言,可以通过以下方式来实现:
提供大量领域相关的数据来训练模型,包括诊断结果、医学影像、学术论文等;
用领域专家的知识,例如医生、科学家等,对模型进行指导和改进;
将领域特定的语言和术语嵌入到模型中,从而使其能够更好地理解和处理该领域的内容;
将模型应用于特定领域中的具体问题,例如医学影像诊断,并将其与人类专家的表现进行比较和评估。
总之,在特定领域中应用ChatGPT技术,需要一定的领域知识和专业指导,并将其与具体问题相结合,以发挥其最大的作用。
沈定刚:如何利用成像AI和放射学的知识来提高ChatGPT?如何进一步开发面向放射学的大语言模型?
刘天明:我先说几个例子,它们是我们正在进行的项目的实例,我们有第一手的经验和体会,也取得了一些结果。就我目前的观察而言,ChatGPT在临床放射领域的应用会非常广泛。
第一个例子是,ChatGPT的推理能力非常广泛,只需要将临床放射领域的数据提供给它,就可以进行很好的推理。
在我们目前在做的一个项目中,将放射科等各个科室中的文本数据转化为ChatGPT可接受的格式,利用ChatGPT推理对应的疾病产生的原因以及未来的发展趋势。
第二个例子是通过ChatGPT对癌症病人的管理,特别是放疗的临床节点进行预测,这个项目目前已经启动了。
第三个例子是在临床诊断中,通过提示工程将文本和数据嵌入特征空间,利用特征空间对病人进行聚类、分层或者诊断。
这些例子很快就能得到结果,可能会比以前的方法好很多。我认为,这只是ChatGPT在临床中的一小部分应用,在未来,临床上所有我们能想象到的技术、工具,基本都能够通过ChatGPT来实现。
另外,多模态问题也非常重要,我们正在通过多模态的In-Context Learning将图像特征、文本特征以及医生的眼动数据进行相互联系,实现一键生成诊断报告。
沈定刚:谢谢天明,他刚刚提到的眼动技术很重要,尤其是对于语言模型的训练,因为眼动数据更具规律性。
相比之下,从各个方向都有联系的图像数据中学习规律要困难得多。
在医生进行诊断过程中,记录医生的眼动即可自动记录医生的关注点和注意力,从而帮助实现后续的自学习技术。这样的技术可能是一个有效的模拟治疗方法。
在数字空间中,可以模拟不同治疗方法,并比较不同的结果。有了这样的技术,我们就可以在虚拟世界中进行诊疗。
闫平昆:从影像分析的角度来看,ChatGPT之所以如此成功,尤其相较于现在的视觉模型而言,是因为它学习的对象——文字,具有人类表达方式的先天优势。
人类利用文字书写大量的知识,这些文字都有特定的规则,并且要以特定的规则进行表达,因此方便了ChatGPT对文字知识的学习。
当前阶段我们应该考虑的是,如何将图像信息更好地输入进大模型之中。
一种方法是通过图像分析模型提取图像中的信息,将其发送给ChatGPT。
另一种方法是我们应该聚焦的一个方向:多模态学习,特别是视觉语言学习。将图像信息与语言结合在一起后,就可以直接对图像信息进行编码,与文字一起发送到大型语言模型中。
因此,目前我们应该以大型语言模型为主,它学习了大量的知识并具有逻辑推理能力。以此为中心,我们还要明确如何更好地将图像信息传递到其中。
李响:刘天明老师和闫平昆老师都讲了使用ChatGPT的核心要点,我想强调一个重要但不被关注的方面,就是医学信息学,在将语言模型用于临床工作流中时,需要快速、有效、准确地获取数据。
过去几年中,我们花了很多时间研究如何获取任意想要的医院系统文本或数据,并将现实模型应用于这些数据,从而将大语言模型或多模态模型融合到整个临床工作流之中,包括放射医学的临床指标。医学信息学在这个过程中扮演了很重要的角色。
刘伟:刘天明老师和沈定刚老师在多模态学习方面已经很有成就了,比如使用ChatGPT在临床医学和医疗影像领域进行了ChatCAD和ChatAug等项目。我们应该跟着他们的思路,想办法将这些技术应用到培训和研究中。
我们虽然有非常多的医疗影像数据,但是由于各种原因,数据的共享一直是一个大难题,我们需要生成一个合法合规的大型数据库,这对训练下一代大数据模型非常重要。
此外,许多医生都在尝试使用ChatGPT做科研,但由于缺乏专业知识,只能利用ChatGPT做一些简单的应用研究,如果想要进一步地推进研究,还需要多领域专家的努力和合作。
总而言之,想要更好地将ChatGPT应用于临床工作之中,不仅仅需要融入多模态学习等技术,也需要多领域专家的共同努力。
沈定刚:考虑到ChatGPT合成文档的局限性和潜力,如何将ChatGPT整合到放射学流程中,帮助开发有用的放射科医生工具?
刘伟:我是放疗领域的从业人员,当下任何一个专科的数据信息都不仅仅有文本一种,而是涵盖各种不同类型的信息,比如病例、影像、随访结果等等,我们必须将这些信息结合起来,才能够做更有意义的临床研究。
据我所知,目前已经有公司开始使用大数据模型来预估病人的治疗结果,但现阶段的模型一般只考虑文本信息。
我认为必须将多模态学习技术应用在这方面的工作中,引领未来的发展方向。
以放疗领域为例,目前存在多种放疗方式,包括光子、质子、Block Therapy和电子等,在为病人进行初步会诊时,遇到复杂的病情,往往需要集合多领域专家的意见,选择最适合病人的治疗方式。
但组织专家会诊十分费时费力,且以往医生在制作病例时格式通常不够标准,更是加重了从这些非结构化临床数据中提取信息的难度。
现在有了ChatGPT这样的工具,我们才得以更高效地进行研究。
同时,在美国医疗保险公司为了节省成本,总会选择比较便宜的治疗方式,从而加重了医生与保险公司沟通的时间成本,这也是我们需要考虑的一个问题。
刘天明:放射科医生在临床诊断中扮演着关键角色,需要与其他科室医生进行协作,需要阅读大量文献和病例数据。
使用ChatGPT等自然语言处理工具,可以帮助医生更快地阅读和理解大量信息,以及快速撰写诊断报告和保险文件。这将大大提高医生的工作效率,改善整个医疗工作流程。
闫平昆:我认为在将ChatGPT应用于放射学流程时,有两个需要考虑的方面。
首先是规范提示词,因为提示词在整个过程中非常重要。我们需要正确的提示词来进行prompt Engineering,这要求我们对这个问题有深入的理解和认识。
如何给ChatGPT合适的提示词,从而获得更好的结果,也是需要我们解决的问题。
另一个方面是不同的提示词对ChatGPT的结果有很大的影响。
OpenAI的团队做过这个实验,发现不同的提示词对模型的性能有很大的不同。因此,我们需要规范提示词,并使用集成学习等技术改善这一情况。
此外,通过ChatGPT模型,我们可以与医生进行反馈,生成报告,帮助医生发现可能被忽略的问题,比如Incidental Findings(偶然发现)。
ChatGPT模型可以指出图像上可能存在的问题,让医生进行进一步检查。这种交互是非常重要的。
李响:为了更好地为医生提供服务,我们最近正在尝试利用知识图谱来帮助我们更好地使用自然语言处理工具。
知识图谱可以加在整个流程之中,不论是数据的输入、语言的生成还是ChatGPT的效果改善等等。这将为我们在临床中使用ChatGPT提供极大的帮助。
但是,获得一个好的知识图谱很困难,我们正在尝试利用ChatGPT从大量的语料库中自动发掘知识图谱,这项工作将为语言模型在临床工作中的部署提供很多先进的经验。
沈定刚:将ChatGPT及其核心技术用于医学影像领域会有哪些潜在的挑战(比如怎么创建跨机构的文本数据库,怎么保护患者隐私,需要哪些行业行为规范)?
我们已经讨论过如何保护数据和隐私,但现在我们需要考虑如何将ChatGPT技术应用于医疗领域,特别是医学影像和放射治疗?
这涉及到IRB(机构审查委员会)的审批标准和个人信息的保护,也是一个比较关键的问题。
刘天明:目前在医疗领域中,数据隐私的保护非常重要,目前还没有合适的方法将医疗数据提供给ChatGPT。
我们正在准备一篇论文,探讨在保护隐私的前提下,如何让ChatGPT更好地应用于医疗领域。
我们发现使用本地大规模模型可以解决部分问题,对于无法解决的问题,我们可以利用ChatGPT去除隐私信息并提高数据识别率。
这将对医疗领域产生重大影响,未来医疗文本可以通过ChatGPT进行推理。我们会很快发布一篇论文来详细介绍我们的思路。
闫平昆:在医疗数据的准备上,我们需要更多的图像和文本数据,例如临床记录、放射学报告等等。现有的公开数据集(例如MIMICS)相对较少。
此外,现在有很多编码器和Embedding等技术,我们是否还需要共享原始数据?或者是仅共享编码过的数据?
李响:刚才有老师提到了关于共享计算的问题,实际上联邦学习在影像上的应用已经比较成熟,但在语言方面还需要一个大规模的语言模型,这也是一个挑战。
另一方面,如果要在本地部署一个大规模语言模型,将会对算力提出很大的要求,这几乎是大规模语言模型在医疗领域中最大的挑战了。
在我看来,并不是所有的医院都有条件做这项工作,其中还存在着数据的不平衡性等问题,这是很值得我们关注的一点,并且现在还没有很好的解决方案,即使是我们使用的联邦学习等方法,也存在类似的弊端,需要有本地的处理方案。
刘伟:闫平昆老师刚刚提到的新思路是,利用联邦学习在本地模型中对数据做初步的处理,再进行分享,从而在保护保护病人隐私的前提下得到更好的结果。
但正如李响老师所说,在医疗领域数据协调和隐私保护是一个很大的挑战。我们曾经考虑使用区块链技术来分享数据,这也许是一个好的思路。
沈定刚:我们之前在放射学、肿瘤学、基因学等领域做了很多工作,采集了影像和基因信息。现在有了ChatGPT这样的技术,它可以帮助我们理解影像和基因之间的关系。我们可以使用ChatGPT中的自学习功能来发现新的关系和规律,并将其应用于肿瘤学、基因学和放射学等领域。
如何将ChatGPT与在放射学和其他许多生物医学领域中的应用串联起来?
刘天明:与我们合作的西北工业大学张拓老师带领着一个七八人的团队,已经开始尝试使用ChatGPT,将人脑的结构和功能连接到一个高层的语意空间。
使用类似的方法,可以处理很多领域中的信息,比如基因组学和生物信息学,我认为ChatGPT在这两个领域中的应用还没有开始。我们可以使用知识图谱的方法,将图像、文本、基因组等所有相关的信息全部映射到一个图空间里,然后使用ChatGPT等技术,对这个图网络空间进行推理和分析。
这是将改变整个生物信息学、临床信息学、医疗影像的NLP方法,是未来大势所趋。
沈定刚:这种方法可以改变所有表达的方式,让所有的信息处于同一个空间中,可以相互查到信息,从而实现多模态表达。
我们已经花费多年时间研究了多模态信息,使用了CCA来将不同空间的信息转化为同一个空间,使用深度学习将远距离的信息向量转换到同一空间,这样做可以让信息之间最大程度地协调一致。
我们还需要将不同的信息编码到同一空间中,并且在解码时可以返回原始模态的信息。这样做可以让很多事情变得更容易。
这个领域很有趣,我读了很多论文,了解新的技术,就像2012年时,我读了很多Deep Learning的论文,然后安排我的学生们去做第一批Deep Learning的研究。
我们必须紧跟技术发展的步伐,读所有的文章,了解所有的研究动向和技术细节,这样才能有效地指导我们的学生和年轻教师,让他们在短时间内取得好成果。我认为我们应该冲在最前面,才能把这个事情做好。
闫平昆:我们现在处于一个非常重要的时刻,需要在思想上进行转变。过去我们注重特征工程,后来又转向网络工程,而现在,我们需要将自己的研究与大型语言模型相结合。
另外,我们也需要不断提高机器交互的层次,从像素级别到特征级别,再到知识层次的交互。
ChatGPT的出现也重新定义了机器学习的可解释性。就像今天各位老师在这里分享的知识,我们不需要知道大家大脑中的神经元是如何工作、如何相互联系的,只要学到你们分享的逻辑与知识就足够了。
我们需要了解网络中神经元的工作方式,而不必了解其具体实现。这样我们就可以重新定义可解释性。这些都是非常重要的研究方向,正如沈定刚教授所说,需要我们投入大量的精力去学习,掌握最新的技术进展
李响:我认为我们需要重新定义多模态融合的思想。过去大家谈到多模态融合,大多是指在一个特定的任务中融合不同种类的数据,并沿着一个路径走下去。
我认为多模态融合应该更多源自于生成,而不是单纯的融合模型或者将不同的信息融合在一起。我们要让不同模态之间互相生成彼此,在各自的学习过程中对抗彼此。
如今在语言模型和图像生成模型上已经有了成功的例子,我们可以尝试在多模态生成模型上取得进步,实现真正的多模态融合。
刘伟:我也认为学习更多的论文,了解技术细节非常重要,这样才能够更有效地与学生共同工作。作为临床医生,我可能相对保守,但我认为我们应该做出改变,去拥抱最新的技术并将其应用于临床工作中。
比如,我们可以像沈定刚老师一样去尝试ChatCAD,将多模态数据结合起来,将其应用到不同的领域中。
我认为ChatAug这项工作很有前途,如果能够将其与多模态数据联系起来,不仅仅是文本和图像,还可以包括其他各种数据进行数据增强,那么模型效果也会得到提升。