周葆华、吴雨晴 | 超越单一模态:多模态计算传播研究的进展与前瞻

发布者:复旦大学信息与传播研究中心发布时间:2024-03-01浏览次数:10

摘要:随着计算方法的快速发展,超越文本的视觉计算传播研究开始兴起,但是仍主要体现为单一模态研究(只是从文本转向视觉)。本文强调,在媒体内容消费多模态化的时代背景下,我们应当高度重视多模态计算传播研究的发展。通过对SSCIA&HCI等核心数据库中的31篇多模态计算传播研究的内容分析,我们梳理了现有研究概况、理论概念、研究模式与操作方法。研究发现:多模态计算传播研究发展较晚,亟待加强;研究模式呈现多模态关系(独立/组合)×研究目的(描述/解释)的四个分类;数据主要来自图文社交平台;基于多模态特征生成的组合变量主要包括图文一致性、图文主题、叙事策略、攻击性指数等四种。本文最后从应用生成式人工智能、推进理论建设、促进跨平台跨地区发展等方面,对多模态计算传播研究的未来发展提出建议。
关键词:多模态;计算传播;计算机视觉;计算机听觉

从人类传播发展史的角度看,交流的本质是多模态的,依托视觉、听觉等多感官模态的交流是亲身社交互动的基本形态。认知科学研究认为:多模态是人类接收、处理信息的自然倾向,人类大脑处理多模态信息的速度比处理单一模态信息更快。延森划分了媒介融合过程中物质媒介(material media)演进的三个维度——作为人际传播媒介的人的身体、作为大众传播媒介的模拟技术、作为网络传播媒介的数字技术。他认为,不同媒介都在对人际传播的基本模式实施“再媒介化”(remediate),这种再现与重塑的基本模式,或者说模态,构成了物质媒介与话语意涵之间的中介与记录工具(general registers)。相比多模态的具身传播,大众传播媒介,特别是印刷书籍、报纸、广播,偏向于对单一模态(如文本、音频)的再现;而数字技术作为一种“元技术”(meta-technology),召回了人际传播中互动与多模态的交流模式,“不仅复制了先前所有的表征与交流媒介的特征,而且将它们重新整合于一个统一的软硬件物理平台上”,使人类身体所具有的传播潜能不断实现(actualized)。

移动互联网时代,集成文本、图片、音频、视频等多模态的媒体内容已成为人们获取、发布、交换信息的主要方式。根据《中国网络视听发展研究报告(2023)》,截至202212月,我国网络视听应用的用户规模达到了10.40亿,超过即时通讯(10.38亿),成为第一大互联网应用。与文本相比,图片及视频等视觉材料的信息处理速度更快、效率更高,有助于信息获取、回忆和长期记忆,更能吸引受众注意力、产生情绪反应;当然也衍生出一系列新的问题——如虚假信息的传播、媒体偏见的放大、群体极化的加剧等。

媒体内容消费的多模态化对传播研究的发展提出了要求。然而,基于文本的单一模态分析依然是传播研究的主流。这在很大程度上囿于方法的局限。图片和视频、音频在大规模收集、存储和分析方面比文本数据更具挑战。随着计算机视觉(computer visionCV)等计算方法的引入,针对视觉的计算传播研究开始兴起。但是这些研究的主体还是局限于单一模态(只是从文本转向图片)。然而,正如“语言不能与其他类型的符号分割开来”,文本、图片、视频、音频等多模态也不应被分割开来讨论。多模态之间由于媒体特性、认知取向、语义资源的不同而有所区分,同时又相互作用。因此,超越单一模态分析,在比较或关联的视域下系统地组织多模态特征、探讨多模态互动关系,不但更贴近人类交流和媒介消费的本质,还有助于推进计算传播以及传播研究整体的发展。

基于此,本文将通过对SSCIA&HCI等核心数据库中相关文献的分析,梳理多模态计算传播研究的发展现状,并为推动该领域的发展提出建议。

一、定义多模态

不同学科基于各自的研究对象定义模态,如认知科学将模态视为感官及其相应的神经系统,符号学将模态定义为能够产生意义的符号资源(semioticre source)(如声音、表情、手势等),计算机科学则将模态视为某种物理媒介中表示信息的方式(主要关注三种:自然语言、视觉信号和声音信号)。

随着跨学科研究的开展,“多模态”(multimodalmultimodality)的概念被引入传播学的讨论范畴。但是,对于这一新兴概念,传播学尚未提出确切、统一的定义。部分研究将模态列举为文本(text)、图片(image)、音频(audio)等媒体形态,认为多模态分析是对多种媒体形态之间关系的研究,如图片与文本的关系等。也有研究从感官出发,认为模态是指文本的(textual)、听觉的(aural)、空间的(spatial)或视觉的(visual)等基于某一感官类型的资源。相对来说,前者更符合传播学研究的语境。根据国际电信联盟(ITU)对感觉媒体(perception medium)和表示媒体(representation medium)的区分,前者指能使人类的器官直接产生感知的一类媒体,如人类使用的各种语言、声音,使人的触觉、嗅觉产生反应的力、气味等;后者指为了加工、处理和传输感觉媒体而人为制造、计算编码出来的一种媒体,包括文字(charactersor text)、图片(graphicsstill picture)、动态图像(moving picture,指在时间线上排列的静态图片所带来的动态效果)和音频(audio)。

由此,本文初步提出多模态的传播学定义:“模态”指最小单位的表示媒体,如文本、图片、动态图像、音频等;“多模态”内容指综合多种表示媒体的内容,如包含图片、文本的模因,包含文本、音频、图片、动态图像的视频等;针对多模态内容中的不同模态、或者不同单一模态之间的关系展开的分析,称为“多模态分析”。

二、研究方法

在厘清多模态相关概念的基础上,本文选取包含一种以上模态数据的计算传播研究展开分析。我们使用WebofScience平台,在WOS核心合集的SSCIA&HCI数据库中检索,检索时间区间为200011日到202371日,目标语言为英文,主题关键词主要包括两部分——多模态内容(multimodal OR cross-modal OR visual OR audio等)和使用计算方法("computer vision" OR "computer audition" OR  computational OR "machine learning" OR "deep learning" OR "neural network" OR "generative ai"等)。在传播学类别(WC=Communication)下检索到3990篇文献,使用类似关键词在政治学、社会学、心理学等相邻学科类别下检索到902篇文献。另外,使用相同关键词检索NatureSciencePNAS来源并得到2103篇文献。在初始获得的6995篇文献的基础上,通过阅读标题、摘要和部分正文展开人工筛选,剔除未进行多模态分析、未使用计算方法或不涉及传播学问题的论文,最终得到N=31篇多模态计算传播论文。与此相对,使用计算机视觉或计算机听觉技术、展开单一视觉或听觉模态分析的传播学研究共有48篇。

我们运用内容分析法,对31篇文献的概况、理论概念、研究模式、操作设计等进行了人工编码、统计分析和质性归纳。

三、多模态计算传播研究现状分析

(一)基本描述:概况、主题与理论
1.
研究概况

尽管单一视觉模态的计算传播研究早在2012年出现,多模态计算传播研究却直至2019年才出现;到2020年,研究数量快速增加至9篇;在2020―2023年上半年间,研究数量相对平稳地保持在每年8篇左右。由此可见,多模态计算传播研究仍处于起步阶段,整体上亟待加强。多模态计算传播研究来源于23本社会科学期刊,其中19本期刊均只刊登1篇,刊载2篇及以上的是与社交媒体、广告营销、政治传播相关的4本期刊:《社交媒体与社会》(Social Media + Society)(5篇)、《国际广告期刊》(International Journal of Advertising)(3篇)、《互动营销期刊》(Journal of Interactive Marketing)(2篇)、《美国政治学评论》(American Political Science Review)(2篇)。在31篇多模态研究中,有8篇研究(25.8%)未明确提及研究涉及的地区;有3篇研究(9.7%)针对全球范围的内容展开,但未进行跨地区对比。聚焦单一国家或地区的研究中(20篇,64.5%),针对美国的研究数量最多(9篇,29.0%),其次是中国(5篇,16.1%),另有德国(3篇,9.7%)及英国、罗马尼亚、巴西(各1篇,3.2%)。目前,涉及中国的多模态计算传播研究已是国际学术讨论中的重要组成部分,主要涉及中国嘻哈音乐的曲风和歌词、抖音平台的事实核查视频、京东和微博平台的内容特征与用户参与,以及Instagram平台上的中国城市形象。
2.
研究主题

多模态计算传播研究的主题集中在商业传播(14篇,45.2%)和政治传播(8篇,25.8%)两个领域。在商业传播的研究中,研究者往往以社交媒体图文内容或者视频广告的多种模态特征作为自变量,受众的参与度(转发、评论、点赞)或者商品的销量、项目成功与否等衡量市场反应的指标作为因变量,解释品牌与意见领袖取得商业成功的影响因素。在政治传播的研究中,研究者往往使用政治辩论或竞选广告的视频资料作为研究数据,对政客的面部表情、手势动作、言语内容、音高音调等多种模态特征进行计算提取与描述 ;部分研究还更进一步,结合实验方法探究了政客表现对受众即时态度的影响。

根据经典“5W”传播过程模式,可以将文献对应地分为五类:控制研究、内容分析、媒介分析、受众分析、效果分析。受到计算传播分析的数据来源、数据形式和处理方法的影响,研究以内容分析(19篇)和效果分析(18篇)为主,通过计算方法提取多模态内容的特征,结合参与度等数据分析传播效果。
3.
理论概念


如表1,本文整理了多模态计算传播研究中涉及的理论概念。其中,情感、多模态表意、说服、自我呈现、平台化等五个方面的概念被讨论得更多。

首先,情感往往被用作研究的重要变量。情感的主要衡量方式有“情感效价”(emotional valence,即情感的正负向)、离散的“基本情感”(basic emotions,如幸福、悲伤、厌恶、恐惧、惊讶、愤怒六种基本情感)两种。研究以此衡量多模态内容的“感召力”(emotional appeal)和公众的“情感投入”(emotional engagement)等,结合消极情感的“认知功能模型”(cognitive-functional model)、积极情感的“扩展-建构理论”(broaden-and-build theory)等讨论情感与态度、行为的关系。在此基础上,也有研究以“情感公众”(affective publics)、“情感可供性”(emotional affordance)等概念为核心议题,讨论网络情感动员与集体行动的话题。

其次,多模态表意,往往被用来解释研究目的和研究价值。如使用“图片优势效应”(picture superiority effect)、“非语言信息”(non-verbal signal)在意义传达中的重要性来解释研究选择非文本、多模态的材料的原因。在强调彼此独立的各个模态内容特点的同时,部分研究还探讨了多模态特征之间的关联,如多个模态在主题、情感等方面的“一致性”(congruence)对促进信息处理和受众理解的作用。

第三,各类说服理论常常被用作效果研究的理论框架,由此提出研究假设。例如,有研究以“说服知识模型”(persuasion knowledge modelPKM)为框架,指出图片中的品牌标志作为广告营销信息,会引起受众反感并降低参与度。也有研究对比了“叙事说服”(narrative persuasion)策略和“说服知识模型”,认为通过叙事的策略进行营销,能够有效地规避受众对广告的反感心理。

第四,自我呈现理论常常被用作研究结果的阐释依据。例如,有研究以选择性的在线“自我呈现”(self-presentation),解释社交媒体平台上城市图文形象的单一性与片面性。

第五,平台化理论是跨平台研究对比平台逻辑的前提。研究通过对平台内容的分析,总结其中反映出的“可供性”(affordance)。例如,有研究梳理了传统媒体和新兴社交媒体的“媒介逻辑”(media logic),对比了新闻媒体发布的原文和经过多种模态的改编后发布在社交媒体上的新闻,指出当前新闻媒体在社交媒体“平台化”(platformization)过程中的适应性问题。

值得一提的是,这些理论概念不是割裂的,而是常常被联系在一起讨论。例如,情感效价可以和多模态表意联系在一起,探讨多模态内容的情感一致性,还可以进一步结合说服理论,分析多模态情感的一致性对说服效果的影响。再如,自我呈现理论可以和情感理论结合,分析自我呈现内容中的情感流露;也可以与说服理论结合,解释自我披露如何作为一种广告营销手段增加消费者的信任。又如,平台化理论可以与情感理论结合,解释平台的媒介逻辑如何催化情感公众的形成。
(二)多模态研究的目的、模式与操作
1.
研究目的:为何需要
为什么要选择多模态的研究对象?为什么要使用多模态计算方法?抱着这样的疑问,我们对31篇多模态研究的主要目的做出了如下分类——
1)面向新的经验现实。基于媒体内容消费多模态化的研究背景,大部分研究都强调了非语言特征在网络传播时代的重要性,因此需要通过新的数据模态和方法扩展现有研究。

2)传统单一模态研究结果的多模态检验。面对多模态媒体内容和计算技术的兴起,在单一模态研究中已经得到验证的理论(如自我呈现、叙事说服理论),需要重新得到关注和检验。

3)整合多模态表意回答新的研究问题。多模态研究将以往研究分别指出的、单一模态的交流特点,整合进同一个框架中,从而可以对不同模态特征的影响力差异进行比较,或对多个模态特征的关联展开分析。其中一个例子是聚焦多模态特征的一致性分析:研究发现了具身语言表达中面部表情和语言文本情感的高度一致性,也发现了社交媒体帖子中图文情感的不一致性——极端主义社媒帖子往往使用负面情感图片和正向情感文本相结合的宣传策略。进一步,慈善宣传帖中图文情感的不一致,特别是负面情感图片和正向情感文本的结合,会显著降低受众参与度;餐馆点评帖中图文主题的一致性能促进信息传达和受众参与。

4)开发新的研究方法。部分研究通过计算方法的开发、实证应用与计算结果的检验,指出相比单一模态、基于多模态数据的机器学习模型的识别精度更高。通过结合多个模态特征间隐藏的相关性,模型能更好地完成任务。

2.
研究模式:如何构建

如表2,本文按照多模态关系(独立/组合)×研究目的(描述/解释)的划分方式对多模态计算传播的研究模式进行了2×2的分类。

在多模态关系方面,“独立”指研究没有讨论多个模态特征之间的关联,“组合”指研究通过创建多模态的新变量或者假设检验的方式讨论了不同模态特征之间的关系。

在研究目的方面,“描述性”主要包括对变量的简单描述、网络分析、聚类分析、质化分析等;“解释性”则是通过相关性/回归分析、比较方法等方式进行假设检验,或是借助机器学习模型进行回归,解释现象背后的原因。

1)独立-描述(4篇,12.9%

这一分类下,研究分别描述了彼此独立的多个模态的特征。如,有研究使用计算方法分别提取了视频中文本、图片、音频的特征,并将其与人工编码的结果进行了描述性的对照,以此证明相比人工方法、计算方法不会显著丧失准确度。有研究基于词频、聚类、网络分析等方法对图文数据展开描述。还有研究以文本特征辅助图片特征进行分组处理,对图文帖子展开质化的深描。

2)独立-解释(9篇,29.0%

这一分类下,研究分别解释了彼此独立的多个模态的特征。

首先,多个模态的特征分别作为自变量进入模型。同一模型内,可以在标准化变量的基础上描述多个模态的特征对因变量的效应量,但多模态之间的关系被忽视。如,许多研究以文本、图形、音频特征为自变量,以受众参与度或被试者反应为因变量建立回归。其中有研究对比了各个多模态特征的影响力,指出股票论坛帖中图片和文本的情感都会对相应股票的表现产生影响,并且不存在显著的影响力差异;但另有研究发现,社交媒体帖子中,图片中的面部表情能推动受众的参与度,而文本情感则不对此产生影响。还有研究将图片、文本特征输入机器学习模型,通过逻辑回归算法输出众筹项目成功与否的二分类预测结果,发现无论是图片还是文本,计算提取难度更大的抽象语义特征对项目成功与否的影响力也更大。另外,多个模态的特征也可以分别作为因变量进入回归分析。如,有研究以媒体类型为自变量,解释新闻媒体根据社交媒体逻辑、分别进行多个模态的内容改编的程度;还有研究以时间前后为自变量,解释政府审查对嘻哈音乐和歌词特征的影响。

3)组合-描述(5篇,16.1%

这一分类下,研究描述了多模态特征的组合。

首先,可以对数据处理过程中组合生成的多模态特征进行简单描述。如,有研究将政客发言视频中的面部表情、音调、发言内容特征输入机器学习模型,得到整合后的多模态变量——政客攻击性指数,并对这一变量随时间的变化趋势进行了描述,发现对比单模态、基于多模态数据的识别精度更高;有研究分别提取了图片和文本的主题,并基于置信度的比较输出多模态主题,该描述分析发现,纳入图片数据后,帖子主题的分类结果有显著改变。这都表明多模态的整合有可能增进计算机对意义的理解。另外,还有研究对标签和图片进行双模态的网络分析,以网络关系为基础进行聚类并展开描述。

4)组合-解释(13篇,41.9%

这一分类下,研究解释了多模态特征的组合。

首先,可以将数据处理中组合生成的多模态特征作为自变量或因变量。如,有研究通过计算得到了图片和文本内容的一致性指数,将其作为自变量,发现图文主题一致性对帖子的点赞量有显著的正向影响。还有研究以图文内容的一致/不一致为分组变量,多个模态的低维特征为因变量,展开卡方检验和t检验,指出图文不一致的帖子存在“标签填充”等显著特征。有研究提取了事实核查视频中的多个模态特征如亮度、图像熵、音频响度等,在此基础上聚类,生成了新的多模态变量——叙事类型,并将其作为自变量、用户参与度作为因变量建立回归模型(尽管并未发现多模态叙事类型对用户参与度存在显著影响)。还有研究简单地将图片主题与文本主题的排列组合作为叙事策略,以此为分组变量,用户参与度为因变量,进行方差分析后,发现结合专业性话语和自拍式图片的帖子,用户参与度显著更高。

另外,还可以在多个模态特征之间建立相关、回归、调节关系的假设检验。如,有研究提取多模态特征作为自变量并建立交互项,考察多模态特征之间的关系对传播效果(项目成功与否、受众参与度)的影响。也有研究将文本特征和图片、音频等非文本特征分别作为自变量和因变量展开回归分析,以此探索非文本特征的意义。例如,有研究以文本情感为自变量,图片特征为因变量,发现购物网站的图文评论中,积极的文本情感与图片内容的丰富度及构图的中心性之间存在显著正相关;或者以文本主题为自变量,音调为因变量,指出即使是音调的微小变化也可以反映出情感表达的强度变化。

除了回归分析,还有研究通过相关性分析检验图文情感的一致性,如有研究检验了面部表情和发言文本情感之间的正相关;还有研究检验了图文帖子中图片和文本情感的负相关,指出了图文情感不一致的极端主义宣传策略。

3.
研究操作:如何执行

1)数据模态与规模

根据定义,模态是最小单位的表示媒体,在此基础上,多个模态可以组合在一个统一的媒体形态中,如模因(图片+文本)、视频(图片+动态图像+音频+文本)等。我们整理了进入计算分析的数据形态、模态与数据量。研究倾向于采集图文(“图片+文本”)形态的数据(19篇,61.3%),也更多地分析图片、文本这两个模态(24篇,77.4%);相比之下,采集视频数据的多模态研究只有9篇(29.0%)。图文形态的数据量(M=446447)往往也大于视频形态(M=1746)。

2)平台来源选择

研究的数据来源以网络平台为主(24篇,77.4%),其他数据来源包括数据库资料、新闻媒体等。还有部分研究结合了问卷法、实验法收集的数据,二手研究数据等。如,使用实验法收集选民对政客表现的即时反应,使用二手的选民反应实验数据等。值得一提的是,大部分研究(包括跨平台研究)都没有将不同模态拆分开来、分别收集单模态数据。只有1篇研究通过两次问卷调查,分别以图片和文本的形式收集了消费者对品牌意象的认知,并指出了相比文本表达、图片表达激发联想的能力。

在基于网络平台展开的24篇研究中,只有2篇研究进行了跨平台的多模态数据收集和分析比较,大多数研究聚焦于单一平台(22篇,91.7%)。关于具体的平台,有13篇研究(54.2%)涉及Instagram

马诺维奇曾对各平台的特点做出总结:“如果说我们使用Google进行信息检索,使用Twitter分享新闻链接,使用Facebook进行社交交流,使用Flickr归档图片,那么使用Instagram就是为了进行美学的视觉交流(aesthetic visual communication)。”尽管大部分平台都提供多模态的内容发布方式,但相比TwitterFacebook等,Instagram更侧重图片内容,相对更适合进行视觉分析。Instagram还为图片和说明文字设置了各自专属的显示空间,确保受众能看到图片和文本两个模态的内容。考虑到目前多模态分析往往以图片和文本形态的内容为主,Instagram因此得到了多模态研究的青睐。

3)计算特征与数据处理

参考其他研究提出的计算机视觉特征分类方式,本文将计算提取的特征分为低维特征、内容特征、语义特征三个层次。

第一类,低维特征是机器可以直接计算得到的特征,不需要预先训练,如文本词频,图片的亮度、饱和度、色调,动态图像每帧间的像素差异,音频的响度等。将图片转换为像素矩阵,通过数值计算即可得出图片的色彩特征;将音频转换为波形,计算均方根能量即可得到响度。

第二类,内容特征需要人基于已有的经验进行解释,但内容特征是相对客观的,如文本中特定词汇的提取、图片中的物体识别、人脸存在与否的判断等。这类特征提取或基于人工标注的显式编程(explicit programming),或需要进一步训练有监督的机器学习模型。

第三类,语义特征需要认知参与和主观感知,不同的个体可能对此产生不同的理解,如文本情感、图片情感、音乐流派等。这类特征虽然受主观认知的影响,但是也可以进行计算提取:一方面,可以基于共识建立分类(如Ekman建立的基本情绪分类),并使用有监督的机器学习模型在人工标注的训练集中迭代学习;另一方面,可以通过无监督的机器学习模型,基于聚类给出相应的分类结果,模拟人类基于特征相似性对样本进行分类归纳的过程。

基于这一分类,本文在表3梳理了不同模态的主要特征和代表性处理工具。

在图文模态中,更高维度的特征备受关注:例如图片模态中的物体识别、图片内容分类、面部表情识别(各7篇,22.6%),以及文本模态中的文本情感(12篇,38.7%)和主题建模(8篇,25.8%)。

以往被忽视的音频和动态图像模态开始得到关注,但目前的分析以低维特征为主,例如音频模态中的音调、节奏和响度,以及动态图像模态中的帧间差异(这是体现图像动态性的特征,值得重视)。

在对多模态关系的探究中,研究生成的多模态新变量,或者说多模态组合特征,主要有图文一致性、图文主题、叙事策略、攻击性指数等四种,它们打破了对模态进行单一处理的思路。

在特征提取的工具方面,我们发现,低维特征的计算往往通过调用Python资源库来实现。如果需要有监督的机器学习模型执行任务,部分研究会根据特定的变量操作化需求,抽取部分样本进行人工编码,以新的训练数据集调试预训练的机器学习模型,即进行迁移学习。而针对更普遍性的需求,如人脸识别、面部表情识别等,有开源的模型(如OpenFace)和大量付费API(如Google Cloud Vision APIMicrosoft Azure APIAmazon Rekognition API)可供使用。

四、总结与讨论

本文总结了多模态的定义,并对31篇多模态的计算传播研究展开内容分析。研究发现:首先,多模态研究自2019年才开始出现,跟随非文本的单一模态计算传播研究发展,研究数量目前偏少,且主要集中于美国等少数国家;其次,多模态计算传播研究的主题集中于商业传播和政治传播两个领域,以内容分析和效果分析为主;第三,多模态研究中缺乏新理论的建构,使用的理论/概念以情感理论、多模态表意和说服理论为主;第四,我们整理出多模态关系(独立/组合)×研究目的(描述/解释)的四个分类,其中,解释彼此独立的多个模态特征、解释组合的多模态特征的研究相对更多;第五,多模态数据主要来自图文社交分享平台(其中Instagram最多),数据模态以“图片+文本”为主,对视频(特别是不还原为图片的动态图像)和音频的关注不足;第六,相比低维特征,对图片和文本高维度的内容和语义特征的分析更多,研究生成的超越单一模态特征的多模态组合的新变量,主要包括图文一致性、图文主题、叙事策略、攻击性指数等四种。

基于此,我们对多模态计算传播的研究提出如下发展建议。

(一)超越单一模态,促进多模态计算传播研究的发展

如本文开头所述,尽管超越文本的计算传播分析在近年开始崛起,但仍以单一模态的研究为主,只是重心从传统的文本转向了视觉。在这一过程中,一方面,计算传播的视觉分析以图片模态为主,既缺乏对音频等其它模态的分析,也缺乏真正体现视觉动态特征(而非还原为静态图片)的“视频”分析;另一方面,则是超越单一模态的多模态分析的缺乏。就本文比较系统的检索而言,在SSCIA&HCI数据库中只发现了31篇相关计算传播研究。由于多模态已经是当代媒介生态的基本特征,具有重要的理论和经验研究意义,本文呼吁高度重视和加强多模态计算传播研究的发展。

(二)借助生成式人工智能发展,促进研究方法的多样化

多模态计算传播研究仍主要局限于现有的计算机视觉(CV)、计算机听觉(CA)方法。而生成式人工智能(generative AI)和多模态大模型(large multimodal modelLMM)的发展正如火如荼,将大大拓展计算传播的研究。以下,我们简要讨论生成式AI在多模态计算传播中的可能应用。

首先,在数据来源方面,生成式AI可以生成多模态材料,基于此可以描摹基于AI的集体想象,进一步探讨算法偏见、人机关系等话题。如,有研究将GPT-3.5GPT-4生成的故事与相同提示词下人类创作的故事进行对比,探索AI的叙述风格。在图片层面,有研究基于Midjourney生成的记者图片,分析AI认知中的记者形象。

其次,在数据处理的过程中,研究者可以通过输入上下文提示(prompt)引导大模型执行特定功能。不少研究对GPT-4V的多模态任务,特别是多模态社科研究涉及较多的任务——如多模态的情感分析、虚假信息识别、仇恨言论检测、意识形态检测等的处理性能进行了检验。研究显示,GPT-4V不仅有较强的多模态信息理解能力,使社交媒体帖子中的图文特征协同服务于各类分析任务;还能通过上下文解读特殊语义,如模因、双关等。基于其不断发展的理解力,大模型可以在研究中高效提取低维特征与内容特征,或作为编码员之一参与更高维度的语义特征的编码。

除了计算方法,部分研究在数据收集和分析中结合了传统的社会研究方法:如使用问卷、实验收集数据,结合质化方法深入分析,使用实验验证计算分析的推论等。多元方法与数据之间的配合值得提倡。

(三)推进多模态计算传播研究的理论建设

目前,多模态计算传播研究的理论化不足。在使用多模态计算分析技术服务于多样主题下的理论检验的同时,研究应该推进对多模态表意本身的理论探讨。我们将不同研究模式中的多模态关系分为独立、组合两类。在独立的多模态的研究中,各个单一模态特征被割裂开来描述或解释。不同研究中,对比各类特征对意义传达等影响的结论往往彼此矛盾。例如,更高的图片亮度、积极的文本情感、更高的音调分别会增加还是减少受众参与?这些都还需要更多的实证研究以及理论解释。多模态话语分析的视觉语法(visual grammar)框架、心理学中探讨情感与态度形成的认知功能模型(cognitive-functional modelCFM)和扩展-建构理论(broaden-and-build theory)、区分图文认知方式的双重编码理论(dual coding theory)、区分不同路径下消费者态度和行为改变的详尽可能性模型(elaboration likelihood modelELM)等均可能有助于加强对于特定的多模态特征对态度、行为影响的理论解释。

另一方面,相对于将不同模态割裂看待的方式,聚焦模态之间关系组合的多模态研究更值得重视。本研究显示,现有研究主要聚焦图文一致性等少数变量,需要进行更多的基于多模态特征组合的概念化。多模态之间的相互影响关系,它们共同产生的交互影响及其理论解释(如运用认知失调理论、平衡理论等),也值得进一步探索。

(四)推进研究的跨平台、跨地区发展

本文发现,目前的多模态计算传播研究呈现以图片为主导的研究倾向,并集中在少数国家和特定的视觉文化平台——图文结合的Instagram。这一现象与数据来源平台化的囿限有关:API作为数据获取的主要方式受制于平台对数据的垄断,这些数据只能在平台提供的“贮仓”(silos)内取得,平台也对获取数据的规模、条目做出了限制。各个平台有不同的数据结构,这也增加了跨平台对比的难度。同时,这也与不同地区的理论及计算方法的发展水平有关。由此,我们建议,多模态的计算传播研究学者在发展相关理论概念的同时,推进研究数据、研究方法的开源共享与跨国合作,降低研究门槛,促进全球多模态计算传播研究的发展。

作者简介:周葆华,复旦大学新闻学院教授,复旦大学信息与传播研究中心研究员。
吴雨晴,复旦大学新闻学院博士研究生。
[版权声明]本文章发表于《传媒观察》2024年第1期。本文由作者授权发布,未经许可,请勿转载(个人转载不在版权限制之内)。如公开出版机构需转载使用,请联系刊发杂志及作者本人获得授权。[引用格式]周葆华、吴雨晴。超越单一模态:多模态计算传播研究的进展与前瞻,传媒观察,2024年第1期。