“视频化社会”的来临 ——从ChatGPT展望媒介通用性变革

发布者：复旦大学信息与传播研究中心发布时间：2024-02-21浏览次数：28

孙玮｜复旦大学信息与传播研究中心主任、新闻学院教授

本文原载《探索与争鸣》2023年第12期

非经注明，文中图片均来自网络

具体内容以正刊为准

ChatGPT被视为人工智能历史上的里程碑，它凸显了人类文明未来发展的种种征兆。在人类社会经历了口语传统、印刷文明、机械复制时代、影像社会之后，ChatGPT预示着一种新型文明——“视频化社会”的来临。众所周知，ChatGPT是一种基于语言文本的人工智能，并不能直接生成视频，它如何与视频化产生关联？在关于ChatGPT的思考中，它与声音、图像、视频的跨模态转换是一个重点，如ChatGPT可以完成视频的脚本自动生成、自动剪辑、标签制作、字幕生成和翻译等。以上种种是技术层面ChatGPT与视频连接的当下可能，已获得广泛探讨。本文关注的是，从更宽广的时空尺度看，人工智能视频化发展趋向，预示着一种新型社会形态的出现。媒介演进史有一个基本趋势，即技术更迭必将带来媒介的不断升维，逐步趋向全息化与全能型。正如德布雷媒介圈理论所述，话语圈、图文圈、视频圈的迭代，展现了媒介演进与人类社会变迁的历程，细察当今大众日常生活中接触视频的频次和场景，就不难感受到，视频早已跳脱传播信息、休闲娱乐之范畴，渗透在社会领域的各个方面，正在成为普遍化生存方式。但视频并未达至ChatGPT在生成性和通用性方面的水准，尚未成为社会主导性媒介。这个重大突破首次发生在语言文字这个人类早期最重要的媒介形态中，这其中有技术和产业积累的多重原因，而人工智能媒介继续朝着全息化方向发展，应该是必然的。

Sora生成视频裁图

视频将逐渐成为社会主导性媒介，乍看并非什么新鲜事，视觉文化、影像社会的崛起也不是晚近的现象。但模拟影像无法与数字视频相提并论，数字时代视频有很多重要特点，如大众从专业生产（PGC）的对象转变为用户生产（UGC）的创作者，从全然被动的观看者转变为生产的主动参与者；视频不再局限于叙事影像，信息可视化的数据图形类视频大量涌现；视频的应用场景超越记录、娱乐等传统主流领域，趋向多元化等。但目前视频生产和应用的智能化水平远低于语言、文字、声音，ChatGPT的出现，意味着人工智能正在将媒介提升至全新水准，即将到来的视频智能化预示着社会形态也即将发生变革。

通用性：从人工智能到媒介

人工智能的通用性，主要指其可以完成不同领域的任务，这也是ChatGPT超越AlphaGo的关键点。正因如此，ChatGPT才能够跨越专业边界，与个体在日常生活中全方面接合。媒介发展也存在类似议题，但包含更复杂的社会文化意义，本文将其概括为“媒介的通用性”，大意指媒介的应用领域是否广泛，使用人群是否跨越不同圈层，能否成为整个社会的基础性媒介等。ChatGPT促发我们思考：人工智能的技术通用性，如何转变为社会文化层面的媒介通用性，在这种转变中，技术元素如何接入特定时空的历史境况，引发社会及人类自身的变革。人类文明历史上出现过形形色色的通用性媒介。语音是文明初始阶段最重要的媒介，诉诸听觉，后与语言叠加为口语，它具有应用普遍性、即时互动性、具身现场感的特点，成为人类历史上第一个重要的通用性媒介。与之相比，文字的通用性是非常欠缺的，由于能够读写的人数非常有限，文字是少数人掌握的精英媒介。彼时人们的交流主要依赖语言，口语是社会主导媒介形态，古希腊文明因此被称为“闲聊的文明”，口语交流支撑着政治、经济、文化、宗教、教育、军事、艺术等各个领域。工业革命以来，尤其是印刷技术发明后，文字逐渐成为通用性媒介，普及大众，渗透在社会各个领域，造就了印刷文明。文字奠定了人类文明的知识传统，印刷文字可说是现代性社会的媒介基础设施。口语传统尽管受到文字传播的强势侵蚀，在重要社会领域中不断收缩，以至于语音媒介逐渐丧失了现代社会主导媒介的地位，但并未完全丧失其通用性，口语仍然是日常生活中使用最频繁、最活跃的媒介，也渗透在各个领域的社会实践中。比如，政治、法律等重要社会领域，正式文本高度依赖文字，但相关实践如仪式性会议、开庭审判等仍然大量充斥口语对话性传播。语音媒介的重大转折点是电子技术的声音记录与传输技术的发明，其中最具影响力的是留声机、电话、广播等。经电子技术加持的语音媒介，摆脱了声音信息转瞬即逝的缺陷，实现了长久保存和远距离传播的目标，通用性获得巨大提升。语音媒介的通用性优势在于，无须后天长期训练，有天然口语化的社会基础，具有对话互动的场景感，包含嗓音、语调等个人特质，对于日常生活及社会阶层的渗透性非常强等。因此，即便新形态媒体层出不穷，语音媒介在人类沟通历史中的独特地位并未丧失。到目前为止，人类仍然是大量依赖语音说话交流的物种，口语沟通存在于所有社会领域中，并且不断地叠加融合到电子媒介、数字媒介中。上述语音和文字媒介的发展历史，展现了技术通用性转换为媒介通用性的复杂情形。

sora视频裁图

本文提出“媒介通用性”概念，旨在从媒介视角考察ChatGPT在迈向通用性人工智能进程中的社会影响，并进一步展望未来人工智能发展带来的社会形态更新。媒介通用性主要体现在三个方面：媒介技术在社会领域中的通用性；技术媒体产品在社会层级中的普及性；媒介系统在社会整体运作中的基础性。第一是第二、三层面的技术基础，但并不必然转化为后两者，而是依赖多重社会文化因素。基于调节作为媒介性含义的基本理解，媒介与文明的关系涉及三个维度。其一是储存信息，即时间维度的交互。这涉及集体与个人的外化与记忆，借助媒介，人类文明才能形成积累并传承，这是对于历史时间的调节，将过去—现在—未来连接起来。其二是对话互动，即空间维度的交互。这既包括个体之间面对面交流，也涉及大范围组织化的协同合作，这是在空间范围的连接。其三是存在方式，即人与世界的交互。新实在论将存在理解为“出现在世界之中”，这调节人类及万物在各个意义场域中的显现方式。针对上述三个方面，媒介的通用性发展体现出一种普遍化趋势——技术维度的全息化与社会应用的全能型，但这个进程却是非常曲折的。所谓全息化，是指媒介形态与人类感官的全面整体接合。人类初始阶段的媒介是身体，储存信息、对话互动、存在方式都依赖肉身感官，媒介发展表现为技术对人类身体感官的切割、分离、延伸，即对于全息化身体感官的拆解，如文字将视觉从身体中剥离出来，脱离触觉、听觉等其他感官，以延展至更广阔的时空中，与此同时则失去了具身在场的情境感。数字时代，文字被纳入新媒介系统中，与声音、影像等其他媒介形态融合，媒介趋向于全息化。在媒介通用性演进的历程中，ChatGPT的突破性表现在：储存信息的能力大大超越人类个体，囊括的信息量之大是普通人终其一生都无法完成的；具有拟人的对话互动性，可以实现即时交互。而它的缺陷主要表现在第三个方面，局限于文字文本，媒介形态较为单一，极大地限制了其通用性发展，阻碍了社会层级的下沉，远未能成为大众普遍化生存方式。在ChatGPT造成的职业变革讨论中，属于脑力劳动的白领工作被认为最有可能被替代，也与这个原因直接有关。ChatGPT在全息化方面的不足是它实现全能型目标的障碍。由此看，无论从媒介进展的必要性，还是人工智能发展的可能性看，视频化都是未来社会发展的趋势。

与文字相比，视频的通用性还处在始发阶段。全息化与全能型是媒介实现通用性的基础，视频在前者中占有优势，但在后者中水准较低，亟待提升。视频是当前最接近全息化的媒介形态：影像与其映射对象具有视觉直观的同源性，不似文字等抽象符号系统，需要长时间后天习得方能掌握；视频亦具备强大的包容性，可以兼容语言、文字、图像、影像甚至图表、公式等各种媒介形式，这个特点在GPT未来发展的讨论中受到特别关注，视频因此被视为最具跨模态发展潜力的GPT。视频在通用性方面受到数字技术的极大推动，但还远未成为社会主导媒介。视频拍摄的技术和经济门槛大大降低，使得越来越多的大众加入视频生产的行列中，短视频、直播等社会现象的风行正是其体现。但目前的视频生成技术仍然停留在较低水平，所谓水平低，不仅是在技术审美意义上，也是指视频作为一种媒介在创造性、应用交互性方面的潜力未能得到充分挖掘。大众的视频生产与接受实践，较多地局限于个体生活的影像记录与呈现，以及一般层面的消遣性观看。鉴于上述状况，视频的应用范围受到很大限制，局限于信息行业的生产、日常生活的娱乐，以及简单的社会交往等，未能在社会各个领域特别是具有创造性的工作中得到普遍应用。

因此，尽管视频的生产与接受数量远超印刷文字，显示出接近大众的普及性优势，但不可否认的是，文字媒介仍然占据着社会主导地位，ChatGPT之所以破圈而出，正说明当前文字媒介广泛的社会应用无可替代。文字媒介在社会制度层面的权威性依然显著，举凡政治、经济、文化、教育、法律、学术等领域，官方或共同体认可的正式文本和交互方式，仍然以印刷文字为主流。与之对照，视频大多应用于非工作领域。日常工作中使用最多的媒介仍然是文字，特别是在脑力劳动中，通用媒介是文字而非视频。当前ChatGPT的现实冲击之一，是它可能替代依赖文字输入输出处理信息的社会中上层工作，这也从一个侧面说明文字媒介在社会中的重要地位。推崇文字，将其代表的思维方式视作文明的基石，更是长久以来形成的主流观念。

上述情形正在悄然变化，文字的垄断遭遇数字技术的冲击，视频正在各个方面撼动文字的霸权。大众媒介时代的影像，主要是中心化机构传递信息，而数字时代的视频正在以各种方式嵌入社会领域及个体日常生活。直播带货、视频营销，显示出消费视频化的趋势；远程视频会议则普及教育及多个领域的交互；汽车的操作系统越来越多采用视频方式；远程医疗需要视频作为重要技术支撑；艺术馆、博物馆、美术馆的众多展品是视频化的；图书馆的藏品正在从主流的印刷文本拓展至数字影像产品；档案馆的历史记录也大量转向视频化；遍布于城市空间的摄像头采撷的视频，大规模地流转于合法或非法的领域；个体日常生活中的视频运用，也不再局限于娱乐或审美的观赏……生活记录、社会交往、工作实施等都大量运用视频，这已远超电视影像时代大众观看的传统范畴。

以上种种展现了社会视频化的趋势，一方面显示了视频在全息化方面的巨大优势，但也暴露了其在全能型方面的薄弱。其中有两个因素值得关注：一是技术限制，二是文字传统的力量。就第一点而言，视频技术的门槛不断降低，但目前仍然停留在普通人可以进行的简单拍摄和编辑，却无法关联到个体生成性的多场景应用。ChatGPT对于视频化社会的意义正在于，它开启了生成性人工智能的崭新空间，其扩展程序可以涉及更多的场景并且连接更多元的技术。ChatGPT的成功或将推动视频及跨模态生成性人工智能的突破，推动视频的全能型发展。第二点因素，则涉及社会关系的重组，是一场意义更为深远的革命。

交互变革：社会的视频化

当前技术引发的媒介通用性演进，正在引发社会关系乃至文明形态的重构。历史变迁充分展示了媒介与社会、文明的这种相关关系。以文字为例，社会的文字化体现了文字媒介对于社会关系和文明形态的影响，简而言之表现在三个方面。一是对于人类思维方式的塑造。文字的抽象符号、线性叙事方式，培养了理性逻辑与抽象思维，抑制了感性思维的发展。二是规约社会的运作机制。文字能够在大范围内展开组织和交换、交流，使得人类社会的规模史无前例地扩大了，同时也降低了社会沟通的情境感、地方性。三是重构社会关系。文字作为少数人垄断的媒介，成为区隔精英与大众的沟壑，没有读写能力的人被排除在社会核心圈层之外，文字水平成为社会层级区隔的重要因素。现代性推进了社会的文字化进程，随着识字人群的增加，印刷技术的普及，文字的通用性大大增强。由是观之，技术升维降低了媒介的准入门槛，提供了通用性的基础，媒介便可能打破区隔，下沉到社会各阶层，由此引发社会关系的变革。在这个视角中，印刷媒介的产生，读写技能的普及，文字成为通用性媒介，为现代民主社会的诞生提供了媒介基础设施。

社会的视频化，首先依赖技术升维，这是媒介通用性演进的重要动力。人类历史上早期发明的媒介大多是单维的，媒介发展呈现出不断融合并升维的趋势。印刷、摄影、留声机、电话等是单一维度的媒介，而电影、电视等则是趋向于整合的。数字技术被视为“元媒介”，正在于它可以整合人类所有的媒介形式，趋向于不断升维的全息化，数字视频就是当前最具代表性的高维媒介。这种准全息化的媒介有着与人类感官的同构性，并且能够整合多种媒介形态，与单一、低维的媒介相比，具有更强通用性的技术基础。这也是当前视频的普及度远超文字的原因。但社会的视频化，视频成为通用性媒介，更涉及社会文化因素的复杂影响，因此，改变基于文字、印刷文明、大众媒介时代的传统认知，建立创新思维，对于理解媒介的通用性，推进社会的视频化进程，是至关重要的。这种创新思维的建立，或可从两个方面展开。

其一，将大众视为视频生产及广泛应用的主体，破除仅仅在“用户”“娱乐”“观赏”等层面理解视频社会化应用的传统观念。当前，这种观念很明显地体现在对短视频现象的主流看法中，比如即使将大众看作视频生产者，也大多将其理解为互联网平台短视频的用户生产，这正是大众媒介时代内容生产机构中心论的典型思路。这种思路将视频主要地理解为专业机构的社会生产，大众的身份就是专业机构的用户。这种以专业机构为中心的观念抑制了对于视频通用性的认知与未来想象。它的盲点在于，忽视了媒介通用性的重要意涵——个体大众作为媒介生产主体，创造性地将媒介应用于个体工作与生活的各个方面，得以绕过专业机构的中心化组织，直接与新媒体产品连接以实现个体化、生成性的应用与交互。这也是当前ChatGPT激起强烈震荡的原因之一。

其二，充分挖掘视频作为趋向全息化高维媒介的独特价值，反思将文字与高级思维连接在一起的传统观念。文字传统绵亘人类文明数千年，崇尚文字、轻视影像的观念根深蒂固，社会普遍认为文字有助于加强理性、抽象逻辑能力，而视频则是偏重于感官、零散化的具象呈现。尽管这种认知并非完全空穴来风，但由此将文字与视频两种媒介形态分出等级，将专注连续的文字阅读与碎片化的视频观看形成高下对照之观念，却是需要深刻检视的。这种观念可看作推崇线性逻辑的现代理性主义遗存，须高度警醒。一方面抽象理性思维与具象感知思维具有独特价值，并非二元对立，可以互相转化，视频就是可以包容二者的融合媒介；另一方面空间化的非线性思维正在成为数字时代的主导思维方式，数据、图形、影像、图表等非文字媒介形态正在成为人类认知世界的崭新模式。

ChatGPT在协同个体创造性地完成多元任务方面，超越了人类历史上所有的媒介，展示了史无前例的通用性，也由此引发了新一轮社会变革。ChatGPT对社会各个领域造成全面震荡，以至于几乎所有重要的社会议题都被卷入其中。当前对于ChatGPT的关注点主要集中在人—机协同工作，在社会交往方面则较多着眼于其作为单个新媒体产品所创造的人—机对话新模式，而ChatGPT及其后续人工智能产品的社会交互性潜能远未得到深入挖掘与阐释，这正是媒介视角对于考察ChatGPT的独特价值与意义。

在个体层面建立社会交往，是媒介通用性进程中一个必要且重大的环节。与语音、文字媒介相比，视频的社交属性远未得到开发。这当然首先受限于技术本身，其次是社会文化因素的影响。当前，视频在很大程度上仍然被锁定在大众媒介时代审美影像观看的框架内，比如对短视频的碎片化、同质化、平庸化等缺陷的批评，明显地局限于“观看”层面，未能充分认识到视频用于交互的媒介属性。与此对照，对于经历了通用性历程的媒介，应有更为多元的评判眼光，社交属性常常是首要标准。以语音为例，它在广播媒介中也有着视听审美的期待，但那只是众多评判标准之一，口语化和互动性标准是更加重要的。电话、聊天软件中的语音与文字，其主要价值都是即时对话，视频电话的交往属性就更为突出。与文字、声音媒介相比，视频生产的技术门槛高，社交性受到很大限制，模拟技术影视时期视频几乎定型为专业机构制作产品、大众消费观看的模式。在这个模式中，社会交往是围绕着被动“观看”而非主动“生产”展开的。影视拍摄技术渐渐地普及之后，大众个体开始自行生产作品，但其中大部分还是作为大众媒介专业机构或是互联网平台的用户生产内容，仍然以“观看”作为最终评判标准。ChatGPT实现的个体化生成式应用——个体作为生产者与人工智能媒介展开的直接协同——极大地激发了个体化社会交往。这种个体化社交分为两个层面。一是人类个体与人工智能的对话，这也是ChatGPT最让人惊艳之处，它可以连续性地以自然语言展开与人类的对话，正如它的名字（chat）所示，“真的像和人交流一样”，是很多使用者的体验。这个能够与人类展开即时社交对话的特点，致使专家们认为ChatGPT可以从事和人打交道的很多工作，比如客服、教师、咨询师等。值得注意的是，正是ChatGPT的这个特点，使得人工智能主体性问题再次引爆全球，甚至引发了威胁人类主体的担忧。二是人—机协同展开的个体间交流，当前ChatGPT擅长的一类事情是根据使用者的意图进行文字收集处理的工作，比如写邮件、会议发言稿、行业报告等。这就像之前人类使用语言、文字一样，人工智能作为媒介直接参与人类普遍的社交活动。ChatGPT的对话性，正是它超越AlphaGo之处——从专业人工智能跃升为具有社交性的媒介。

可以想见，相较基于自然语言文本的ChatGPT，高维的视频媒介通用性的未来进展，必将激发更深层次社会关系的变革，乃至建立人工智能支撑的新文明。从媒介研究视角看，在个体与社会连接方面，生成性、全息化、全能型新型智能媒介的普及，将极大地释放个体的潜能，普通个体作为分布式独立节点，能够跨越现代性以来专业分工的社会系统，直接接入社会网络。就此看，目前ChatGPT引发的就业问题，不单单是个体或者某一行业的危机，更涉及整个社会专业分工系统的崩塌与重组，乃至人与社会连接方式的颠覆性变革，这触及媒介通用性意涵的第三个方面，即智能媒介系统正在成为基础设施，全面支撑社会运作。在更为宏观的视野中，智能媒介正进展到人类主体的重塑，ChatGPT作为人工智能的最新产品，引发了新一轮对于人类、主体的思考。如果我们认同斯蒂格勒援引考古学证据所指出的，人是一种技术存在物种的话，那么，ChatGPT及其后继者，必将创造人—机共生的新型主体，这种新型复合主体的共生性不仅仅表现在可以协同工作，更表现为创造了人类历史上崭新的人机协同的普遍社会交往模式。

ChatGPT的对话社交属性，仍然受到文字的极大限制，难以下沉到社会各个层级，而且由于技术维度的单一性，剥离了场景感，目前大多用于文书类的工作和交往。随着技术升维，人工智能的媒介通用性将获得极大地拓展。视频人工智能将广泛应用于各种社交场景，渗透在社会各个圈层中，成为通用性媒介。科幻电影中呈现的场景，如图书馆、档案馆中的文献储存与接触，从文字及阅读转变为沉浸式视频及观看，人与人之间的交流可以通过大量的虚拟在场对话进行，人之主体性从碳基肉身离散为硅基数字替身等，正在创造人与世界交往的新模式以及人本身。基于此，米歇尔将“数据替身”视为图像学3.0的一个核心议题，人、机、物的交互达至史无前例的状态。社会的视频化，意味着视频成为通用性主导媒介，视频成为社会系统运作的基础性媒介。

结语：视频化社会的未来

数字技术极大拓展了视频化的意涵，创造了视频的崭新模式，其核心点是数据化叠加可视化。模拟技术的大众媒介时代，视频主要是媒介对于世界的影像化呈现。数字技术则超越同源性再现世界的传统模式，不再局限于增强人类既有视觉感知的能力——比如望远镜、显微镜让人看见远距离和细微的事物，数字视频的特殊性在于，被越来越多地用于以可视化方式呈现原本无法进入人类视觉领域的事物，将非人类视觉物转换为可视的。比如，将声音数据化并生成视频，使得声音被动态地看见，这是听觉与视觉的转换；数据图表的动态化也成为一种视频类型，得到普遍化应用，这是抽象事实和观念与具象图形的转换；计算机自动生成的数字视频，如ChatGPT与图像软件合作生成图像或视频，可说是智能机器“无中生有”的创造。这都与传统的影像技术形成鲜明对照，数字技术将世间万物数据化，再以可视化的方式呈现出来，打破了视频与社会连接的传统模式。数字视频可以整合几乎所有的媒介形态，包括语音、文字、图像、影像等，这种媒介整合，带来的是多种交互方式史无前例的汇聚，将极大地改变人类交流模式。有研究成果表明，人类发明的交流系统可分为经验和非经验两种，除语言之外，一切交流系统都具有经验的特色，而“语言以非经验策略发挥作用”。这里的语言指抽象的语词技术，包括文字、印刷等后续发展。媒介大多是偏向两种交流系统中的一种，即使是当前的智能媒介，也有这个缺憾，如智能语音交互，虽然实现了人与机器的即时对话，但却无法呈现交互场景，经验与非经验交流系统仍然是分离的。当前人工智能媒介出现了融合两种系统的初级形态，如一些识别植物的软件，可以经由数字终端拍摄图像，再以文字模式直接给出答案，它实现了两种交流系统的简单融合。人工智能的视频化有望整合这两种交流系统。当前数字技术对于视频化的拓展，正在多个向度上展开，如2021年大热的元宇宙，包含了5G、云计算、区块链、扩展现实等多项前沿技术，但在感官层面，主要是以沉浸式视觉技术呈现的。这种可视化的方式，超越了以往观看方式的范畴，蕴含了人类思维方式、社会秩序的深层革命。元宇宙的基本含义是，“人类运用数字技术构建的，由现实世界映射或超越现实世界，可与现实世界交互的虚拟世界”，它经由视频化的感官刺激，正在迈向建立数字新型社会系统的目标。

元宇宙、Web3.0、ChatGPT等或许在技术原理、商业前景方面有不少差异，但是作为最前沿的技术形态，它们彼此有着千丝万缕的联系。在一个大尺度的历史视野中，它们之间的互相支撑与融合，正在改变人类社会的基本秩序以及人类自身的存在方式。这启发我们在展望视频化社会的未来时，不能仅仅停留在视觉观看的层面，而是要关注技术引发的社会底层逻辑的变化。媒介视角的视频化社会，意味着智能技术支持的视频成为通用性主导媒介，制约着社会运作的基本逻辑。视频化社会具有可视化的特点，这有着感官层面和隐喻层面的双重意义，即感官层面的可视性与社会层面的公开化。视频化媒介不断趋向通用性，社会实践越来越多地被直观呈现，并由此在更广大的范围内被公之于众。这种境况对社会秩序及机制运作的影响是重大而复杂的，比如公共权力的运作可能更多地趋向透明化，从而处在被大众监督的视野下；但同时，个体境况也大量暴露，公民权利可能遭遇威胁。正是在这个意义上，“隐蔽”成为一种与“可视”对照的权利，受到高度关注。视频化社会的可视化特征在众多社会领域中都展现出这种复杂的状态，社会基本秩序亟待依据这种崭新情形进行重建。近年来数字技术的发展，可概括为“分布式聚合”的特征：一方面，个体越来越呈现为分布式的社会网络节点；另一方面，全球形成了更具聚合性的网络。节点的离散化状态越来越明显，但和全球中心网络的连接却越来越紧密，ChatGPT作为一种智能媒介，就集中体现出这个特点。个体直接与ChatGPT协同生成，成为高度离散化的人—机共生节点；同时个体又被编织到一个高度聚合性的全球智能机器语言网络系统中。这种分布式聚合的逻辑，正在塑造新型社会秩序。在这个意义上，仅仅以“去中心化”理解区块链、web3.0等技术的特征不免太简单化了，它抓住了个体节点的离散化、分布式特点，但忽视了这是以一个大范围高度聚合性的互联社会网络为前提的。因此，这些技术不能仅仅被视为比特币、数字艺术品、数字身份的局部性应用，而是创造了一种具有新型社会逻辑的媒介基础设施，这种技术媒介的广泛推行，必将引发社会秩序及社会观念的变革。

媒介视角下对ChatGPT的考察，关注点是人与外部世界（社会、自然）连接方式的变革，涉及人、机、物等多个层面的新型交互状态。在生成性、通用性方面取得重大突破的ChatGPT，展示了人类前所未有的新型交互方式，其革命性体现在，个体与智能媒介的实时交互，能够实施人—机在社会生活多个领域的协同生成，因此或可被视为人类历史上第一个连接全球网络的个体化媒介。自ChatGPT横空出世以来，多个向度的技术推进正在爆发式展开，本文所描绘的视频化社会，是基于突破ChatGPT文字交互（键盘、对话框为基本界面）单一媒介形态方面的前沿展望。2023年6月苹果公司推出Vision Pro MR头显，引发相关行业的新一轮震荡，被称为扩展现实（XR）发展历史上的里程碑事件。这款眼镜在交互方面最为突出的有三点：3D视频高清晰度的拍摄、传输与播放，由此被称为第一个3D摄影机；虚拟场景与观看场所的随意叠加，佩戴者可使用眼镜上的旋钮自行决定虚拟和现实场景的配比；放弃手柄、触摸屏等物质界面，直接以手势和眼神与机器交互。苹果公司官方宣传称其为空间计算技术的创新，即智能计算突破二维屏幕向三维无边框的世界拓展，这预示着视频化技术方面的飞跃。当前针对语音、图像、视频、元宇宙等多模态、全息化的人工智能开发正在进行中，其中两个方向值得关注：一是对人类初民时期自然交互方式的“回归”，比如语音交互方式；二是创造前所未有的崭新方式，如马斯克去物质化的“脑机接口”交互，这两个看似冲突的发展方向，其实享有同一个预设，即借助技术实现人类社会交互机制的不断突破。人工智能的语音交互要回归的并非肉身面对面交流的场景，而是将这种自然交互状态纳入智能媒介全息化场景中，在与其他交互方式的融合中，焕发出前所未有的动能。媒介视角考察ChatGPT的价值在于，探讨作为媒介的人工智能技术交互如何转换为社会文化层面的交互实践，在此基础上，进一步理解并阐释技术变革通过转变、创造人类社会的交互机制，对文明产生的巨大影响，这也正是人工智能作为媒介的力量。