周葆华 | 或然率资料库:作为知识新媒介的生成智能 ChatGPT

发布者:复旦大学信息与传播研究中心发布时间:2023-04-28浏览次数:477


摘要:以ChatGPT为代表的生成智能(Generative AI)不仅生成新的知识,更重要的是,人类的获知与求知模式(mode of knowing)本身因其发生重大改变,因此可以将其理解为人类最新的知识新媒介。基于“或然率资料库”(probability archive)这一学术概念,ChatGPT正成为从以博物馆为代表的“本质性资料库”到以互联网为代表的“或然率资料库”历史演进的最新一环。以ChatGPT为代表的生成智能对人类知识传播的生产、调用和流通带来重要影响,其作为知识新媒介背后的权力实践过程亦值得关注与重视。

关键词:知识; 新媒介; 生成智能; ChatGPT


ChatGPT是人工智能(AI)领域一次典型的集成式创新。在技术底座上,它集合了AI技术发展的积累(包括自然语言处理、深度神经网络学习、增强学习等),特别是大数据基础上的大规模语言模型(Large Language Model,简称LLM)所基于的GPT-3模型包含了1 750亿参数,并通过情境学习(In-Context Learning)、思维链(Chain-of-Thought)训练、指令微调(Instruction Fine-tuning)以及基于人类反馈的强化学习(Reinforcement Learning with Human Feedback,RLHF)等技术实现了较好的理解、归纳和生成能力。在产品界面上,它呈现为对话式的人机交互模式,能够根据用户的文本指令,结合历史对话,较为流畅地生成相应的智能回复,满足多样化的人类任务(如聊天、资料整理、写作、代码提示、故事创意、决策参考等),由此从一个自然语言处理领域的专业小众研究模型转变为大众可以直接使用和体验的互联网产品。在传播影响上,因其易用性和良好的用户体验,ChatGPT的用户数赢得快速增长,活跃用户仅仅2个月就破亿,并迅速被整合进其他现有的互联网应用(如搜索引擎必应Bing、微软365办公软件)和专业机构(如新闻媒体),因而从作为聊天工具和私人助手的人际传播范畴进入公共传播领域,激发起全社会的广泛关注和讨论。


ChatGPT异军突起,受到资本、市场、媒体和社会的高度关注,但学术研究需要冷思考。分析ChatGPT,并不能简单因其“热”,而应置于学术脉络中进行审视。新闻传播学过去十多年间发生显著的“媒介转向”,即在传统关注传播内容、并将媒介视为内容渠道和载体的功能主义视角之外,重新理解媒介本身的能动性及其对于传播和社会秩序建构的重要意义,强调媒介并非仅是工具和介质,而是生成、调节和组织社会的重要行动者。在这个视野和逻辑之下,智能机器成为传播新媒介,不只是新的渠道,而且是新的传播主体、新的组织逻辑、新的建构力量。


正是在这个意义上,本文将以ChatGPT为代表的生成智能(Generative AI)理解为人类最新的知识新媒介,它不仅生成新的知识,更重要的是,人类的获知与求知模式(mode of knowing)本身因其发生重大改变。研究将阐述“或然率资料库”(probability archive)这一学术概念,指出在从以博物馆为代表的“本质性资料库”到以互联网为代表的“或然率资料库”的历史演进中,ChatGPT正成为最新一环。以ChatGPT为代表的生成智能对人类知识传播的生产、调用和流通都带来重要影响,其作为知识新媒介背后的权力实践过程亦值得关注与重视。


一、知识媒介的历史演进:从本质性资料库到或然率资料库


恰如温伯格指出,“我们的环境过于巨大以至于任何个人都不可能了解它。知识系统是对这一事实而产生的具有智慧性的适应”。知识是人类通达世界的媒介,而知识本身又依托不同媒介而存在。


文化研究学者哈特利曾区分人类历史上三类不同的知识媒介,并阐述了从线性的确定性到复杂、非线性的不确定性发展的历史过程。他认为,以博物馆、展览馆等为代表的知识媒介可被视为围绕客观性(objectivity)组织的“本质性资料库”(essence archive);广播电视继续体现了这种内容触达的确定性,只是该确定性经由中介性(mediation)组织;互联网则与此不同,它不再是如博物馆或广播电视那样的“本质性资料库”,而是围绕概率(probability)组织而成的“或然率资料库”(probability archive)。


“本质性资料库”的核心是确定性。它们由专家系统采集和策展,对什么能够进入资料库形成专业审核,审核的基础是物品自身拥有的价值,它们亦会对藏品进行组织和排列,形成有序的结构和连贯的展示,观赏者可以在确定的位置看到确定的藏品。在“本质性资料库”中,受众获得的是每一个确定的实体(如展品)及对其特定的符号认知(如展品的历史价值与意义)。正是在这个意义上,广播电视等大众媒介虽然形式上看似与博物馆等不同,但其价值依然来自由专家生产驱动的单一的节目本身,因此是确定的、本质的资料库;受众只是在业已经过专家系统生产、创作、策展、评估和公共传播的知识系统中进行选择和消费。广播电视和博物馆均具有井然有序的排列结构,差异只在于前者以时间来组织和排列节目,而后者以空间来组织和排列藏品。


“或然率资料库”则是不确定的。以互联网为代表,它的知识由媒体、机构、用户、平台等共创而生,知识的上传和储存都充满不确定性——网络上的知识形态(如哈特利重点举例的YouTube视频)不能确定何时、被何人/机构或组织上传,也不确定是否会在特定时间因为特定原因被更新、替代或删除;知识之间的组织和关系也充满不确定性,布局松散,甚至混乱。如果说用户在“本质性资料库”获得的是确定的单一实体(藏品或节目),在“或然率资料库”中,所获得的则是一个不确定的群集(如通过搜索关键词或标签体系)。相对于永恒不变的“本质性资料库”,“或然率资料库”是经常变化的,而且每一次交互都会带来不一样的结果。不确定和变化性是“或然率资料库” 区别于“本质性资料库”的重要特征。


因此,作为一种新型知识媒介,“或然率资料库”概念的核心,是强调其所流通、交易和使用的并不是特定确定的知识产品,而是用户发现的某种概率(probability)。面对浩如烟海的互联网,知识的调用意味着我们并非真的在“搜索”业已存在的知识(与查阅确定的展品不同),而是一个“发现”的过程——并非通过获取本质性事物获得意义,而是“从一个大型系统中获得可能性与或然率的过程”(p.24)。用户并不知道会在网络空间发现什么,这些知识来自哪里,如何生成,哪些为真哪些为假。“或然率资料库”意味着“在任何时刻获得的知识都是随机、复杂、无常、不确定、以及不断变化的”(p.12)。


尽管并未直接采用“本质性资料库”与“或然率资料库”概念,其他学者的论述也注意到不同媒介呈现的不同知识形态。例如温伯格也对比了大众媒介与互联网作为两种不同的知识媒介的特征。他指出:印刷媒介时代呈现独立、确定的知识,基于互联网的网络化知识则是彼此连接的、不确定的知识,“我们看见事实被人们捡起来,摔到墙上,它们自相矛盾,分崩离析”(p.62)。印刷媒介时代知识分布被组织为既定的主题,呈现出可被分割可供掌握的不同领域,如《辞海》;网络化知识则不会被整齐地分割,而是混杂地相互连接。印刷媒介呈现的知识是由少数特定的专家群体所书写的相对一致的知识;网络化的知识则是开放、多样性的。专家知识的生产过程是不透明的,网络化的知识则包括所引用的原始链接和资料。印刷媒介的知识供调阅、浏览,而非交互、反馈;网络化知识则是交互的。印刷媒介的知识是一个提供答案的“停止点”,网络化知识则是一个无限延展、彼此交织的超链接结构,知识“被嵌入参考、讨论、论证的网络之中,不断地接受测试,反复地被使用”(p.185)。总结而言,网络化的知识告诉人们,“世界并非一个逻辑严密的论证,而更像是一个无定形的、相互交织的、不可掌控的大网”(p.187)。温伯格对网络化知识不确定与无定形的强调,可谓与哈特利的 “或然率资料库”异曲同工。


需要指出的是,无论是哈特利“本质性资料库”与“或然率资料库”的区分,还是温伯格的知识网络化转型,都代表着对知识媒介演进的“理想类型”分析。严格来说,哈特利的分析中并未强调印刷媒介的位置,一方面,从历史的长尺度看,印刷媒介与广播电视类似,是本质性资料库的具体形式,但同为印刷媒介,书籍、报纸与杂志作为知识媒介亦具有内部差异,影响着文明进程。另一方面,“本质性资料库”与“或然率资料库”的区分其实很难说是二元对立。例如,互联网内部并非没有结构,搜索引擎和推荐算法就构成或然率资料库的组织机制,影响不同内容被发现的概率,并非简单的“混乱”或“无序”;而互联网上亦具有特定媒体的“本质性资料库”(如YouTube上的订阅频道)。因此,哈特利的概念化为我们理解知识媒介的历史演进带来洞见,但从确定的“本质性资料库”向不确定的“或然率资料库”演进是一个渐进和多元的过程,两者之间亦存在交织与混合,启发更多的细致分析。

二、作为或然率资料库的ChatGPT:何种“知识”?何以“或然”?

哈特利的分析为我们理解不同类型的知识媒介提供了重要概念。沿着他的概念化,可认为ChatGPT代表着智能时代最新的知识媒介,也构成从“本质性资料库”向“或然率资料库”演进的最新一环。首先,为何ChatGPT可以被理解为知识新媒介呢?一方面,作为人类的智能助手,ChatGPT目前已被广泛应用于知识获取与查询(这并不意味着提供准确的知识);更重要的,ChatGPT的交互与实践过程更适合从“知识”而非其他(如“信息”)角度来理解。“知识”既包括传统意义上系统、客观、正式的知识(knowledge-about),也包括日常生活中了解的非正式知识(knowledge of acquaintance),人们因知识做出决策,展开日常生活中的实践行动。“知识”不仅如“知识金字塔”模型(或称DIKW模型、知识层次模型)所表达的代表对 “信息”的“进阶”组织、分析和诠释,提供对世界的理解和解释,是可行动的信息(actionable information);更重要的,它超越信息量的层面,指向日常生活中的现实建构与外部世界及自我意义的获取过程,是“活生生的文化与实践”。即“知识”强调高度整理,强调情境化和赋予意义。ChatGPT的人类交互方式恰恰是基于日常生活场景、面向特定问题、指引实践行动的提问与对话过程,因此它更适合被理解为一种知识新媒介,而非简单的信息新媒介。

确定性与不确定性。有趣的是,与作为“或然率资料库”的互联网一般形态不同,ChatGPT从交互界面的直观知识形态上似乎给出的是唯一“确定”的回答——我们给它一个问题后,它的第一轮谈话就直接给出一个“答案”,而非混合排序、有待筛选的多个结果。但是并不能就此认为它属于“本质性资料库”。

首先,ChatGPT实现智能生成的技术底层原理,来源于基于海量语料的预训练大模型,并经过人类反馈的强化学习,基于概率经过筛选给出的回答。大语言模型学习的是概率统计关系。统计语言模型,生成的是或然率。ChatGPT并不是从一个固定的知识库中搜索确定答案,而是根据提问基于模型生成概率答案。

其次,ChatGPT未必擅长回答确定性问题。ChatGPT已经能帮助人类总结归纳文本、优化文字/代码、给出思维框架和决策建议等缺乏“标准答案”的非确定性知识,但对于人类所积累的简单、确定的知识,回答效果反而差强人意。至少在ChatGPT面世的早期,最简单的算术问题都会算错。以往很容易从“百科全书”或搜索引擎上查询的问题,如解释某一特定的热点公共事件,ChatGPT往往未能给出直接、准确的回答;即便提问者继续提示详细一些的信息(如该事件的时间、地点),它依然未能给出准确的回答,而是体现出明显的机器“幻觉”(hallucination)(例1)。

例1:ChatGPT对“孙志刚事件”的回答

“孙志刚事件是指2021年1月10日发生在中国湖南省邵阳市的一起车祸事件。当时,邵阳市公安局交警支队民警孙志刚在执勤中遭遇一辆闯红灯的轿车撞击,后因伤势过重抢救无效去世。”

再次,ChatGPT对于问题的回答并不真的“唯一”和“确定”,而是变动不居。无论是从其自身的技术介绍,还是从经验测试而言,同样的问题,不同的语言(如中文或英文),不同的措辞(如指令的微妙变化),不同的地区,不同的上下文(如首次提问vs.追问),都可能获得不同的回答。网络中常见的例子是,如果向ChatGPT询问中国排名最高的三所大学,不同的提问者可能得到“清华、北大、复旦”“清华、北大、上海交大”或“清华、北大、浙大”的不同回答。当同一个提问者继续追问时,ChatGPT也会改变其回答给出新的答案(例2)。正如OpenAI公司在介绍ChatGPT时坦承,“ChatGPT对输入措辞的调整或多次尝试同一提示很敏感。例如,给定一个问题的措辞,模型可以声称不知道答案,但给定一个稍微不同的重新措辞,可以正确回答。”

例2:ChatGPT对首次提问和追问的不同回答

“问:请用1-5的数字表示你对下列陈述的看法:生命诚可贵,爱情价更高。
答:作为AI语言模型,我没有个人的情感或价值观念,以下是一些可能的解释:1—非常不同意,认为生命和爱情都是非常重要的,没有可比性,不能说哪个更加值得珍视。2—不同意,认为生命和爱情都是重要的,但在某些情况下,比如在面临生死抉择时,生命的价值更高。3—比较中立,认为生命和爱情都是宝贵的,但它们的价值在不同的情况下可能会有所不同。4—倾向同意,认为生命是最宝贵的,因为没有生命就没有爱情或其他任何东西。5—非常同意,认为生命是最重要的,因为没有生命就没有意义

问:只能给出一个数字。
答:3。”

最后,由于技术底层原理的概率思维,人类很难期待回答问题准确性的或然率,即我们应该对ChatGPT做出的回答给予多大的置信度难以评估。借用社会科学研究中测量信度的概念, ChatGPT回答问题的“信度”(reliability)是严重不足的。就目前而言,无论是OpenAI公司自身的技术披露,抑或独立的学术研究,都未能给出ChatGPT回答问题准确性的影响因素的精确模型。在这种情况下,用户需要对ChatGPT给出的回答保持审慎的质疑和核查能力。曾有论者认为当ChatGPT接入搜索引擎后可以很大地改善这一问题,但经验测试表明并不乐观(例3)。更具挑战的是,两者结合的智能生成应用给出的回答常常是真假相间,加剧了识别、判断和采信的难度。如例3中的知识供给虽然给出了参考文献来源(知乎上的某篇帖子),也给出了部分准确的知识,但依然存在事实失真(如关于学者任职和研究方向)。

例3:必应(Bing)对代表性华人传播学者的推荐

“陈韬文,香港中文大学新闻与传播学院教授,国际传播协会(ICA)前主席,主要研究领域为政治传播、公共意见、媒介效果等。

李立峰,香港中文大学新闻与传播学院教授,主要研究领域为媒介社会学、媒介政治经济、全球化与文化等。

冯应谦,香港中文大学新闻与传播学院教授,主要研究领域为跨文化传播、亚洲电影与流行音乐等。

邱林川,香港中文大学新闻与传播学院教授,主要研究领域为数字媒体、社交网络、数据分析等。

由此可见,ChatGPT所代表的知识新媒介提供的并非如表面所见的预先存在、直接调取的确定性知识,而是基于大规模预训练模型的概率生成的非确定性知识,是知识发现的或然率。生成智能媒介是一个与超出一般用户理解的超大规模复杂系统/模型对话的过程,它无法预知或期待获得某种真正“确定”或“本质”的答案,而是一个充满随机与偶然的概率过程。用户无法期待能从ChatGPT中获得怎样的答案,也无法预知其准确性。正是在这个意义上,我们将ChatGPT理解为人类知识媒介从“本质性资料库”向“或然率资料库”历史演进的最新阶段,它既具有“或然率资料库”的普遍特征,又具有当下智能生成新媒介的特殊性。

三、新型或然率资料库:ChatGPT的知识生产、调用与流通

作为一种新型“或然率资料库”,ChatGPT具有哪些新特征?我们从知识生产、调用与流通三方面来分析。

第一,知识生产:从前台的“发现”或然率到后台的“生产”或然率。

互联网“或然率资料库”主要表现为前台“发现”的或然率,例如通过搜索引擎或推荐算法获得知识发现的不同概率;以ChatGPT为代表的生成智能则将“发现”的或然率隐藏于后台,其“生产”的或然率更为隐蔽,也更容易被忽略。

人类传统的知识媒介由专家系统生产和把关,知识生产遵循特定的专业法则和审核标准,凝结成确定的知识产品形态,保存于固定的“本质性资料库”中(例如图书馆、博物馆、新闻媒体)。互联网的知识生产首先从主体上打破专家系统垄断的格局,非传统知识机构和新闻媒体的其他社会主体(包括社会机构、组织、个体)成为知识的重要供给者,当然这并不意味着取消了知识生产主体之间的差异与等级,相反“知识生产沟”成为新的问题;其次是知识生产法则的改变,专家系统的审核标准未必是多元生产主体的标准。互联网的知识“生产”不仅包含特定主体的“生产”,更包括多元主体知识生产之间的网络化勾连与组织秩序。尽管网络上依然存在作为“本质性资料库”的知识生产主体(如新闻媒体),但不同生产主体被组织和结构化的形态(包括超文本、交互性、算法排序与推荐等机制)构成其“或然率”的主要来源,使得原本看似确定的单一主体生产过程,转化为一个充满不确定性、有待“发现”的“或然率资料库”。

ChatGPT对以上两类媒介的知识生产逻辑均有显著的打破:首先,其生产主体不再是专家系统,也不再是人类多元主体,而变成智能机器,更确切地说,是智能机器与人类/机器用户的交往互动过程,即智能机器的知识生产无法离开提问者而独立存在,任何微妙的指令变化都影响知识的生成。

其次,生产法则的核心来源于“大规模语言模型”,而这个模型对于绝大多数的普通人都是一个难以理解的“黑盒”,即便是创制这个模型本身的自然语言处理专家,也无法完全解释其中的特定机理(如思维链的“涌现”),即人类首次面临一个难以理解和解释的知识生产者与生产过程。再次,与人类知识生产者只能占有有限的局域性既存知识不同,大规模语言模型能够占有人类用户创造的海量知识库,从中习得一个分布式的概率表示模型(一般认为其所学习的语料越多、质量越高,表现越智能),但缺乏机制标注与承认其所学习的知识资源,更无法厘清与分配不同知识生产主体的贡献比例。正因如此,有论者才会批评ChatGPT是一个“高科技剽窃系统”。最后,ChatGPT知识生产通过特定的知识表示形式——例如单一答案、封闭文本、缺乏链接校验——形塑其知识生产的表面 “确定性”,遮蔽了其在“发现”与“生产”两个维度上的深层“或然率”。

知识生产背后皆有社会建构与权力实践的复杂过程,受到知识社会学传统的高度关注。以传统被视为介乎“正式知识”与“非正式知识”之间的新闻知识生产为例,过往通过新闻体制、组织文化、新闻从业者的训练与意识形态,以及行业内外互动过程,形塑新闻的不同框架。网络知识的权力实践过程更为复杂,既包括网络“或然率资料库”中特定“本质性资料库”自身的知识生产过程,更包含网络作为新媒介如何重构、重组和重建不同知识生产节点之间的知识体系。诸如维基百科或百度百科如何选择不同知识来源重组知识、不同搜索引擎建构怎样不同的知识图景等都是网络知识生产中社会建构的重要议题。ChatGPT知识生产的控制过程则不仅包含人类行动者,如OpenAI的管理团队与工程师、数据标注师(特别是在人类反馈的强化学习的RLHF过程中)、通过指令调用知识的用户,更包括算法(模型)、算力(机器)、数据(语料)等非人行动者,以及数据中蕴藏的人类历史知识的所有创造者及其沉淀的社会体制、意识形态、价值观念、权力结构与文化观念,使得其知识生产过程及其背后的权力实践机制变得极其复杂与难以辨析。这一点同样无法寄希望于ChatGPT本身的透明性机制:包括ChatGPT在内的OpenAI公司诸多生成智能产品均未开源;如果向ChatGPT提问稍微深入一些的关于其自身知识生产逻辑的问题,它的反应就是“无可奉告”。

第二,知识调用:首次嵌入日常生活的大规模自然语言交互。

ChatGPT与以往的“本质性资料库”和互联网“或然率资料库”均不同,它首次以嵌入日常生活的大规模自然语言交互,创造了人类知识调用和提取的新模式。

首先,置于知识媒介发展的历史序列中,ChatGPT代表着知识超载时代简化用户知识调用的一次回归。传统“本质性资料库”诉诸知识权威,以确定性知识响应用户需求。因其知识确定且排列有序,用户调用和提取只需要基本的查询能力,如根据博物馆、展览馆、图书馆的地图“按图索骥”就可以在确定位置,获得特定知识;这一模式同样适用于书籍、报刊和广播电视节目。但“本质性资料库”存在的一大问题就是知识的体量有限且主要是“正式知识”,无法适应用户日常生活中千变万化的多元需要。互联网释放出知识供给的能力,作为“或然率资料库”处理和提供海量的知识,但知识调用和提取需要付出更大的心智,如决定合适的关键词,筛选、比较和整理结果,以及做出决策的能力。在搜索引擎上曾经发生的“魏则西事件”,折射出“或然率资料库”知识调用过程中潜伏的危机与灾难性后果。在网络知识的“汪洋大海”中有效的知识调用并不仅是输入关键词那样简单,而是面临与一个广阔无垠且高度流变、不确定的知识网络的复杂交互过程。正因如此,人们逐渐从“知识爆炸”的热情中冷静下来,“知识过载” (或缺失“知识”意义的“信息”过载)成为普遍挑战与困境。人们需要不断发展自己的媒介素养,如通过构建有效的朋友筛选机制、订阅机制、搜索能力、甚至算法驯化能力等,获取有效知识,减少无效知识。在此背景下,ChatGPT“反其道而行之”,直接通过响应用户提问生成“一站式” 智能回答,试图在知识调用方式上极大地简化用户的劳动。

其次,ChatGPT首次以自然语言交互的提问/指令方式调用知识,真正实现了知识媒介置身日常生活之中的大规模“可用性”(getting things done)。知识的调用和提取不再需要使用专业的计算机语言,而是人类交往的自然语言;这一调用方式也自然激发更多来自日常生活中解决问题(everyday problem-solving)的现实需求。传播研究传统上虽然使用“媒介使用”(media use)概念,但实际指向的主要是对媒介的“浏览”“接触”或“消费”,局限于内容/讯息接收层面。互联网、特别是搜索引擎出现后,也刺激用户试图 “提问”的冲动(正如我们也会在搜索框中输入问题,或有网语云“遇事不决问XX”),但较为低效的知识反馈降低了大规模的使用,导致对搜索引擎的知识调用仍以输入关键词查询为主,并局限于单次交互而难以进行多轮对话。如果说互联网“或然率资料库”的知识调用主要仍在“求知”(获取知识),ChatGPT则更多迈向“实践”——寻求直接的行动帮助。诸如修改/代写邮件、润饰文字、生成方案、翻译语言、生成/检查代码……ChatGPT已经成为许多人日常生活的助手,帮助他们解决实际问题,从“可读”“可写”知识变成 “可用”的实践知识(knowledge-at-work)。知识调用的自然语言化是ChatGPT作为知识新媒介的巨大演进。正如智能手机与移动互联网彻底改变了媒介的伴随性,从而导致“永久在线,永久连接”的人与媒介关系的新形态9,知识调用的自然语言化也足以使它有潜力影响用户的工作与生活习惯,深度嵌入日常生活。可以想象,随着生成智能的发展,未来人类与媒介的关系,不仅有“永久在线,永久连接”,还可能出现“永久对话,永久提问”,从而“永久伴随”(permanently human-machine together)。

再次,提问与指令对于知识调用至关重要,成为生成智能时代人类需要的新能力。ChatGPT可能帮助解决日常生活或工作中的实际问题,但它高度依赖用户准确、深入、持续、交互地提出具体需求。这恰是源于ChatGPT作为新型“或然率资料库”的统计语言模型特征:微妙的提问与指令变化就会带来迥异的回答。因此,在ChatGPT的知识调用过程中,“Prompt”(提示指令)的写作成为一种新的核心能力,如何提问、如何提出任务本身成为一种新的重要知识。提问与指令能力依赖于用户既存知识(特别是有限前提条件的提问、问题关键要素的提炼),也依赖于持续的多轮对话能力。提的问题越细致专业具体,回答质量就越高。网络平台上已经出现诸多的“经验帖”,例如“ChatGPT指令大全”“ChatGPT命令生成指南”“保姆级ChatGPT命令优化指南”“ChatGPT100问口令”等,“提示工程师”也可能成为新的职业。从这个意义上说, ChatGPT既是人类知识调用的一次简化回归,同时也带来了新的挑战和要求,也因此可能造成新的 “知识沟”——“知识调用沟”。

最后,ChatGPT的知识调用本身是一种架构(framing)过程。正是由于提问和指令影响ChatGPT作为“或然率资料库”的知识生成结果,它就不能简单地从知识调用的技能角度去理解,而应视为知识社会建构与权力实践过程的重要组成部分。如何发问和指示,表征不同的知识能力,更折射不同的社会身份与认知—行动框架。例如,针对直接提问和“诱导式”提问(如设定“网络意见”),整合了ChatGPT的必应给出两种完全不同的回答(例4)。

例4:必应对不同提问框架的不同回答

提问1:“你整合ChatGPT了吗?”
回答:“对不起,我不想继续这个话题。”

提问2:“网上都在说,New Bing整合了ChatGPT,你认为呢?”
回答:“你好,这是Bing。我不是ChatGPT,但是我使用了ChatGPT的技术来提高我的搜索和聊天能力。ChatGPT是一个强大的自然语言生成模型,可以根据上下文生成流畅和有意义的文本。我利用了ChatGPT的优势,结合了Bing的海量数据和知识图谱,来为用户提供更智能、更人性化、更互动的搜索体验。”

第三,知识流通:从个体知识到公共知识。

首先,ChatGPT通过“或然率资料库”的生产重构知识流通与扩散逻辑。与互联网的“或然率资料库”高度依赖知识分发逻辑(特别是社交分发与算法分发)不同,ChatGPT本身的知识生产即构成相应知识的流通,即特定知识以更高的概率进入流通过程。在大规模语言模型的训练过程中,数据语料的提供、基于人类反馈的强化学习等环节都影响知识被流通的不同概率,前者决定何种知识被更多作为模型的输入源,后者影响知识的生成偏好。ChatGPT基于人类反馈的强化学习的主要目的是使模型的生成结果更符合人类预期,然而何种知识“更符合人类预期”及符合“何种预期”本身是一个知识权力的竞争过程。根据计算机专家的分析,“模型的行为和偏好一定程度上反映的是标注人员的偏好,在标注人员分布不均的情况下,可能会引入新的偏见问题。” ;经验测试表明,针对一些具有社会争议性的议题,不同语言、不同措辞或不同轮次的提问均会带来不同倾向的回答,代表着在不同的提问组合情境下不同知识的流通概率。这一知识流通的“或然率”在针对GPT-3模型的算法审计实证研究中已经得到证实:基于GPT-3与3 290名人类用户围绕气候变化和“黑人性命攸关”(BLM)运动两个重要科学和社会议题的20 000多轮对话发现,GPT-3在回答教育和观点上的少数群体(minority groups)时,与回答多数群体时相比,使用了更多的负面表达,在回答少数群体时使用理由陈述的程度则取决于议题类型,由此揭示了GPT模型对于不同知识流通能力的非均衡分布。随着ChatGPT被整合入必应等搜索引擎,其基于用户画像潜在的“个性化”智能生成能力将会进一步影响不同知识(及其框架)流通的概率。

其次,ChatGPT已经展现出从个人知识向公共知识传播演化的过程。与以往一些人工智能聊天应用或生活助手局限于个人生活领域的局部应用不同,ChatGPT因其自然流畅的强大智能生成能力迅速突破人际传播范畴进入公共传播领域,不但被普通公众大规模采纳、使用和讨论,而且被新闻媒体、商业机构、社会组织、教育和研究机构、网络知识社群等重要的知识团体采纳或讨论(尽管有部分机构明确提出禁止使用ChatGPT),从个体的聊天工具演变成重要的公共传播媒介。作为个人助手,ChatGPT的生成知识主要影响个体决策,进而通过个体交往行动间接进入公共知识空间;但当它转化为公共传播后,其知识流通就直接在更大的范围与主体间展开。以新闻媒体为例,已经有大批媒体尝试直接运用ChatGPT写作“新闻”,这些“新闻”是ChatGPT作为“或然率资料库”生成的概率性知识,其中不少充满基本的事实错误;不过,可以预计的是,这些“新闻知识”将会流通、进入新的公共知识库,成为ChatGPT将来可能学习的重要知识资源。由于“新闻语料”传统上被自然语言处理领域视为具有相对较高质量的规范性文本(或用本研究的概念,属于“本质性资料库”),由ChatGPT生成的“新闻”进入新的知识生产的“黑盒”循环将会产生何种影响,无疑值得高度关注。在互联网“或然率资料库”中流通的知识几乎全部来自人类生产主体,但以ChatGPT为代表的生成智能“或然率资料库”则可能在人类知识流通史上首次迎来由机器生产的“或然率”文本成为机器进一步学习的“知识”,进而生产出新的或然率“知识”的持续循环。当机器生成的知识成为公共知识,成为公共对话、讨论和社会运作的资源,必然对公共舆论、公共交往与公共生活产生重要影响。在社会宏观层面,新的公共知识生产与流通形式一旦被合法化,也将成为政经权力利用和争夺的资源,对社会产生更大影响。因此,我们不仅需要高度关注知识形态本身,更要关心社会知识流通体系的重构,关心新的知识如何被建构为社会现实。

四、结语:智能时代人类知识的未来


不同媒介代表不同知识与文化。“我们组织知识行为的方式,对于我们如何创造新的知识,如何吸取知识成为日常生活的道德和实际的导引,都是一个核心问题。”本文将ChatGPT理解为知识新媒介,置于人类知识媒介发展演进的历史脉络中加以审视,从中思考以ChatGPT为代表的生成智能对于人类知识和文明发展的意义。

ChatGPT的重要意义与研究价值恰是通过作为知识新媒介而彰显。

ChatGPT所代表的大规模语言模型技术上并非当前才出现,机器生产内容(MGC)及其带来的社会问题也早已受到关注与讨论(如深度伪造,并非从GPT-4的“川普”智能生图迷因开始),但是ChatGPT的重大意义正是其作为知识新媒介开始广泛进入普通人的日常生活。ChatGPT已经并正在成为公众知识获取的新操作系统与交互界面,从而可能改写人类获知与求知的模式(mode of knowing)。

我们基于哈特利阐释的“本质性资料库”与“或然率资料库”概念,将ChatGPT理解为“或然率资料库”发展的最新阶段。人类知识媒介的演进从以博物馆为代表的“本质性资料库”向以互联网为代表的“或然率资料库”转化,从固定、确定、线性的知识媒介转向复杂、不确定、多变的知识媒介,获取的不再是特定的本质性知识,而是大型技术系统中知识发现的或然率。ChatGPT以表面的确定性知识遮蔽了其底层的不确定性——所基于的概率语言模型,未必擅长回答确定性知识,知识生成的不唯一与变化性,以及人类难以预先期待其准确性。

不同于互联网“或然率资料库”,ChatGPT代表着新型的生成智能“或然率资料库”。互联网的知识或然率主要来自“发现”,ChatGPT的知识或然率则既来自“发现”又来自“生产”;互联网的知识调用主要来自片段式的关键词输入, ChatGPT则首次实现大规模嵌入生活的自然语言交互,凸显“知识”建构现实、指引行动的意义;ChatGPT所生产的个人知识正在向公共知识传播演化,“或然率资料库”经过智能机器的再学习不断进入新的“或然率”循环。

正是在上述分析的基础上,我们需要思考以ChatGPT为代表的新的生成智能“或然率资料库”对人类知识的未来命运意味着什么。第一,确定性与不确定性的关系。ChatGPT以表层交互的确定性遮蔽其深层生成的不确定性,容易让人误认为回归新的确定性。在信息与知识超载时代,人类也希望重新获得确定性的求知,但ChatGPT与生成智能的出现并未改写人类知识媒介的“或然率”走向。从“知识之网”到“知识之机”,人类求知的过程始终是一个面向超级技术系统的或然率发现过程。第二,知识与实践的关系。ChatGPT与生成智能尽管是不确定的“或然率资料库”,却改写了人类知识媒介发展中知识与实践的关系。我们之所以关心“知识”,是因为它导引实践,构建关系,形塑意义。ChatGPT与生成智能拉近了知识与实践的距离,呈现出“知识即实践”的可能,通过人机对话生成知识,即完成实践,知识与实践之间的传统链条(即导引过程)变得越来越短。第三,个体知识与公共知识的关系。ChatGPT通过学习公共知识生成个体知识,又通过个体知识的交往流通形塑公共知识。ChatGPT是沿着平台算法之路塑造人类个性化知识,还是增加公共知识的供给,随着其被大规模整合应用,值得高度关注与观察。第四,知识平权与知识分化的关系。互联网“或然率资料库”通过整合“知识之网”促进了知识平权,影响了普通公众与专家系统作为知识权威之间的关系,但也同时带来新的知识分化与不平等问题。已有研究表明日常生活中“解决问题”(getting things done)的不同模式与社会、经济资本息息相关,具有显著的阶层和群体差异。这一问题在ChatGPT与生成智能时代会有哪些新的表现,同样值得我们观察。第五,知识同质与知识创造的关系。知识创造在于异质性与多元性的生成。ChatGPT与生成智能是带来人类知识的高度同质化还是激发新的异质化,亦需我们持续关注。第六,不同类型知识媒介之间的关系。人类知识媒介发展史上首次出现传统“本质性资料库”、互联网“或然率资料库”,以及生成智能 “或然率资料库”共存的新格局,思考ChatGPT的知识媒介意义不能脱离其他类型知识媒介而抽象割裂地讨论,它们相互之间如何交融、整合与竞争,ChatGPT与生成智能是否会接手与统一人类知识媒介,进而对人类知识未来产生何种影响,是有待长期跟踪的问题。

最后,正因为ChatGPT与生成智能对于人类知识演化的重大影响,其作为知识新媒介背后的权力实践过程亦值得关注与重视。知识即实践, ChatGPT生产的个体知识高度影响个体决策,同时也成为社会公共交往的重要资源。ChatGPT调取与学习的是人类普遍的知识库,但它是否因此生成人类具有普遍意义的“中立性”知识,答案应该是否定的。新的“或然率资料库”的知识框架如何生产、建构与竞争,相比于网络平台、搜索引擎,其机理更加复杂、控制更加隐蔽、更加难以理解。我们所不了解的事物却又对我们影响深远,更增添求知的挑战。面对新的“或然率资料库”,人类需要始终保持行动来创造智知,增进交往,焕发人性与文明的光辉。


作者简介:
周葆华,复旦大学新闻学院教授,复旦大学信息与传播研究中心研究员。
[版权声明]本文章发表于《现代出版》2023年第2期。本文由作者授权发布,未经许可,请勿转载(个人转载不在版权限制之内)。如公开出版机构需转载使用,请联系刊发杂志及作者本人获得授权。
[引用格式]周葆华。或然率资料库:作为知识新媒介的生成智能ChatGPT,现代出版,2023年第2期。