您现在的位置：首页 ›社科要闻›工作动态

吴学琴 | 从ChatGPT到Sora：意识形态话语的“真相”审视

浏览次数：151 发布时间:2024-09-26

分享到微信朋友圈

打开微信，点击底部的 “发现”，
使用 “扫一扫” 即可将网页分享至朋友圈。

　　[摘要]无论是大语言模型ChatGPT，还是文生视频模拟器Sora，其所生成的客体“真相”并非客观世界真实存在样态，亦非世界的真实秩序，实质是一种“后真相”，其所生成的文本和短视频，存在着意识形态话语的偏见和错误。对此，只有通过拓展中文语料库、加强技术规制与技术优化、推进网络监管和法治建设、确立人的主体意识、加强技术伦理安全审查等措施，才能有效治理大语言模型文本和文生短视频的意识形态话语风险。

　　[关键词]ChatGPT;Sora;意识形态话语;后真相

　　自2024年2月15日(美国当地时间)，美国人工智能研究公司OpenAI正式对外发布文生视频大模型Sora，话题的火爆程度一直不减，在知网上输入“Sora”主题词，截至6月底出现了500余篇文章，内容涉及到文生视频模型Sora如何生成;Sora为教育教学提供了怎样的机遇、挑战及其风险应对;Sora对文化产业、影视游戏产业将产生的影响及对策;Sora推动了知识生产方式的革命，其引发的意识形态效应怎样?智能传播带来的风险和治理的机制和逻辑，林林总总，不一而足。那么，从大模型Sora生成的视频中看，其生成机制和原理的“真相”是什么?背后是否具有意识形态性?这是人工智能视频化时代必须面对和回答的问题。

　　一、从ChatGPT到Sora：文本和短视频生成的“真相”

　　Sora文生短视频实质是基于大语言模型ChatGPT而生成的视频，那么语言以及在此基础上产生的“话语真相”，成为破解Sora短视频生成机制“真相”的关键。要了解Sora短视频意识形态话语的“真相”，就必须先了解Sora短视频生成的原理和机制。从Sora短视频的生成的过程看，它是在ChatGPT-4的基础上升级而成，“GPT利用Transformer的编码器(encoder)和解码器(decoder)，从语言大数据中获取了丰富的词汇、语法和语义知识，GPT在语言生成任务上达到了相当高的水平”[1]。简言之，ChatGPT-4已经可以生成论文、新闻、小说、电影等各种类型的文本，可以进行语音、语言识别，将语音转换为文本，或语言与语言之间自动转换，实现中英语等多种语言互译，甚至可对语言中的情感、问答等关键信息进行识别和提取。而Sora的灵感就源于海量数据上进行训练的深度学习模型——大语言模型(Large Language Model)，以ChatGPT为代表的大语言模型可运用语言单元(token)统一不同类型的文本，而作为视频生成模型的Sora则运用原理相似的视频块(visual patch)在不同分辨率、时长和宽高比的视频和图像上进行训练，Dit模型将Transformer应用于Diffusion模型中，利用Transformer的attention机制更好地去除噪声，生成更高质量的图像。目前大模型Sora已经具备准确性与多样性、强大的语言理解能力、支持以图/视频生成视频、视频扩展功能、优异的设备适配性、生成场景和物体的一致性与连续性六大优势。因凭海量图像与视频资源的喂养，Sora在机器学习过程中生成的视频样本质量不断提升，目前已可生成跨越不同时长、宽高比和分辨率的视频和图像，最长可生产长达一分钟的高清视频。相较于早期人工智能(Artificial Intelligence)视频生成模型，如Pika、Runway和Moonvalley等模型主要依赖简单指令与预设模板执行任务，普遍存在生成视频较短、生成类型狭隘、生成尺寸固定的缺陷，Sora则完全克服了上述不足，它根据用户输入的文本提示(prompt)，生成的视频支持不同分辨率与长宽比，具备高保真的渲染能力，甚至可在时空维度扩展和拼接原视频，同时保证生成视频时间长度与时序的一致性，即视频中事件在时间上连续、视频内容与文本描述无缝联结。Sora可以通过理解用户输入的自然语言生成高度模拟现实世界物理规律的视频图像，虚实难辨、以假乱真的视频能够充分满足个体“私人订制”的创造欲、表达欲与视觉认知需求。可以想见随着以Sora为代表的AI视频生成模型在不久的将来大规模开放使用后，会迎来用户流量与数据量的激增，Sora等视频生成模型有了海量数据的“喂养”后也将不断迭代进化，愈发走向社会舞台的中心，逐步融入人们的日常生活。而人工智能生成视频在互联网场域的泛滥必然会对个体认知，甚至对意识形态领域产生潜移默化的影响。可以说以Sora为代表的人工智能视频生成模型的诞生，已然象征着智能化视觉时代的到来，个体对自我与世界的认知、群体间的情感沟通与信息交流将越来越依赖图像，在“感性胜于理性”的视觉时代，以往的利用文本把握世界将被通过图像把握世界取代。由上可知，正是基于ChatGPT对自然语言强大的处理能力，为文本到视频奠定了坚实基础。大模型Sora进行深度学习后，在大数据中捕捉与文字相应的图像，并把一系列图像按一定的先后顺序排列，按时间的先后建模，从而理解和生成相应的图像运动，实现了从ChatGPT到Sora、从文本到视频的“惊险一跳”。Sora生产的视频连贯流畅，对现实世界中复杂多变的物理现象与动态环境的模拟真实可信，在某种程度上打开了一条以视频生成模型构建通用物理世界模拟器的全新通路，标志着人工智能视觉内容创作和模拟现实世界的新纪元，不仅代表了数据处理和视频生成技术的重大突破，也展现了人工智能在理解和创造视觉内容方面的巨大潜力，可谓树立了人工智能生产内容(Artificial Intelligence Generated Content)技术的新标杆。

　　但ChatGPT生成的文本毕竟不是视频，从ChatGPT到Sora，从文本到视频，所面临的问题之多、难度之大、挑战之险，前所未有。ChatGPT作为一种语言处理的大模型，在生成文章过程中，的确能够保证文本语法上的正确，但对于语言的所指内容，甚至所指的潜在意向，语言与环境、对象之间的直接关联，无法作出正确的判断。换言之，“涉及语言外部的日常生活知识、社会知识、历史知识、文化背景知识、人们的心理状态、人们的情感愿望”[1]等丰富多彩的复杂因素，这些在自然语言中是常识性的知识，但对大语言模型来说，却是难以逾越的鸿沟，常常面临着语言的理解能力、物理世界模拟能力、从静态图像生成视频的能力、复杂场景和角色生成能力、多镜头生成能力、文本到视频的生成能力等多种能力的考验。故此，基于ChatGPT基础上的大模型Sora生成的短视频虽然已达60秒的时长，但仍处于初级阶段，它还无法准确模拟人类与对象之间交互发生的基本物理特性，诸如玻璃破碎、进食物体状态变化、着陆月球出现的不连贯性等情况;在生成摩登女郎漫步东京街头的视频时，训练之前也可能会把一只眼睛与另一只眼睛错位，诸如此类与自然状态不相符或失真的现象，人们对此必须进行调整，也就是进行训练，训练过程中，训练师把纠正偏差、生成摩登女郎的新数据输入到大模型中，模型根据新数据调整参数，这一过程不断重复进行，螺旋式上升，以获得一个最符合自然状态的“拟真”。由此可知，大模型训练的本质就是调整参数，这一过程类似一个多层复杂的神经网络模型，从输入端到输出端对文本、视觉和音频的训练，意味着所有输入和输出都由同一个神经网络处理数据，调整参数，如下图(源自微信公众号《AI探索时代》2024年5月24日刊发文章《大模型所谓的参数是什么?大模型为什么需要训练?大模型训练到底干了什么》)所示：

　　上图所示的文生视频的过程，是把由文字的抽象表达还原为生动的动态具象过程，人们称之为是对世界的模拟，Sora公司自称是世界的模拟器，根据一段文字可以生成漫步东京街头的时髦女郎，也能生成在枝头飞跃的山雀，翱翔天空的大雁……人们惊呼，文生视频大模型Sora深度学习的能力与人类并驾齐驱，在速度、记忆、效率、知识的广博上，远超人类，看起来由一段文字到一篇雄文一挥而就，一段描述生成一段视频形象逼真，Sora似乎具有了“人类的意识”。是这样吗?由这个模拟器生成的视频是世界的真相吗?依笔者之见，它是，又不是。说它“是”，一方面它所生成的视频是一个客观的存在;另一方面，它的确是对世界某个场景的“表达”，是对客观世界的“真”的“认识”。说它“不是”，一方面是它在从文字生成图片、图片生成视频，从抽象的文字到具象的视频这一“惊险跳跃”中，跳掉了文字背后的日常生活和社会知识、历史和文化背景、情感愿望和意志追求，虽然通过训练，Sora模拟器能逼真再现“一位老人津津有味吃着汉堡，甚至留下咬痕”，或采用哑光绘画风格，细节精美地再现“苹果树下一只年轻老虎的嬉戏”。但要说它就是“真的老人”“真的老虎”，却仍须打个大大的问号，它既非康德搁置的“彼岸世界”，也不是拉康眼中的“真实秩序”，更不是马克思探寻的客观真实世界，本质上它仅仅是“数字人”“数字虎”，是一种“后真相”，在大模型的海量数据中拼凑成了惟妙惟肖的形象，甚至有时连这点常常出现纰漏。

　　由是观之，Sora生成的图像虽然遵从用户输入的指令，却远非真实的客观世界，它在数据采集与训练阶段已隐含着特定主体的利益偏向与价值表达，掌握Sora此类视觉机器的幕后机构即拥有了操纵图像政治的隐秘权力，能在不知不觉中引导用户的认知取向与意识形态偏好。同时由于算法技术黑箱的存在，Sora在视频生产过程中充斥着随机性和不可控性，极有可能会生成表达极端情绪的“后真相”视频，甚至制造出数量庞大的反主流图像，这种“视觉暴力”的存在也给主流意识形态在视觉时代的持续在场带来了挑战。

　　二、从ChatGPT到Sora：意识形态话语生成的“真相”

　　人工智能ChatGPT和Sora的问世令文本和视频创作的门槛大大降低，在智能化视觉机器中介下，相较于传播速度慢、信息容量小且单调抽象的文字媒介，人们会普遍倾向使用表达效率更好、细节更丰富且更易引起情感共鸣的视频媒介进行交流与表达，导致视频媒介的广泛流行。对此，我们不禁要问，文生视频话语是否存在意识形态性?意识形态话语“真相”是什么?要弄清楚这一问题，首先要厘清何为意识形态。“意识形态是反映一定经济关系、政治关系、以及一定阶级或社会集团利益和要求的思想体系，是社会意识诸形式中构成观念上层建筑的部分，通常包括政治法律思想、道德、艺术、宗教、哲学等。”[2]127-128“马工程”重点教材《马克思主义基本原理》如是解释，质言之，意识形态是对社会存在和社会生活反映，且是一种系统化观念化的反映，那么，其话语则是对社会生活的逻辑表达，这一表达不仅指语言、说话层面，文本、图像、视频表达的意向，即词与物之间相互匹配，也是一种意识形态的话语表达，因为“‘话语’(discourse)，既不是语言(language)，也非说话(speak)，而是特定社会语境中人与人之间从事沟通的具体言语行为，包括说话人、受话人、文本、沟通、语境等要素”[3]392。话语是由各种符号构成，但话语内涵的旨意，远不止这些符号所确指的事物，“正是这个‘不止’使话语成为语言和话语所不可减缩的东西，正是这个‘不止’才是我们应该加以显示和描述的”[4]62。但大语言模型ChatGPT和Sora模拟器并不像人类学习客观知识那样，把一类事物用概念命名，并用“质的描述、自传叙事、测定、解释和符号聚合、类比推理、演绎、统计估计、试验证明”[4]62等多种陈述形式界定，去填补这个“不止”，譬如用水果这一概念命名“可以吃的含水分较多的植物果实的统称，如梨、桃、苹果等”[5]1066，这种词与物，概念与事物之间的一一对应关系，并内蕴某种共同本质的特性或差异性，不仅使物与物之间相区别，也使概念有了自己的体系，进一步对未知事物作出相应的判断和推理。法国学者福柯在《知识考古学》中认为，概念的形成，在话语的层面不是对概念自身的直接描述，而是根据不同的陈述模式对话语的要素进行重新分解和组合，获取外延或规定性，进而获得新的语义内涵。[4]75因此，各种概念的并置、共存和相互之间的转换“要在各种因素、各种关系的相互作用中把握”[6]49，并在话语层面把握概念分布的规律。

　　细察人工智能Sora文生视频的整个过程，它深度学习了人类迄今为止的几乎所有文本，几近整体性获取了人类话语这一“符号世界”的认知，但它不像人类一样，没有感知器官，不具备“具身认知”，其认知路径与人类按照词与物相对应，形成相应的概念判断推理不同，它绕过语言符号之域，直接从数据中进行经验性的试错学习，对“语言世界”进行符号性捕捉，因而大语言模型并不真正“理解”语义学层面上的语言，只是计算了字词的统计概率，然后生成语法正确质量上乘的文本。但大语言模型ChatGPT和世界模拟器Sora虽然无法“看见”它所指向的文本内容，生成的视频，但完全不影响它通过多次训练有效地“画出”“世界”的模样，这“模样”与真实世界无关，而是ChatGPT或Sora以人类建构的文字、图片等符号性秩序为据，重新生成符号性的文本和视频，只能是对世界带有“幻觉”的模拟。[7]如此这般，那么在大语言模型或短视频生成的背后，其话语是否具有意识形态性呢?答案是肯定的。Sora精准定制化的视觉“飨宴”——文生视频，即便是无配音的默片，也能通过语境、场景、动作等因素，表达蕴含的政治法律思想、道德、宗教、哲学等观念，更无须说后期再配上文字字幕或配音，其真假难辨，足以以假乱真，堪称当今最时髦的“后真相”。学者们对“后真相”的理解可以归纳为人们在进行选择判断时，情感信念超过客观事实，客观事实在进行选择时反而次要化。故“后真相”特指“无限制的主观性”即“坏的主观性”。其核心就是相对于事实真相，情感、信念更能左右舆论的发展，也就是说情感、信念是人们进行判断的首要依据，而不是客观事实，客观事实被次要化。如此这类由人工智能依凭结构和参数的算法驱动、大数据预训练所生成的知识，因为它不以客观性与确定性作为内在尺度，“任何大数据算法，皆只能输出概率性的而非确定性的结果”[8]，这使得它的输出结果也具有“后真相”的特性，从而使这类虽不自我标榜为客观知识却仍具有科学质感，结构性地内嵌人类认知由文字生成的视频，除了对自然科学、逻辑学等非意识形态的自然现象的模拟生成的短视频外，对社会关系、社会活动、政治活动、宗教活动、文学艺术的模拟再创造生成的视频，其中的错误与意识形态偏见也是显而易见的，尤其在人文社会领域，它虽满足了用户的视觉消费需要，但也存在诱发价值导向偏执、诱导大众意见、解构主流话语、危害主体精神的风险。

　　第一，人工智能ChatGPT和Sora生成文本和短视频的基础数据已非价值中立，而是显示出特定价值观念。文本和短视频的生成高度依赖真实的数据集，在今天的大数据材料中，Sora用于训练的数据集与语料库多来自西方互联网，以英文资源为主，美英等英语国家主导的西方文明所倡导的价值观念与中国社会的主流价值存在显著差异，由此，充斥着西方价值体系和话语体系的训练数据进入Sora的叙事机制，在此技术基础生成的视频文本，自然带有西方的意识形态偏见，并在潜移默化中影响用户价值观的形成与发展，视频生成过程的黑箱化使有关部门的监管与审查困难重重。如果我们以百度的“文心一言”为数据基础生成文字和视频，显然与ChatGPT和Sora生成的文本和短视频会有较大的不同，面对同一个“提示”，甚至会生成相互冲突的文本和视频，这是因为，长久以来英语世界大部分用户对中国一直存在着成见和偏见，“东亚病夫”“中国威胁”等在他们的大语言模型库中，频率居高不下(这同样提示我们国际舞台上如何讲好中国故事)。此外，在实践运用场景中，语言模型并不能辨别良莠，其数据库中人类的语言暴力，内蕴的刻板印象与歧视偏见，也一并被大语言模型吸收，衍生和扩散虚假“真相”，导致生成和输出有毒有害文本和视频的可能，也使得性别歧视、民族歧视、种族歧视等诸如此类错误观念的表现形式更为隐蔽，进而影响用户对现实世界的客观认知，并对冲倡导“天朗气清、公平和谐”的主流意识形态的号召力，激化不同群体间的矛盾。

　　第二，通过训练师介入，嵌入意识形态观念。上面第一部分对大语言模型ChatGPT和Sora短视频“真相”的揭示可知，世界模拟器在深度学习生成文本和视频的过程中，大模型从海量数据中提取需要的信息并进行预训练后，还必须有训练师介入，开展监督微调、奖励建模，并进一步强化学习，这3个阶段的训练都是由人类按照自己的需要进行，在训练中不可避免会受传统价值观念影响，也可能会受制于资本逐利之需、特定的政治需求……所有这些，“都是旨在通过人类提供反馈的介入性方式，使模型输出的最终内容能和人类价值对齐”[8]，毫无疑问，在生成文本和短视频的预训练阶段，人类对大语言模型ChatGPT和Sora似乎只能干瞪眼，毫无办法，但在后3个阶段的训练过程中，一定程度上内嵌了人类的价值观。那么，嵌入了何种价值观?什么样的意识形态?美国人工智能国安会在2021年的“最终报告”中曾这样表示：“美国价值必须引领我们开发和应用人工智能系统的方式，以及我们的人工智能系统在世界上的行为方式。”[9]安委会的时任执行主任伊尔·巴拉塔蒂 (Yll Bajraktari)也强调，美国要本着我们的价值支持并投资人工智能，它将改变我们的国家，并确保美国及其盟友继续以造福全人类为目标塑造世界。[9]此处的价值观嵌入昭然若揭，虽然其依然标榜是为了“造福全人类”，但固守美国利益，使“美国价值”及其意识形态负载于人工智能的技术之上，显然是他们开发应用大语言模型和世界模拟器Sora准绳。在这样的文化和价值观的主导下，算法研发人员又服从其雇主，即OpenAI管理层的影响与决策(OpenAI公司早期虽然是非营利公司，但在现阶段却是由微软控股的股份公司)，这些都决定了在Sora的设计过程中占主导的必然是处优势地位的资本霸权与资产阶级的利益偏向。所以，Sora作为技术人工物，在一定意义上亦是价值凝聚物，在设计阶段就被不同利益取向和价值观点所影响。

　　第三，在训练过程中，按照美西方的价值观念塑造形象。“视觉机器利用图像的数字化生成理性的幻觉，大大加强了其识别能力、权力，还有说服的威力”[10]145，当前最先进的视频生成模型皆由美国的公司机构所研发，掌握先进技术的西方国家可轻易借助Sora这种视觉机器发动政治攻势，在对大模型进行针对性训练后，利用模型生成的规模化、集成化优势针对我国进行虚假信息生发的“精准打击”。在今年1月10日的服务条款中，OpenAI公司甚至删除了将此工具禁止用于军事用途的条款。因大语言模型ChatGPT和Sora模拟器实质上是“在符号、想象(影像)与物理三重面向上，对‘世界’做出了一个有效的有损压缩，并进而能够根据‘提示’(文字、图片或视频)重新渲染进行输出”[7]。在训练师训练过程中，经常使用“噪声补丁包”“干净补丁包”等各类“补丁包”(patches)对图像与视频进行操作，如果画面人物头像中双眼未在同一水平线，就进行对齐补丁操作，如果“提示”语中有夕阳下人们的漫步，就在背景中补丁上“夕阳”，如此，Sora模拟器就在使用“时空补丁包”(spacetime patches)中构建世界模型，并统一不同类型的视频和图像。实际上这样的训练，让训练师也能够按照西方人的想象“模拟”世界，一如美国好莱坞大片一贯把“中国人”刻画和演绎成扰乱社会秩序的帮派成员、无良奸诈的敛财商人和需要拯救的异国低能平民形象一样，宣扬白人种族优越论、“中国威胁论”和资本主义制度优越性。[3]229-235训练师在调整参数，进行时间上、空间上补丁过程中，极端而言，难保不会把中国人模拟成遭受人类敌视却受人类意志控制、身高3米的“阿凡达”等怪物形象，从而达到整体丑化中国人形象的目的。同时，随着生成式人工智能技术的发展，通过人工智能换脸换声来模拟出另一个人的真实外观已不再困难。这一被称为深度伪造(Deep Fake)的技术借助神经网络进行大样本学习，以机器学习模型将个人的声音、面部表情及身体动作拼接合成为虚假内容。Sora若与深度伪造技术相嵌，将会令生成的虚假视频更加栩栩如生、真假难辨，虚假视频的传播幅度也会更为广泛。日前深度伪造技术已经从娱乐行业蔓延至金融与政治领域，利用深度伪造技术冒充商界人士进行金融诈骗已有先例，而2022年曾广为流传的俄乌两国领导人深度伪造视频及美国总统竞选时出现的候选人深度伪造喊话视频等案例，为其安全风险向政治领域的蔓延敲响了警钟。近年来我国网络场域“历史虚无主义”“民族虚无主义”泛滥的背后，深挖之，也隐藏着西方国家的图像文化操纵，Sora强大的视频生成能力对于敌对势力可谓“如虎添翼”，将使西方视觉暴力的政治表达更具机构性和组织性。Sora强大的文生视频功能也可大大强化深度伪造视频的真实性与针对性，若再配合如Eleven Labs的人工智能语音生成模型，其欺骗性更会进一步加强。视频曾被大众普遍视为最真实可信的记录媒介，而Sora生成的虚假视频将彻底重构人们对视频真实性的信赖。可以想见，当如Sora此类的人工智能视频生成模型若被不法分子恶意利用，会成为传播虚假新闻、甚至冒充政要人物炮制政治谣言的利器，譬如，居心不良者也可能利用Sora文生视频生成过程中，通过一次、二次、三次的参数调整，并不是为了还原历史真相，而是以“艺术创新”为幌子，按照某种政治需求或价值需求(在迄今的文字和图片中，这类现象并不少见)，通过漫画化等手法丑化乃至否定革命英雄象征符号和中国共产党主体符号(如北大红楼、上海石库门、南湖红船等建筑符号)，甚至伪造视频和文字，把中国共产党的成立乃至中国革命的胜利，视为“是偶然性因素、阴谋活动、玩弄权术的结果”[11]210，生成所谓的“客观”视频，虚无党的历史，达到想象中的“拟真”，从而助推历史虚无主义等社会思潮。而网络空间虚假信息的泛滥将动摇网民对主流媒体与官方发布权威信息的信任，冲击我国官方话语并动摇政治权威，对国家政治稳定与意识形态安全形成严重危害。

　　三、ChatGPT和Sora：文本和视频的意识形态话语治理路径

　　上述两部分的分析表明，ChatGPT和Sora生成的文本和短视频一类的“真实存在”，此“真相”远非彼“真相”(客观真实世界)，反倒是“后真相”。人工智能时代，各方利益权力的争夺，媒体平台之间的竞争，网络民粹主义、犬儒主义与后现代主义等社会思潮涌动，浮躁焦虑情绪无限放大，使社会价值共识的凝聚作用和向心作用不断削弱，加速了“后真相”的生成。在“后真相”影响下的意识形态话语呈现较大的安全风险，表现在以下几个方面。一是“真相”与“后真相”的博弈，削弱意识形态的引领力，如网络圈层稀释权威信任，造成认知偏见，真假新闻反转真相，降解价值引领，新兴媒介引导舆论，制造虚假事实，资本逻辑篡改媒体信息，披上“政治”外衣。二是多元社会思潮弥漫，解构社会价值共识，诸如消费主义的叙事逻辑制造虚假事实，消解主体理性;网络民粹主义的情感逻辑造成社会矛盾，解构价值共识;后现代主义的思维逻辑颠倒客观真理，动摇理想信念;犬儒主义的表达逻辑滋生网络谣言，混乱价值认知。三是非理性的逻辑倾向，消解意识形态话语认同感，如情感主导淡化客观真相，造成“权威”信任危机，理性认知让位于情感表达，消解主流价值认同，“沉默的螺旋”导致群体极化，加剧社会群体分裂，情感信念次生政治舆论，质疑主流价值取向。四是网络舆论的话语方式，冲击意识形态话语权，如网络空间的戏谑式话语质疑了主流话语的合理性，话语表达形式的狂欢化破坏话语认知的真相基础，碎片化的话语解读冲击意识形态话语权威性，生活方式的犬儒化漠视主流意识形态。上述例举的人工智能时代“后真相”的诸种面相，所有这些都将成为大语言模型ChatGPT或Sora模拟器生成的文本和视频语料库的“猛料”，由此生成为“作品”，在社会层面，极易产生和传播极端主义思想或暴力倾向，对观众产生负面影响，甚至导致暴力行为;在社会思潮流行层面，ChatGPT或Sora生成的文本和视频使利益诉求与价值取向和社会心态的表达更加智能化便捷化，各种不良思想倾向、错误价值观念借助智能技术翻涌弄潮，其渗透力、覆盖面和影响力大大增强，引发了深层次的焦虑和不安，冲淡主流意识形态话语的引领力和凝聚力;在心理层面，视频内容也可能包含歧视性或仇恨性言论，对特定群体造成伤害，引发社会不稳定。但此类的意识形态话语却依仗技术这一客观公正的外衣，使人们难以识别其伪科学性，造成的负面影响力度更强范围更广。对此，我们应该有清醒的认识，通过维护“智能”主权、注重高质传播、聚焦主体发展、加强技术的伦理安全等维度综合施策以去技术之弊，让Sora能真正成为护航主体自由而全面发展的得力工具，使主流意识形态在由人工智能技术中介的视觉时代得以重焕新机。

　　第一，深耕中文语料库，维护“智能”话语主权。大语言模型ChatGPT或Sora模拟器生成文本和短视频的过程中，不管怎么调整模型的架构、功能、参数，其实作用是有限的，真正决定大模型能力的因素是训练模型的语料。因而，从主流意识形态话语引领力和凝聚力上，首先着眼中文语料库上深耕和“主权人工智能”模型的技术研发，推进话语建设与话语创新，才能化解话语权旁落风险。Sora技术在最初的设计阶段就内嵌着软件开发者与数据贡献者的价值观念与利益偏向，其在国内网络场域的普遍应用存在意识形态渗透的隐秘风险。目前以Sora为代表的视频生成模型为美国科技公司开发，在关键的机器学习阶段其训练所使用的数据库与语料库以英语资源为主，反映了以英语为中心的价值观念，技术无形中成为了“西方文明优越论”的物质载体。为应对由西方文明的“技术表达”所带来的意识形态风险，一方面我国必须加强中文语料库的更新建设与中华优秀传统文化的数字创新，以数字强国巩固文化自信。要充分挖掘好、利用好博大精深的中华优秀传统文化宝藏，从诗词歌赋、国画书法、文学典籍、民风民俗等传统文化中提取精练出文化符号与思想内涵，并配合Sora等视频生成模型与主基调、主旋律相结合进行高质高效的内容生产，增强观众的文化自信与民族自豪感。用中华文明的鲜活文化符号唤醒大众承载真实信仰与价值功能的文化记忆，重塑其理性思维能力与崇高价值追求，助力高质量可视化的主流意识形态“入眼、入脑、入心”。另一方面也要加速推进“主权人工智能”视频生成模型的技术研发。主权人工智能指“国家支持人工智能基础设施建设，用符合本国文化和思维方式等的数据训练大模型，支持本地产品形成生态系统等”[12]，唯有以反映中国历史底蕴与文化背景的数据资源为“养料”喂养人工智能模型，方能确保生成式大模型的输出结果能与我国的文化背景与主流价值相契合。

　　第二，加强技术规制与技术优化，反制算法黑箱。大语言模型生产的文本和视频中，由于“算法黑箱”的存在，就算输入同样的指令与要求，Sora所生成的视频也不会完全相同，其深度学习模型的视频生成过程对于人来说仍然是难以理解的“黑箱”，视觉模拟的可解释性欠缺易引发人们对其决策的不信任，也致使审查机构对譬如虚假信息、色情图像、反动宣传等不端生成结果的识别与纠正更为艰难。针对这种情况，一方面，必须重视技术层面的反制，探索利用区块链、大数据等新技术手段，对短视频内容进行溯源和追踪，确保内容的真实性和可信度;另一方面，改进和优化智能算法的设计，加强算法推荐的技术规制，在生成阶段探索建立一定的检测与过滤机制，对暗含偏见的标记数据进行识别与纠正，并通过对抗训练提高模型识别有害信息与意识形态风险的准确率，避免算法推荐助推“信息茧房”，甚至“情绪茧房”的形成，减少网民接触不良、不实内容的机会。再者，增强算法的强制推送功能，注重高质传播。在Sora的中介下，没有本体论意义的代码和符号完成了对真实世界的“取消”，如同德波曾预言的“符号胜于所指;摹本胜于原本;幻想胜于现实”[13]28，Sora生成的视频景观不是对自然世界的模仿，亦非对人造物品的复制，而是通过“0”和“1”二进制计算机符码形成的模式化拟真，就算再逼真的生成视频也只是用虚幻的景观遮蔽了真实的世界，与本真生活相去甚远。在人们对图像叙事已习以为常的“视觉化认知”时代，我国亦可“借子之矛攻之”，善用以Sora为代表的视频生成模型，在正确掌握技术原理的基础上，推动主流意识形态话语的高质量视觉化传播。利用大数据算法精确分析用户网络行为数据，在分析不同阶层、不同群体的行为特征与受众心理后建立差异化、分众化的主流意识形态推送系统，增强用户黏性。注重主流话语的宏大叙事与感性通俗的表达形式相结合，将符合社会主义先进文化与主流价值取向的文化符号、价值追求融入视觉化表达与传播，利用视觉系统的直接感知性特征达到“以情动人、以文化人、以理服人”的效果。

　　第三，推进网络监管和法治建设，完善制度规范，遏制意识形态话语风险。一是制定和完善网络信息传播的法律和规章制度，明确短视频平台的责任和义务，规范短视频内容的生产和传播，确保平台上的内容不会对社会产生负面影响。二是网信部门应加强对短视频平台的监管和执法力度，与相关平台配合做好对人工智能视频模型生成内容的分类，即“将缺乏人的主体性发挥的重复性的‘机产知识’与人精心生产的知识进行区分。在具体分类过程中，通过算法识别与区分，减少重复、无意义知识的推送。”[14]并在视频生成软件的应用过程中充分发挥“技术民主”，用户得以使用“点赞”“反对”“举报”等功能优化内容排序和流量分配，让优质内容得以脱颖而出，简单重复、同质化严重的无意义内容“石沉大海”，倒逼视频软件的内容生产者进行优质内容的生产，减少无意义、碎片化内容对用户精神的污染与注意力的掠夺。同时，利用视觉识别技术，对海量的短视频信息进行逐条把关，挖掘反主流意识形态的图像特征与模式，一旦发现可疑内容，便自动“捕捉”、下架，确保视频内容不违反法律法规，不传播极端主义、暴力倾向或歧视仇恨言论。三是健全新媒体意识形态安全危机防范及保障机制。建立一套短视频价值观层面的评价指标和评价体系，作为推荐信息的重要考量，并赋予其较大权重，探索建立“算法评估与技术备案相结合的安全条例，将技术研发方对Sora的算法设置纳入有关部门的监管流程”[15]。

　　第四，确立人的理性主体，推进人机和谐。以Sora为代表的人工智能视频生成模型在可见的未来会迎来爆发性增长，在当下的“视觉化认知”时代，与Sora等人工智能技术共处已是定局。在看到Sora等人工智能技术对“视频化社会”持续推进的同时，也必须警惕其“数量压倒质量、感性胜过理性”的视觉暴力对用户思维深度与认知能力的侵害。Sora作为服务于人的技术工具，理应为主体的“自由而全面发展”助力。图像、视频媒介虽然有着生动形象、感染力强的优点，然而“感性的直观”仍须上升至“理性的抽象”才能达致对思想的内涵与意义的深度把握，因此作为知识生产的主体，人不该仅仅沉醉于图像带来的快感，而应将新兴视觉机器与传统的语言文字媒介相结合，在Sora文生视频中加入相关教育内容，避免信息渠道的单一化所造成的“茧房效应”。用户在与视觉机器共处时须注意培养思辨能力、巩固主体地位，学会立足于总体，辩证性吸收各种“碎片化”知识，加强对智能媒介的正确认知与自身的批判性思考能力，提升对复杂信息的识别判断能力及选择能力，对新媒体意识形态安全危机意识。

　　“身体是我们拥有一个世界的一般方式”[16]194，Sora“去身体化”的图像景观固然迎合了人们寻求数字世界感性刺激的趋向，但也使主体丧失了通过身体与他人的现实交流才能带来的真实经验与情感关系。作为技术人工物，Sora本质上是人类智能的产物，应符合人本主义价值要求，不应以人机关系遮蔽人际关系，以机器判断替代价值选择。有关部门须加强对人机协作的教育与培训，通过构建“具身化”的使用环境，引导人们在亲身体验和主动交往中激发内在潜能与情感共鸣，重拾对主体性的正确感知，在维护好主体地位与尊严的基础上实现“主客颠倒”的反正。唯有在人机和谐共处、主客协同并进的基础上才能更好地引导主体正确认知“图像暴力”中潜藏的错误思潮与不当观念，唤醒用户的主动精神，在树立“主人翁意识”的基础上自觉抵制不良思潮的侵蚀，维护意识形态安全。

　　第五，以技术伦理安全防范意识形态风险，护航人工智能视觉机器健康发展。“由于有了众多的数据库，图像系统不久将促成一种最新说理方式的成长。”[10]146面对西方挟视觉机器发动的意识形态输出与政治攻势，我国决不能故步自封，而应“以术驭术”，加快对以大数据算法为核心的生成式人工智能的研发进程，推动完善图像大数据库并建立视觉风险检测与预警机制，利用大数据算法的精准定位特性，精确锁定隐于Sora生成视频中的反动信息并及时预警，有效甄别并过滤对主流意识形态的恶意污蔑与政治攻击，并及时溯源进行处理，维护网络秩序的气正风清。此外，视频生成内容的创作者与视频生成模型的提供者须严格履行生成内容的标识义务，若生成内容存在安全隐患与政治风险，则有义务在显著位置进行标注，防范深度伪造内容与虚假信息的泛滥。若视频生成模型的提供者未尽到充分的审核责任，也需要承担相应法律后果，通过对生成“作品”的视听结合检测、人脸伪造检测、眨眼机制检测、光流变化、视觉伪影等多种技术检测手段，加强对虚假视频内容的识别成功率。

　　若想使Sora类智能视觉机器健康、可持续地发展，建立与技术发展动态适应的伦理与法制规范是当务之急。须坚持“价值理性”与“技术理性”的辩证统一，协调利益相关的各方人士与机构，推动技术人员、跨学科专家、政府机关、平台公司、社会群体共同参与技术治理，建立多方共治的协作网络，使商业利益与公共利益得以协同并进，坚持让视觉机器服务人而非支配人，统筹协调好智能技术的高质量发展与意识形态的高水平安全，做到重大意识形态风险的防范于未然。最后，必须认识到加强对公众进行技术培训与媒介素养教育的重要性，通过科技伦理教育使公众对Sora等人工智能视频生成模型的底层逻辑、技术特点、安全风险具备正确认知，并提升公众分辨识别虚假内容、歧视偏见与意识形态风险的能力，使公众能正确恰当地使用Sora等视觉机器服务自身发展与美好生活需求，辩证看待生成视觉内容而不至为潜藏其中的不当价值观念与意识形态陷阱俘获，在人机正向互动中守护主流价值、走向技术“升级”。

　　总之，针对大语言模型ChatGPT和Sora模拟器生成的意识形态话语风险，需要平台、用户和监管部门共同努力和配合，通过重塑主流话语，维护“智能”主权;加强技术研发，优化算法设计;建立健全法律法规，加强内容审核和监管;聚焦主体发展，提高用户媒介素养;加强技术伦理安全审查等维度综合施策以去技术之弊甚或建设一支政治素质高、深谙智能技术的人工审核团队，对机器无法判断和有疑问的内容采取二次把关取舍，让Sora能真正成为护航主体自由而全面发展的得力工具，使主流意识形态在由人工智能技术中介的视觉时代得以重焕新机。

　　(《思想政治研究》2024年第8期，作者系安徽大学马克思主义学院院长、教授，安徽省马克思主义学会副会长)

　　参考文献

　　[1] 冯志伟.从ChatGPT到Sora发展中的术语问题[J].中国科技术语，2024，(1).

　　[2] 马克思主义基本原理[M].北京：高等教育出版社，2023.

　　[3] 吴学琴，等.当代中国价值观念对外传播话语体系的建构[M].北京：中国社会科学出版社，2023.

　　[4] [法]米歇尔·福柯(Michel Foucault).知识考古学[M].谢强，马月，译.北京：生活·读书·新知三联书店，1998.

　　[5] 中国社会科学院语言研究所词典编辑室编.现代汉语词典[M].北京：商务印书馆，1981.

　　[6] 毕芙蓉.符号与政治：后马克思思潮研究[M].北京：中国社会科学出版社，2016.

　　[7] 吴冠军.世界的元宇宙化：Sora的技术哲学探究[J].文化艺术研究，2024，(1).

　　[8] 吴冠军.大语言模型的技术政治学评析[J].中国社会科学评价，2023，(4).

　　[9] Final Report:National Security Commission on Artificial Intelligence[EB/OL].http//www.nscai.gov/wp-content/uploads/2021/03/Full-Report-Digital-1，2023-09-20.

　　[10] [法]保罗·维利里奥.视觉机器[M].南京：南京大学出版社，2014.

　　[11] 中国社会科学院历史虚无主义批判文选[M].北京：中国社会科学出版社，2015.

　　[12] 黄堃.多国看重“主权人工智能”竞相研发本地语言产品[N].新华每日电讯，2024-02-07.

　　[13] [法]居伊·德波.景观社会评论[M].梁虹，译.桂林:广西师范大学出版社，2007.

　　[14] 孙伟平，刘航宇.生成式人工智能与知识生产方式的革命——从Sora的冲击波谈起[J].思想理论教育，2024，(5).

　　[15] 冯雨奂.AIGC时代教育的视频化转向及其风险应对——由文生视频模型Sora引发的思考[J].思想理论教育，2024，(5).

　　[16] [法]梅洛·庞蒂.知觉现象学[M].蒋志辉，译.北京：商务印书馆，2001.

【打印本页】【关闭窗口】