[读懂科学]AI已经无课可学了？

by Kim Jonghwa

Published 17 Jan.2026 08:00(KST)

数据枯竭与模型崩塌暴露出的人工智能结构性局限

人工智能（AI）曾经总给人一种会不断变得更聪明的感觉。每年都有新模型问世，回答变得更加自然，迅速追赶人类的领域。我们不知不觉间，已经把AI的发展视作理所当然的前提。

然而，最近在AI产业界和研究一线，开始出现有些不同的问题：如果人工智能再也没有什么可学的了，那么接下来会怎样？AI的发展真的可以无止境地持续下去吗？

这个问题的出发点是“训练数据”。人工智能并不会自己去体验世界，而是通过人类留下的记录——文本、图像、视频和音频数据——来学习世界。AI的智能并非仅靠算力堆砌，而是高度取决于它学习了多少、以及多大程度上是多样而高质量的数据。但现在，关于这类学习“原材料”正逐步逼近极限的警告接连不断。

名为互联网的“金矿”见底：2026年的警告

迄今为止，大规模语言模型（LLM）一直依托互联网上公开的大量数据成长。网页文档、新闻报道、书籍和论文，都是AI的教科书。然而，公开可获取的高质量数据，已经在很大程度上被收集殆尽。

全球AI研究机构Epoch近期在一份报告中警告称，人类生成的高质量文本数据资产，最快将在2026年至2030年之间被完全开采一空。剩余的数据很多要么因版权问题而被严格限制访问，要么是需要支付高额费用的付费数据。

因此，AI企业已几乎不可能再像过去那样通过“未经授权的大规模抓取”来进行训练。数据获取不再只是技术竞争，而是演变为需要巨额资本和法律攻防的领域。实际上，《纽约时报》（New York Times）等主要媒体及作家针对OpenAI等公司提起的版权诉讼，正象征性地展现了AI行业面临的“数据壁垒”。

高丽大学知识产权战略学系教授 Lee Sungyeop 表示：“大规模语言模型在事实上已经把网络上的公开数据大多扫过一遍了”，“单纯依靠增加数据量（Quantity）的方式，如今只会混入重复或再加工的低质量文本，对提升智能的边际效用正急剧下降。”

他接着指出：“现在需要的已不再是简单的语料库，而是对高难度逻辑结构和人类价值判断进行精细标注的数据，但生产和验证这类数据的成本正在呈指数级飙升。”

合成数据的悖论：“模型崩塌”这道无形之墙

作为数据匮乏的替代方案，业界关注的焦点之一是“合成数据（Synthetic Data）”。也就是用AI生成的文本和图像来反过来训练下一代AI。如果人类记录不足，那就由AI自己生成数据、自我进化——这是这种思路的出发点。但这种方式最近暴露出名为“模型崩塌（Model Collapse）”的致命结构性缺陷。

英国牛津大学、剑桥大学和加拿大多伦多大学的联合研究团队在国际学术期刊《自然》（Nature）发表论文指出，反复学习AI生成数据的模型，仅仅经过几代迭代，就会遗忘原本的数据分布，开始语无伦次，出现“智能退行”的过程。研究团队据此分析了这样一种机制：AI将概率上罕见的案例（Outliers）视为单纯误差而删除，导致信息多样性急剧消失。

这就好比不断复印照片、再复印复印件，总有一刻会模糊到看不清原貌——这种“劣化现象”在智能领域重演。结果是，只依赖合成数据的AI，最终会被困在只会反复再生产偏颇信息的“回音室（Echo Chamber）”之中。

科技巨头的战略修正：Ilya Sutskever 与 Yann LeCun 的视角

这种危机感在AI大师们的发言中也体现得十分清晰。OpenAI联合创始人、前首席科学家 Ilya Sutskever 最近在一次主题演讲中指出：“我们几乎已经把名为互联网的金矿挖得差不多了，仅靠简单的规模扩展（Scaling Law），很难再迈向下一阶段的智能。”这实际上宣告，AI竞争的胜负手已经从GPU数量转向“他人所不具备的独家数据”。

Meta的AI首席科学家 Yann LeCun 也一直在指出以文本为主的学习方式存在根本性局限。他在著作和学术演讲中强调：“人类的婴儿并不是通过阅读数万亿个单词获得智能，而是通过与物理世界的实时交互来学习。”也就是说，单靠文本数据的当前学习方式，最终只会陷入与现实世界脱节的“幻觉循环”。他主张，需要从文本迈向视频和感官数据，构建能够自行理解物理法则的“世界模型（World Model）”架构。

重新重要起来的“人类记录”和那些问题

归根结底，AI学习进入停滞期，与其说是技术灾难，不如说意味着“增长范式”正在发生转变。如果说到目前为止是AI通过大规模吸收人类记录来壮大体量的阶段，那么今后，决定AI生存的关键资产将不再是数据的“量”，而是“质”，以及生成这些数据的人类富有创造性的记录。

实验室中精密的观测数据、一线现场生动的观察记录，以及只有人类才能做出的复杂道德与哲学判断，都是AI无法自行合成的领域。因此，谷歌、微软等大型科技企业如今已不再满足于简单的数据收集，而是投入天文数字的资金，雇用专家群体，亲自为AI制作用来教学的“高质量试题”。

必读新闻

垃圾桶中发现投票箱……因“选票短缺风波”举行决选投票的秘鲁

AI的下一阶段不只存在于机器之中。答案依然在于人类所生活的物理世界，以及在其中产生的一手数据。当下这个看上去AI“无学可学”的时刻，其实并非技术的极限，而是一个反思的时间：重新追问人类应当珍视并留下怎样的记录。我们正从一个追问“AI能做什么”的时代，走向一个必须思考“我们要把怎样的世界留在数据之中”的时代。

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。