数据枯竭与模型崩塌暴露出的人工智能结构性局限

人工智能(AI)曾经总给人一种会不断变得更聪明的感觉。每年都有新模型问世,回答变得更加自然,迅速追赶人类的领域。我们不知不觉间,已经把AI的发展视作理所当然的前提。


然而,最近在AI产业界和研究一线,开始出现有些不同的问题:如果人工智能再也没有什么可学的了,那么接下来会怎样?AI的发展真的可以无止境地持续下去吗?

[读懂科学]AI已经无课可学了? View original image

这个问题的出发点是“训练数据”。人工智能并不会自己去体验世界,而是通过人类留下的记录——文本、图像、视频和音频数据——来学习世界。AI的智能并非仅靠算力堆砌,而是高度取决于它学习了多少、以及多大程度上是多样而高质量的数据。但现在,关于这类学习“原材料”正逐步逼近极限的警告接连不断。


名为互联网的“金矿”见底:2026年的警告

迄今为止,大规模语言模型(LLM)一直依托互联网上公开的大量数据成长。网页文档、新闻报道、书籍和论文,都是AI的教科书。然而,公开可获取的高质量数据,已经在很大程度上被收集殆尽。


全球AI研究机构Epoch近期在一份报告中警告称,人类生成的高质量文本数据资产,最快将在2026年至2030年之间被完全开采一空。剩余的数据很多要么因版权问题而被严格限制访问,要么是需要支付高额费用的付费数据。

[读懂科学]AI已经无课可学了? View original image

因此,AI企业已几乎不可能再像过去那样通过“未经授权的大规模抓取”来进行训练。数据获取不再只是技术竞争,而是演变为需要巨额资本和法律攻防的领域。实际上,《纽约时报》(New York Times)等主要媒体及作家针对OpenAI等公司提起的版权诉讼,正象征性地展现了AI行业面临的“数据壁垒”。


高丽大学知识产权战略学系教授 Lee Sungyeop 表示:“大规模语言模型在事实上已经把网络上的公开数据大多扫过一遍了”,“单纯依靠增加数据量(Quantity)的方式,如今只会混入重复或再加工的低质量文本,对提升智能的边际效用正急剧下降。”


他接着指出:“现在需要的已不再是简单的语料库,而是对高难度逻辑结构和人类价值判断进行精细标注的数据,但生产和验证这类数据的成本正在呈指数级飙升。”

[读懂科学]AI已经无课可学了? View original image

合成数据的悖论:“模型崩塌”这道无形之墙

作为数据匮乏的替代方案,业界关注的焦点之一是“合成数据(Synthetic Data)”。也就是用AI生成的文本和图像来反过来训练下一代AI。如果人类记录不足,那就由AI自己生成数据、自我进化——这是这种思路的出发点。但这种方式最近暴露出名为“模型崩塌(Model Collapse)”的致命结构性缺陷。


英国牛津大学、剑桥大学和加拿大多伦多大学的联合研究团队在国际学术期刊《自然》(Nature)发表论文指出,反复学习AI生成数据的模型,仅仅经过几代迭代,就会遗忘原本的数据分布,开始语无伦次,出现“智能退行”的过程。研究团队据此分析了这样一种机制:AI将概率上罕见的案例(Outliers)视为单纯误差而删除,导致信息多样性急剧消失。


这就好比不断复印照片、再复印复印件,总有一刻会模糊到看不清原貌——这种“劣化现象”在智能领域重演。结果是,只依赖合成数据的AI,最终会被困在只会反复再生产偏颇信息的“回音室(Echo Chamber)”之中。

[读懂科学]AI已经无课可学了? View original image

科技巨头的战略修正:Ilya Sutskever 与 Yann LeCun 的视角

这种危机感在AI大师们的发言中也体现得十分清晰。OpenAI联合创始人、前首席科学家 Ilya Sutskever 最近在一次主题演讲中指出:“我们几乎已经把名为互联网的金矿挖得差不多了,仅靠简单的规模扩展(Scaling Law),很难再迈向下一阶段的智能。”这实际上宣告,AI竞争的胜负手已经从GPU数量转向“他人所不具备的独家数据”。


Meta的AI首席科学家 Yann LeCun 也一直在指出以文本为主的学习方式存在根本性局限。他在著作和学术演讲中强调:“人类的婴儿并不是通过阅读数万亿个单词获得智能,而是通过与物理世界的实时交互来学习。”也就是说,单靠文本数据的当前学习方式,最终只会陷入与现实世界脱节的“幻觉循环”。他主张,需要从文本迈向视频和感官数据,构建能够自行理解物理法则的“世界模型(World Model)”架构。

[读懂科学]AI已经无课可学了? View original image

重新重要起来的“人类记录”和那些问题

归根结底,AI学习进入停滞期,与其说是技术灾难,不如说意味着“增长范式”正在发生转变。如果说到目前为止是AI通过大规模吸收人类记录来壮大体量的阶段,那么今后,决定AI生存的关键资产将不再是数据的“量”,而是“质”,以及生成这些数据的人类富有创造性的记录。


实验室中精密的观测数据、一线现场生动的观察记录,以及只有人类才能做出的复杂道德与哲学判断,都是AI无法自行合成的领域。因此,谷歌、微软等大型科技企业如今已不再满足于简单的数据收集,而是投入天文数字的资金,雇用专家群体,亲自为AI制作用来教学的“高质量试题”。



AI的下一阶段不只存在于机器之中。答案依然在于人类所生活的物理世界,以及在其中产生的一手数据。当下这个看上去AI“无学可学”的时刻,其实并非技术的极限,而是一个反思的时间:重新追问人类应当珍视并留下怎样的记录。我们正从一个追问“AI能做什么”的时代,走向一个必须思考“我们要把怎样的世界留在数据之中”的时代。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点