书书小说网

手机浏览器扫描二维码访问

第307章 模型崩溃4506(第3页)

杨子龙和杜长庚所发现的问题,粗看上去确实有点诡异,相同的数据,被AI处理过一遍,再用来训练另一个AI,效果居然比不上质量更差的人工清洗的数据。

而再用这个训练后的AI生成的数据继续训练AI,无论是训练哪个AI,又会造成性能进一步下降。

这个问题看上去诡异,但实际上,只要稍稍思考一下也就能明白,应该还是数据多样性和复杂性不断被AI简化所造成的问题。

不用说橘子大模型,即使是柚子,生成的数据也不可能是百分之百完全正确的,虽然这些错误可能比人工数据要少,但错误的方式却缺乏多样性和复杂性。

说白了,就是AI聪明的千篇一律,但人类却愚蠢的千奇百怪。

但在种族传承的角度上来说,愚蠢的千奇百怪的人类,却比自己创造出比人类更聪明的AI具备更强的种族传承能力。

窝草?这么一想,孟广康那种傻x,对人类文明的传承贡献还不小?

差点把我的厌蠢症都治好了?

重复使用这种数据进行训练,类似的错误会被大模型认为是真实,从而变成“思想钢印”

,继续产出错误更多的内容。

再用这些内容进行训练,就会产生“偏差-方差权衡”

,也就是说,越大概率的内容被进一步强化,小概率的内容被不断忽视。

越是下一代模型,损失的数据反而会越多。

同时,因为大模型的特性,又会产生“函数近似误差”

,大模型会把学的错误的东西也保留下来,一代代的积累,最终变成全部都是错误,从而丧失纠错能力。

这种情况,确实和近亲繁殖所导致的近交衰退非常类似。

从这个角度上看,AI大模型其实已经具备了一定的生物性。

只不过这种生物种群过于单一,造成了近亲繁殖。

这个问题目前还不算太紧迫,毕竟互联网上可以使用的原始数据非常多,无非就是加大数据组的投入,获取更多的原始数据,增加数据预处理人手和方式就能够解决。

但从长远来看,不,不用太长远,AI的爆发一定是指数级的。

可能两到三年后,互联网上可能超过百分之七十的数据就都是AI所生成的,而人类几乎无法区分这究竟是AI生成的数据还是真实的人工数据。

那时候,AI大模型不管参数有多庞大,可能都会面临由于训练数据被AI生成数据污染,而造成性能下降或崩溃。

“三十万亿。”

方豫快速的估算出了一个数字。

???

几个组长都是一脸问号。

“互联网上现存的有效数据,大概能支撑橘子大模型到三十万亿参数的规模,在此之后,就必然会受到近亲繁殖的影响。”

方豫指了指显示器上的数据。

三十万亿,还好还好,现在目前正在训练的橘子大模型不过一万五千亿参数,已经开始初步具备强人工智能的雏形。

三十万亿的大模型,肯定已经实现超级人工智能,那时候,AI生成数据多样性的问题应该已经能找出解决方案了。

那就没什么问题了。

几个组长都松了一口气。

没什么问题了吗?

方豫目光闪动。

就算是橘子大模型实现超级人工智能,只要多样性问题不解决,一样也会有这个问题。

即使使用各种技术手段尽量提升AI数据的复杂性,最后不会造成模型崩溃,这个大模型也注定无法承载自己的愿景。

热门小说推荐
龙王传说

龙王传说

心潮澎湃,无限幻想,迎风挥击千层浪,少年不败热血!...

财运天降

财运天降

陆原语录作为一个超级富二代装穷是一种什么体验?别拦着我,没有人比我更有资格回答这个问题!...

剑道第一仙

剑道第一仙

我是万古人间一剑修,诸天之上第一仙。...

最强狂兵

最强狂兵

王猛,特种兵,代号暴王。此人凶残暴虐,狂猛无敌,乃兵之大凶!凶兵突然回归都市,策马江湖,再搅风云大佬们顿足捶胸放虎归山,控制不住了群号450242488狂兵部落...

总裁老公超给力

总裁老公超给力

因为,她是真的很想念他,很想,很想,那股想要他的感觉,也越来越强烈。他们本来是夫妻,在这种事情上根本就没有必要压制。而且,此刻她也只是手受伤了而已...

闪婚厚爱:误嫁天价老公

闪婚厚爱:误嫁天价老公

简然以为自己嫁了一个普通男人,谁料这个男人摇身一变,成了她公司的总裁大人。不仅如此,他还是亚洲首富帝国集团最神秘的继承者。人前,他是杀伐果断冷血无情的商业帝国掌舵者。人后,他是一头披着羊皮的狼,把她啃得连骨头也不剩。...