因为国内的AI快发展不下去了。
在视觉模型的阶段,中国AI确实跟上了美帝一段时间,甚至在很多技术点上有所超越。
这是因为AI是数据驱动型的发展模式。有数据就有一切。而中国的低隐私和多韭菜让中国的图片数据数量远超美国,比如人脸识别能力中国到现在还是领先。
但是在语言大模型和通用大模型阶段,中国重新落后,而且看不到追赶上的希望了。
还是因为AI是数据驱动型的发展模式。但是中文互联网上的有效信息数据量和英文有效数据量完全不在一个数量级上,前者连后者的零头都没有。
而且存在一个事实,AI如果使用AI吐出来的低质量数据去训练自己,不单不会提升能力,还会越来越傻。
而文字AI诞生后,各种人会迫不及待的将其用于生成内容,互联网上会开始迅速充斥AI生成的低质量内容。
这两方面结合就会导致文字AI的窗口期很短,在文字AI诞生后的短时间内,外界的数据因为混杂大量真假难辨的AI内容,而变得难以使用,使得文字AI的训练数据几乎被锁死。所以一旦追不上,可能就真的再也追不上了。
在纯文本阶段,借助于facebook开源的llama和存量数据,各种模型还能勉强使用,可以进行日常对话。而到了多模态阶段,一方面国外没有开源好的多模态模型,另一方面数据集也步入死循环,国内已经开始有躺平的征兆了。
现在国内大模型唯一的突破口,就是AI的编程能力,同时也可以作为对比国内国外AI模型质量的一个指标。
因为各种开源程序源代码是不分国内国外的,大家用的数据集基本都一样。
如果国内某个大模型连编程能力都不如国外,那么数据集不足的对话的能力上就更不要期待了。有时候你感觉那些AI对话没问题,可能只是因为你自己平时说话就没啥逻辑,所以可以和那些智障AI王八对绿豆而已。