微信邦

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 15|回复: 0

AI的胡说八道,为什么比人类骗子“更危险”?

[复制链接]
发表于 昨天 08:05 | 显示全部楼层 |阅读模式
随着今年的各类AI进展,有个话题越来越受关注,这就是,AI幻觉。也就是,由AI无意识制造出的包括谣言在内的一切,对真实世界产生误判的信息。这期间有人把AI当成真人,也有真人被当成AI。
任何人,都千万别觉得AI幻觉跟你没关系。它可能会以一种意想不到的方式波及你。毕竟,AI制造的幻觉多了,就会混淆人们的判断。
因此今天,我们就深入聊聊AI幻觉。我们主要说两方面,一是问题,二是方案。作者:达珍来源:《得到头条》
01
AI幻觉为什么值得特别重视?
按照咱们通常的想象,网上一直有假消息,而且各级有关部门,都会常年地按月、按周,甚至按天发布辟谣公告。这个防范力度相当大,咱们还有必要对AI造谣担惊受怕的吗?这里要话分两头。对于从事AI行业的人来说,AI生成的假消息就像毒药。你看,训练大语言模型需要语料,这个语料其实就是人们在网上留下的各类信息数据。它们就像大语言模型的食物,AI吃得越多就长得越壮实。但是注意,AI能吃的仅限于人类的数据,假如喂AI生成的数据,效果就跟吃毒蘑菇差不多。其中的技术细节咱们就不展开了。总之,做AI的人,自己其实是最怕AI谣言淹没互联网的。就像家长最害怕的不是有人抢劫,而是那个抢劫的和被抢的正好是自己家的亲哥俩。而对于多数不从事AI行业的普通人来说,AI谣言的可怕之处不在技术层面,而在于和真人骗子相比,AI在胡编乱造这个事上,产能极强,规模潜力极大,且绝对不会心虚。首先,关于AI瞎编的产能。前两天我在网上看到一个招聘写手的公告,每篇稿子2000字,全程使用AI写作,内容方向包括近代史、古代史。注意,重点来了,稿费,4元一篇。没错,是4元。我们假设,一个写手总归是不能赔钱干活的吧?他一天的收入总得能养活自己吧?这就意味着,假如这个4块钱的价格能招到人,而且这个人每天要维持最低生活,一天哪怕只挣个100块,那么他就需要接25篇这样的稿子。而25篇乘以每篇2000字,就是5万字。这还是最保守的估计,一个人随随便便就能用AI一天编写5万字。假如营销号为了博取流量,铺天盖地地制造这样的内容,那么人们担心的AI垃圾淹没互联网,没准就真在一步步向现实靠近。注意,这可不是说营销号都刻意造假,而是AI内容本身就可能会出错。根据《自然》杂志的报道,2024年,各类AI在提到参考文献时,出错率在30%—90%之间,而且错误不限于论文标题、第一作者、发表年份等。去年有媒体报道,OpenAI的自动语音识别系统Whisper,会凭空生成大段的虚假内容。美国有40个医疗系统使用Whisper,其中大约2.6万Whisper经手的病历出现了假信息。目前,OpenAI已经建议用户不要在关键任务中使用这个产品。注意,AI瞎编的坏处,不仅仅体现在规模大,还在于它从来不会心虚。媒体人阑夕老师有个评价很贴切,他说,AI造谣的主观恶意或许不及人类,但它的发挥能力却是独当一面。麻省理工有两位科学家,摩西·霍夫曼和埃雷兹·约耶里一起写过一本书,叫《隐藏的博弈》。里面有个观点大概说的是,为什么坏人容易失败?不仅是因为正义的力量很强大,也在于坏人自己会心虚。换句话说,我们的大脑对于对错是有个判断的,你自己都觉得不对的事,大概率上做起来会缺少能量,会心虚,无法做到绝对的理直气壮。这也是人类造谣的局限所在。但是,AI就不存在这个心虚感。一篇胡编乱造的文章,可以做到从头到尾神完气足,精力充沛,且全程押韵。这你受得了吗?

02


面对这三类问题,AI的幻觉率最高


AI为什么会出现幻觉呢?主要有这么几个原因。首先,数据本身的质量问题。大模型是基于海量数据训练的,这些数据中原本就有垃圾信息。比如,医学、金融等领域的过时论文,都会导致大模型输出错误结论。而且大模型的语料是有时间节点的,有些大模型的训练数据滞后,对于最新发生的事情就会胡编。其次,也和大模型的训练方式有关。大模型的训练是基于打分反馈。也就是大模型输出一个结果,然后有个类似打分器的软件,对这个结果打分。换句话说,大模型追求的从来都不是准确,而是高分。它本身并不知道什么是准确。那么,怎么得高分?这就跟写作文一样,即使你对这个话题一知半解,只要你文笔优美地写够800字,分数总不会太低。这也是为什么大模型面对任何问题,不管知道不知道,都必须要像模像样地写出一堆字。最后,既然大模型追求的是高分,那么它理论上,就存在刻意讨好打分者的可能,它可能会顺着你说。在一些问题上,你怎么引导它,它就可能会基于这个引导来回答你。那么,现在市面上流行的大模型,谁的幻觉最严重呢?美国加州有个公司叫Vectara,经常做这方面的测评。根据他们2025年3月的最新测试,目前,幻觉率最低的是谷歌的Gemini 2.0 Flash,是0.7%。Open AI的GPT-4o的幻觉率是1.5%。而DeepSeek V2.5的幻觉率是2.4%。而前段时间,清华人工智能学院也发布了一篇报告,题目是《DeepSeek与AI幻觉》。他们发现,在不同的提问模式下,大模型出现幻觉的概率也不一样。比如,针对随机生成的提示语,DeepSeek-R1的幻觉率最高,达到3%,然后是DeepSeek-V3和阿里的Qianwen2.5-Max,幻觉率都是2%,而幻觉率最低的是豆包,几乎没有幻觉。而针对事实性测试,DeepSeek-V3的幻觉率是29.67%,Qianwen2.5-Max的幻觉率是27.67%,DeepSeek-R1的幻觉率是22.33%,豆包的幻觉率接近19%。同时,研究者发现,面对这么三类问题,AI的幻觉率最高。第一类是,知识边界模糊的问题,比如预测未来事件;第二类是,情感驱动的场景,比如安慰性回应;第三类是,特殊领域相关的问题,比如医疗诊断和金融预测。

03


怎么对抗AI幻觉?


那么,面对这些AI幻觉,我们能够做点什么呢?这就是咱们要说的第二点。首先,规则建设。针对AI幻觉,很多机构都在试图通过制定规则来解决。比如,今年2月,美国摩根路易律所发布公告,一旦发现旗下律师使用了AI编造的假信息,就马上解雇。再比如,今年2月,国内期刊《诗刊》发布声明,一旦发现有人用AI投稿,马上列入黑名单。在今年3月的全国两会上,科大讯飞的刘庆峰还作为人大代表提出议案,应该建立安全可信、动态更新的数据库,尽量避免大模型产生幻觉。其次,技术层面的解决方案。比如,世界模型。世界模型也许没办法完全消除幻觉,但起码它理解物理世界的规则,因此有世界模型介入后,AI大概率上不会给出违背物理规律的回答。再比如,RAG,也就是检索增强生成。像DeepSeek的联网搜索,就属于这一类。一旦RAG介入,大模型在回答之前,就会多一步全网实时检索的环节,这能帮它搜集到最新资料,并且列出信息源,方便用户马上核实。比如DeepSeek R1,联网搜索状态下,在通用性测试中的幻觉率几乎是零。最后,个人操作层面。我们也可以通过改进使用方式,来避免AI幻觉。比如,大模型协作,使用几个AI互相验证。之前清华的研究团队曾经试过,问某个大模型,《水浒传》中李逵为什么要大闹五台山?答案是,因为李逵喝醉误闯了五台山。但这个时候,假如让其他AI再审核一遍这个回答,它马上就能发现问题。再比如,在提示词上下功夫。通过圈定时间、知识范围、领域等方式,约束大模型。打个比方,你可以问:“作为临床医学专家,基于2025年之前的公开学术文献,请列举FDA批准的5种糖尿病药物。”再比如,增加对抗性提示,也就是让大模型自己审核自己,给不确定的地方主动打上标记。最后,回到使用AI的方式。之前万维钢老师曾经给过一份叮嘱,在这里分享给你。或许可以帮我们掌握与AI协作的边界感。AI能够生成标准化文本,但不能替代你的个性化表达。AI能帮助你填补知识空白,但不能保证所有信息都绝对正确。AI能加速信息整理和筛选,但不能快速编程你的大脑。AI能提供决策建议,但不能承担决策责任。AI能把理论用于不同的应用场景,但不能取代人的独立意志和真实体验。总之,AI是强大的工具。它最大的问题,就是它不是你。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

微信邦网联系QQ|Archiver|手机版|小黑屋|鲁公网安备 37082802000167号|微信邦 ( 鲁ICP备19043418号-5 )

GMT+8, 2025-3-20 23:47 , Processed in 0.106707 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2013 Wxuse Inc. | Style by ytl QQ:1400069288

快速回复 返回顶部 返回列表