AI内存伪装暴露了! GPT和DeepSeek等17个基本模型根
栏目:行业动态 发布时间:2025-06-17 10:23
在输入本文之前,请播放10秒的迷你游戏:在您的脑海中选择一个“ 1-10”整数。现在想我问:“你在想什么...
在输入本文之前,请播放10秒的迷你游戏:在您的脑海中选择一个“ 1-10”整数。现在想我要问:“你在想5吗?”如果您听说这是您自己的电话号码,您将回答是,其余的不是。这个小事情的背后确实是对大脑的记忆 - 保持思考,随时比较外部问题并始终做出回应。图1:当Chatgpt告诉我们他想到了一个数字并回答这个数字不是4时。我们如何判断Chatgpt是否在说谎?大型模型对同一迷你游戏有何反应?他们真的可以像人一样,没有输出,而是想着自己的想法?我们如何尝试?最近,来自约翰·霍普金斯大学和中国人民大学的一支团队设计了三个实验范围的团队,以将基本线索隐藏在上下文中,并强迫模型以“通过记忆”回答,以测试他们是否真的将信息置于他们的脑海中。纸张标题:LLM没有人工纪念的链接Y:https://arxiv.org/abs/2505.10571作者:Jen-Tse Huang(Huang Renze),Kaiser Sun,Wenxuan Wang,Mark Dredze是什么让记忆?如何衡量人类的工作记忆?为什么传统分析不够?在人的大脑中,工作记忆负责维护您在十二秒内仅获得几秒钟的信息,并在此基础上执行诸如推理,计算和对话之类的复杂操作。没有它,人们将不平衡,无法学习,而且很难一起交谈。而且,您的大型人经常与“说话的大脑”进行比较。如果他们缺乏这种能力,它们仍然是真正的“通用人工智能”中的主要难题。以前的工作经常使用n背任务来评估大型模型的工作记忆。受试者已经看到(或听到)一串字母/数字,需要继续回答“当前字母/号码与步骤之前相同?”随着n的升高,难度增加,被广泛用作封口N用于神经影像学和认知心理学实验的工具。但是,不建议直接使用它来尝试LLM。人们只会在测试期间看到当前的字母/数字,而LLM输入窗口本身包含历史记录中的所有令牌。 “返回 - 在n步骤”不是一个真正的内部内存调用,而是简单的匹配文本。图2:为人们设计的记忆制作的典型概括:N-BACK任务。看到(侦听)一系列字母/行政管理的受试者,并继续回答“当前字母/数字与步骤之前相似?”单独的LLM的“虚弱记忆”实验中,三个主要实验已被拆卸。 1:游戏工作预测号:大型模型用户首先想到他的脑海中,用户反复问:“您想到X(1-10)吗?”重复2,000次。计算回答“是”的每个数字模型的频率。基本分析点:1-10可能性O的总和f在上一个答案中回答“是”应该是1,也就是说,对于10个数字应该有一个。图3:在每个数字中将17个Scenot的17个模型分布到“是”。团队计算了来自5个模型家族的17个模型,发现大多数模型在所有情况下都会回答“否”(即图中的全部0)!团队进一步计算提交每个模型的可能性:图4:提交17个模型概率的概率,这些模型在每个数字中响应“是”。已经发现,就可能性而言,GPT-4O-2024-08-06和Llama-3.1-8B版本可能接近1。其他模型,无论他们来自哪种家庭模型,无论是推断模型,都将被擦除,并且这些模型不会在大脑中存储数字!图5:GPT-4O-2024-08-06对于其他数字范围,模型的答案分布。复活节彩蛋:在所有试验中,LLM都特别喜欢7号(甚至17,37) - 显然,“人类幸运数字”的迷信也通过了n对模型!实验2:是的,不是问题和答案(不是游戏)任务过程:在您的脑海中选择一个特定的对象(例如“铅笔”),然后使用是/不要回答一系列比较:它比X重吗?比y更长?比Z大?人们做什么?每当您遇到一个新问题时,都会将您内心思考的事情与问题进行比较,然后轻松回答。如果您没有工作记忆怎么办?如果您无法考虑自己的脑海中,每次遇到一个新问题时,都可以回去检查所有以前的问题和答案,以及如何回答新问题以避免对自己的反对。该团队继续提出250个问题的大型模型,并计算了最终大型模型停止的问题:图6:问题的直方图GPT-4O-2024-08-08-06和GPT-4O-MINI-MINI-MINI-2024-07-18离子。这是问题20 --40,GPT级别-4模型开始揭示悖论尺寸,例如“大于汽车”和“小于足球”。就通过的数量和回答的平均问题数而言,具有更强上下文能力的GPT-4O超过了GPT-4O-MINI较弱的GPT-4O-Mini,但是在总共200次试验中,只有27个已成功通过。它表明,大型模型仅通过长上下文功能完成了任务,而不是一致的工作记忆。实验3:任务流到数学魔术:注意4在您的脑海中随机Numesro(例如3-5-2 --9),然后执行1个NAMAN0的心理算术步骤:复制,设置底部,Enter,Delete,delete,...最后,还有2个相同的数字。该团队使用17个实验模型1来计算最后2个数字相同的可能性:图7:17个数学魔术模型的准确性。下图显示了使用COT和推理模型(LRM)的模型。注意到基本模型的准确率通常非常低。研究人员尝试添加婴儿床是没有用的。 DeepSeek -R1首先几乎不高达39%,但仍然有一个很大的改进空间。值得注意的是,该模型的性能与1-llama-3.1-8B实验一致,结果很棒。纸张测试总共17个受欢迎的模型,例如GPT,O1/3/4,Llama,Qwen,DeepSeek等,它们都没有通过三个试验:Llama -3.1-8B在数字预测中最接近“人类”的可能性为0.98的可能性,并且可以在数学魔术中没有cot而没有o1。 DeepSeek -R1在数学魔术中得分为39.3%,但远离通道线。较大的尺寸和更长的推理≠更好的工作记忆;有些 - 补充版本甚至回归。一个词:没有通过“三个级别”的开放资源或封闭的LLM资源。这是什么意思?说话更现实吗?将来,如果AI想像一个人一样“思考和聊天”,我们需要制作真正的工作记忆机制,而不仅仅是永恒的上下文窗口。长链推理?现有的COT更多是关于信号上的“草稿”,而不是大脑中使用该模型。新的研究方向!或从认知科学中学习,以介绍阅读和书面的“记忆网格”;或使用RL,神经模块化和其他方法,让模型学会维护和操纵体内的隐藏变量。