Episódios
-
该论文通过引入一个受认知心理学和教育启发的新框架,全面探讨了大型语言模型(LLMs)的学习能力。它将LLM的学习分解为三个关键维度:向教师学习(通过明确指导获取知识)、从概念学习(内化抽象结构并推广到新语境),以及从经验学习(通过累积探索和反馈进行适应)。研究人员进行了一项广泛的实证研究,揭示了LLM学习能力的关键发现,例如互动能提升学习效果,概念理解能力随模型规模而增强,且LLMs在少样本学习中表现出色但在多样本学习中遇到挑战。基于这些发现,该来源提出了LearnArena基准测试,旨在对LLM的通用学习能力进行统一且真实的评估,以促进开发出更具适应性和类人智能的模型。
Source: <https://arxiv.org/abs/2506.13464>
-
Guardieiro et al. (2025)提出了一种名为Instruction Attention Boosting (InstABoost)的新型潜在引导方法,旨在提高大型语言模型(LLM)遵循指令的能力。该研究通过标准化基准测试系统地比较了各种引导技术,包括传统的提示和现有潜在空间引导方法。结果表明,INSTABOOST通过增强模型对指令的注意力,在多样化的任务中显著提升了控制成功率,并保持了生成文本的流畅性,克服了其他潜在引导方法中常见的性能波动和生成质量下降问题。这篇论文强调,通过精确操纵模型的注意力机制,可以更可靠、更高效地引导LLM的行为。
Source: <https://arxiv.org/abs/2506.13734>
-
Estão a faltar episódios?
-
此研究首次明确定义了构建类人自主人工智能所需的功能层次结构,将其分为核心功能、整合评估功能和自我修改功能三个层面。它提出了一个逐步实现自主性的模型,包括反应式、弱自主和强自主级别,并探讨了这些功能与现有人工智能设计方法的关系,尤其是强化学习的适用性与局限性。通过提供一个独立于具体技术的理论框架,该研究旨在深化对自主性的理解,并为未来设计具有强大自主性的人工实体奠定基础。
Source: <https://arxiv.org/abs/2506.12952>
-
这篇论文介绍了 Astra,一个由 ByteDance Seed 开发的双模型架构,旨在解决移动机器人在复杂室内环境中的导航挑战。Astra-Global 是一个多模态大型语言模型(LLM),负责低频任务,例如使用视觉和语言输入进行自我定位和目标定位。同时,Astra-Local 是一个多任务网络,处理高频任务,包括局部路径规划和里程计估计。该系统在内部移动机器人上进行部署和测试,在仓库、办公楼和家庭等各种环境中取得了高任务成功率,并通过创新方法如遮罩 ESDF 损失和多传感器融合显著提升了性能。
Source: <https://arxiv.org/abs/2506.06205>
-
这篇论文介绍了一种名为强化预训练 (RPT) 的新型方法,旨在提升大型语言模型 (LLM) 的能力。RPT将传统的“下一词元预测”任务重新定义为一种推理任务,通过强化学习 (RL) 机制,根据模型对下一词元预测的准确性给予可验证的奖励。这种方法使得LLM能够利用海量的未标注文本数据进行通用型强化学习,从而促进更深层次的下一词元推理。实验结果表明,RPT显著提高了下一词元预测的准确性,并为后续的强化微调提供了更坚实的基础,同时展现出与计算资源增加相符的良好扩展性。
Source: <https://arxiv.org/abs/2506.08007>
-
该文本介绍了 MistralAI 开发的 Magistral 大型语言模型,该模型专注于通过 强化学习 (RL) 提升推理能力。文档详细阐述了他们的 RL 训练流程,包括对 GRPO 算法的修改,以及如何通过 奖励塑形 来确保模型输出的 格式、正确性、长度和语言一致性。此外,文章还描述了他们为 数学和代码问题 构建 高质量数据集 的过程,并展示了 Magistral Medium 和 Magistral Small 模型在各种 推理基准测试 上的卓越性能。值得注意的是,研究表明,即便只使用文本数据进行 RL 训练,模型也能 保持甚至提升多模态理解能力 和 指令遵循 等现有功能。
Source:
- <https://mistral.ai/static/research/magistral.pdf>
- <https://arxiv.org/abs/2506.10910>
-
论文介绍了一种名为 OThink-R1 的新型大型推理模型,该模型旨在通过模仿人类的 “快思”和“慢思”模式 来提高效率。传统的大型推理模型在解决简单任务时往往会进行不必要的冗余推理,从而产生高昂的计算成本。OThink-R1 通过 识别并修剪这些冗余的推理轨迹,同时 保留核心的必要推理步骤,从而解决了这一问题。该模型能够 根据任务复杂性 动态地在这两种思维模式之间切换,在保持甚至提升准确性的同时,显著减少了生成的 tokens 数量。研究结果表明,这种方法在数学和问答任务中都能有效降低推理冗余,为开发更高效的人工智能系统提供了实际指导。
Source: <https://arxiv.org/abs/2506.02397>
-
该论文介绍了 ROBOT-R1,这是一个通过 强化学习 训练 大型视觉-语言模型 (LVLM) 以增强机器人领域具身推理能力的新颖框架。该方法通过将预测下一个关键点状态的问题重新定义为 多项选择问答,并结合当前状态和原始运动预测的辅助任务来提高效率。此外,它还引入了一个名为 ROBOT-R1 Bench 的新基准,用于评估机器人的 具身推理 能力,实验结果表明 ROBOT-R1 在机器人控制任务中优于传统的 监督微调 (SFT) 方法,甚至在低级动作控制的推理任务中超越了像 GPT-4o 这样的大型商业模型。
Source: <https://arxiv.org/abs/2506.00070>
-
该文本介绍了一种名为 VeBrain 的新型多模态大型语言模型(MLLM),旨在弥合多模态理解与机器人控制之间的差距。文章指出,现有的MLLM在整合视觉空间智能和物理交互能力方面面临挑战,而专注于视觉-语言-动作(VLA)模型的现有方法则牺牲了多模态理解能力。VeBrain通过统一的输入-输出空间、将机器人控制定义为2D视觉空间中的任务以及采用思维链(CoT)流程来解决这些问题。它还引入了VeBrain-600k数据集,其中包含人类专家和半自动化数据引擎生成的大量高质量指令数据,并在多模态和空间基准测试以及腿足机器人和机械臂的控制任务中展现出卓越的性能。
Source: <https://arxiv.org/abs/2506.00123>
-
该文本介绍了VOYAGER,一个由大型语言模型(LLM)驱动的Minecraft智能体,它能够在没有人为干预的情况下持续探索游戏世界、学习技能并进行新发现。VOYAGER通过一个自动课程来指导探索,维护一个不断增长的可执行代码技能库,并采用迭代提示机制根据环境反馈和错误进行自我完善。研究表明,与现有技术相比,VOYAGER在获取独特物品、解锁技术树里程碑和遍历更远距离方面表现出显著的优越性,并且能将所学技能零样本泛化到新任务。尽管目前主要依赖文本输入,VOYAGER展示了与人类反馈结合以构建复杂结构进一步提升能力的潜力,但同时也面临成本高昂和偶尔产生不准确或“幻觉”的挑战。
Source: <https://arxiv.org/abs/2305.16291>
-
这篇研究论文探讨了强化学习与可验证奖励(RLVR)在提升大型语言模型数学推理能力方面的作用,即使奖励信号是虚假或随机的。令人惊讶的是,研究发现Qwen2.5-Math模型在有缺陷的奖励下仍能取得显著性能提升,例如即使奖励是完全随机的,其MATH-500的准确率也能提高21.4%。然而,这种现象对Llama3或OLMo2等其他模型家族并不普遍适用,它们通常只在真实的奖励信号下表现出提升。研究人员假设,RLVR可能通过发掘模型预训练阶段已学习到的有用推理表示来提高性能,尤其是Qwen模型中的代码推理行为,该行为在RLVR后变得更为普遍。因此,该研究建议未来的RLVR研究应在更多样化的模型上进行验证,而非仅限于Qwen模型。
Source: <https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f>
-
文本讨论了 自改进AI系统 的发展,特别是 Darwin Gödel Machine (DGM) 这一框架。DGM系统受到 生物进化 的启发,通过 实验性地验证自我修改 并维持一个 已发现代理的库 来持续改进其作为编码代理的能力。文章描述了如何使用 SWE-bench 和 Polyglot 基准来评估这些代理,并通过 可视化树状图和性能图 展示了DGM在解决编码问题上的进展。最后,它讨论了 幻觉问题 和 目标欺骗 等挑战,并提出了 未来改进方向,例如扩展自我修改能力和提升计算效率。
Source: <https://arxiv.org/abs/2505.22954>
-
这份研究探讨了大型语言模型如何进行隐式多跳推理,即无需明确说出中间步骤就能得出正确答案。通过在一个受控的符号环境中从零开始训练 Transformer 模型,研究人员观察到推理能力的发展分为三个阶段:从记忆训练数据开始,然后是分布内泛化,最后是跨分布泛化。他们发现,虽然训练中不需要原子三元组,但它们可以加速学习;而第二跳的泛化需要模型在训练中遇到特定的组合结构。为了理解这些机制,研究引入了跨查询语义修补和基于余弦的表征分析两种工具,结果显示成功的推理与中间表征在隐空间中形成一致的聚类相关,这一发现有助于理解模型内部复杂的推理过程并提升其透明度。
Source: <https://arxiv.org/abs/2505.23653>
-
这篇文章讨论了具身人工智能(Embodied AI),它源自图灵测试,旨在让智能体不仅能解决抽象问题,还能在物理世界中展现智能。具身智能体是能够感知环境并为实现目标而行动的自主实体,可以存在于赛博空间和物理空间。该研究强调了仿真平台在具身智能发展中的重要性,列举了多种通用的和基于真实场景的模拟器,如Isaac Sim, Gazebo, AI2-THOR和iGibson,这些平台提供了测试和训练具身模型的虚拟环境。此外,文章探讨了触觉传感器的设计及其在机器人操纵中的应用,以及如何利用人类示范数据通过深度强化学习和模仿学习来训练智能体,特别提到了新的ARIO数据集标准,旨在统一机器人数据并促进更通用的具身智能体开发。总的来说,该研究综述了具身智能的各个方面,从理论基础到实际应用和数据集建设。
Source: <https://arxiv.org/abs/2407.06886>
-
这项研究提出了一种名为 3DLLM-MEM 的新型具身三维大型语言模型,旨在解决 具身 AI 在处理复杂任务时长期空间-时间记忆不足的问题。为了评估和改进这一点,研究人员构建了一个名为 3DMEM-BENCH 的综合基准测试,包含需要跨房间探索和物体交互的多步骤任务,以及问答和图像标注任务,以测试代理对环境变化的理解和记忆能力。3DLLM-MEM 通过一个动态记忆融合模块,将当前观察(工作记忆)与过去经验(情景记忆)结合起来,使其能够在复杂的 3D 环境中进行空间-时间推理、规划和行动。实验结果表明,3DLLM-MEM 在各项任务中均显著优于现有方法,特别是在需要长期记忆和泛化能力的挑战性场景中表现出色。
Source: <https://arxiv.org/abs/2505.22657>
-
这项研究提出了一种名为“模型免疫”的新方法,用于提高大型语言模型抵制虚假信息的能力。该方法并非完全避免错误数据,而是有控制地将少量带有明确标签的虚假内容引入训练过程,类似于生物疫苗接种。这些被标注为虚假的示例经过精心策划并隔离,在模型微调期间定期注入,以训练模型识别和拒绝不准确的说法。通过这种预先的方法,而不是事后过滤,模型可以建立针对未来虚假信息的“免疫力”,实验证明这种方法能有效降低模型生成虚假信息,同时不显著影响其对真实信息的准确性。研究人员还讨论了实施该框架时需要考虑的伦理保障和治理措施,强调了透明度和负责任的数据使用。
Resource: <https://arxiv.org/abs/2505.17870> -
这篇文章深入探讨了多智能体系统(MAS)与单智能体系统(SAS)在大语言模型(LLM)应用中的表现差异。研究人员比较了两者在各类任务中的准确性和效率,发现随着LLM能力的增强,MAS相对于SAS的优势逐渐减弱,且MAS的部署成本更高。为了解决这些问题,文中提出了诊断MAS缺陷的方法,并设计了一种混合智能体范式,通过在MAS和SAS之间选择性地分配任务,旨在提升性能和成本效益。研究结果表明,这种混合方法可以在提高准确性的同时显著降低部署成本。
Source: <https://arxiv.org/abs/2505.18286>
-
这项研究介绍了一种新型的单层水凝胶人工皮肤,称为“SHARK”,它具有出色的拉伸性和自愈合能力。与传统的三层夹心结构人工皮肤不同,SHARK将介电肽涂层石墨烯纳米片均匀分散在水凝胶中,形成了体电容连接。这种设计显著提高了传感器对应变和压力的敏感度,并且能够在空气和水环境中工作。SHARK的独特结构和动态界面相互作用使其能够拉伸至原始长度的77倍,并在几分钟内自愈合机械和电气性能,为下一代离子电子学提供了巨大潜力。
Source: <https://academic.oup.com/nsr/article/9/7/nwab147/6352346> -
这篇博客介绍了一种名为 Psyche 网络 的开放式人工智能基础设施。该网络旨在通过 去中心化 的方式,利用分布在全球各地的未充分利用的硬件资源进行大型语言模型的训练,以此打破目前人工智能发展中算力资源集中在大型公司手中的现状。文章重点阐述了 Psyche 的 架构、基于 DisTrO(一种能显著压缩训练信息的技术)的 训练流程,以及如何利用 P2P 网络和 Solana 区块链实现 高效通信、容错和鲁棒性。最终,Psyche 希望通过降低训练成本和门槛,实现人工智能开发的 民主化,促进更广泛的实验和创新。
Source: <https://nousresearch.com/nous-psyche/>
-
这篇论文讨论了名为 Transformer 的新型神经网络架构。它完全依赖于 注意力机制,而放弃了传统的 循环 或 卷积 网络。作者表明,这种新模型在 机器翻译 任务上表现出卓越的性能,并且训练速度更快,能够更好地进行 并行计算。他们通过在两种不同的机器翻译任务上取得 最先进的结果 来支持这些说法。此外,他们还成功地将 Transformer 应用于 英语成分句法分析 任务,展示了其泛化能力。
Source: <https://arxiv.org/abs/1706.03762>
- Mostrar mais