上海交通大学研究团队利用影响函数揭示了数据特征如何刺激大型语言模型的数学和代码推理能力。研究发现高难度数学问题能同时提升数学和代码推理,而低难度编程任务对代码推理最有效。基于此,他们提出了"任务难度翻转…详细
本研究提出了"能力-难度对齐采样"方法(CDAS),革新了大型语言模型强化学习训练中的数据采样策略。与传统方法不同,CDAS通过聚合历史表现差异实现更稳定的问题难度估计,并将模型能力与问题难度动态匹配。在多个数学…详细
InfantAgent-Next是一款突破性的多模态通用型AI助手,能通过文本、图像、音频和视频与计算机进行交互。不同于现有方法,它采用高度模块化架构,将基于工具和纯视觉的代理技术融为一体,让不同模型能逐步协作解决分散…详细
KAIST等机构研究团队提出的"覆盖原则"框架揭示了大语言模型在组合泛化能力上的基本局限。研究表明,依赖模式匹配的模型只能泛化到那些可以通过替换功能等价片段到达的输入。实验证实,两步推理任务的训练数据需求与词…详细
这项研究提出了"多轮分解"(MinD)方法,将大型推理模型的冗长思维链重构为结构化的多轮对话形式,每轮包含一个思考单元和一个答案。通过监督微调和强化学习相结合的训练策略,MinD在MATH等基准测试上实现了高达70%的标…详细
NVIDIA季度收入达 441 亿美元,较 2025 财年第四季度增长 12%,较去年同期增长 69%;数据中心季度收入达 391 亿美元,较 2025 财年第四季度增长 10%,较去年同期增长 73%…详细
这项研究提出了"交织式推理"方法,通过强化学习训练大语言模型在复杂推理过程中穿插输出中间答案。与传统的"先思考后回答"模式不同,这种方式让模型像人类一样边思考边给出阶段性结论,不仅将首词响应时间平均减少80…详细
冯轶春、王嘉伟等研究人员开发了DoctorAgent-RL,一种基于强化学习的多智能体协作医疗对话系统,彻底改变了AI医疗咨询模式。与传统单轮问答系统不同,该系统通过医生智能体与患者智能体间的多轮互动,动态优化提问策…详细
这篇研究介绍了DC-CoT,首个专门评估数据操作如何影响思维链(CoT)知识蒸馏的基准系统。北卡罗来纳大学教堂山分校等机构的研究者使用多种教师模型(如Gemini-Pro、Claude-3.5)和学生架构(3B-7B参数),系统评估了数据增…详细
这项由普林斯顿大学和加州大学欧文分校研究人员完成的研究揭示了一个令人担忧的发现:恶意行为者可以利用多种自由度来增强AI网络安全助手的攻击能力,且无需外部帮助。研究表明,即使只有约36美元的计算预算,这些改…详细
这篇研究介绍了Moonshot AI团队开发的G1模型,该模型通过强化学习显著提升了视觉语言模型在游戏环境中的决策能力。研究团队首创了VLM-Gym训练环境,包含多种视觉游戏与统一接口,并开发了两代模型:G0通过纯强化学习…详细
这项研究提出了PathFinder-PRM,一种创新的层次化过程奖励模型,通过先分类数学和一致性错误,再估算步骤奖励分数,从而提升大语言模型的数学推理能力。研究团队构建了40万样本的数据集,使用细粒度错误标签训练模型…详细
这篇论文比较了AI辅助软件开发中的两种新兴范式:"直觉式编码"(Vibe Coding)和"智能体编码"(Agentic Coding)。Cornell大学研究团队的综述揭示了两种方法的根本区别:直觉式编码强调开发者与AI的对话式交互和创意探索…详细
RankNovo是由上海人工智能实验室和复旦大学等机构联合开发的创新框架,通过列表式重排序方法整合多个肽段测序模型的优势,提出PMD和RMD两种新指标精确评估肽段差异。实验证明它在9-species基准测试中超越所有单一模型…详细
这篇研究深入探讨了大语言模型在处理不同语言长文本时的位置偏差现象。研究团队分析了英语、俄语、德语、印地语和越南语五种语言,发现位置偏差主要由模型决定而非语言特性,Qwen模型偏好文本末尾位置信息,挑战了传…详细
ScanBot是康涅狄格大学研究团队开发的首个专为高精度表面扫描设计的指令条件数据集,旨在解决机器人在精细工具使用方面的能力缺口。与传统数据集专注于抓取和导航不同,ScanBot关注亚毫米级精度控制,包含12个物体、…详细
康奈尔大学研究团队提出了"价值引导搜索"方法,通过训练标记级价值模型来优化大型语言模型的推理过程。他们收集了250万个数学推理轨迹,训练了15亿参数的评估模型,实现了基于块的高效搜索。这种方法不需要预定义"步…详细
天津大学和清华大学研究团队开发的FuxiMT是首个中文为中心的多语言翻译模型,基于BLOOMz模型并整合了混合专家技术,支持65种语言的翻译。其采用两阶段训练策略:先在50亿中文句子上预训练,再通过课程学习方法在多语…详细
伊利诺伊大学研究团队开发的s3框架只需2,400个训练样本,就能超越需要17万个样本的现有方法,大幅提升语言模型的搜索质量。通过将搜索与生成解耦,s3使用"超越朴素RAG的增益"奖励,专注训练搜索智能体而保持生成模型…详细
香港大学等机构研究者开发的PHYX基准测试评估了AI模型的物理推理能力,结果显示即使最先进的GPT-4o等多模态模型在此类任务上的准确率仅为32.5%-45.8%,比人类专家低29%以上。PHYX包含3000个跨六大物理领域的多模态问…详细
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。