这项由加拿大Vector研究所领导的研究提出了"模型免疫"概念,通过让AI模型在训练过程中接触已标记的虚假信息,增强其辨别和拒绝类似虚假内容的能力。类比人类疫苗接种原理,研究者在微调阶段向模型注入约5-10%的已标记…详细
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可…详细
阿里巴巴集团和同义实验室的研究团队推出了WebDancer,这是一种能够在网络上自主搜索信息并回答复杂问题的智能体系统。研究团队提出了一个四阶段构建框架,包括数据合成、轨迹采样、监督微调和强化学习。他们创新性地…详细
最近来自清华大学、无限极AI和上海交通大学的研究团队提出了一种名为"通向罗马之路"(R2R)的创新方法,可以在小型和大型语言模型之间进行智能令牌路由。研究发现,小型模型与大型模型的推理路径差异主要源于少量"分歧…详细
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和…详细
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示…详细
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案…详细
这项研究提出了"思想家"(Thinker)任务,一种受人类双重加工理论启发的新型AI训练方法。研究者将问答过程分解为四个阶段:快速思考(严格预算下给出初步答案)、验证(评估初步答案)、慢速思考(深入分析修正错误)…详细
这项由ELLIS研究所和马克斯·普朗克智能系统研究所的科学家进行的研究,揭示了大语言模型安全测试的根本规律:越狱攻击成功率由攻击者与目标模型间的能力差距决定。通过评估500多个攻击者-目标组合,研究团队发现:更…详细
华中科技大学和香港中文大学研究团队提出SATORI-R1,一种通过空间定位和可验证奖励增强多模态推理的新方法。该方法将视觉问答任务分解为图像描述、区域定位和答案预测三个可验证阶段,解决了自由形式推理中注意力分散…详细
这项由浙江大学和香港大学联合研究的PH-Reg方法解决了视觉Transformer模型中的"异常令牌"问题,这些异常会干扰模型对图像细节的准确理解。研究团队提出了一种不需要完全重新训练的自蒸馏方法,通过添加"寄存器令牌"来…详细
ServiceNow研究团队开发了一种名为RLRF的新方法,通过强化学习显著提升了AI生成矢量图形(SVG)的质量。与传统方法不同,RLRF让AI能够"看到"自己生成的SVG代码渲染后的效果,并据此获得反馈。研究表明,这种方法不仅提…详细
香港中文大学与华为诺亚方舟实验室合作开发了PreMoe框架,解决了大型混合专家模型(MoE)在内存受限设备上的部署难题。研究团队发现MoE模型中的专家表现出明显的任务专业化特征,据此提出了概率专家精简(PEP)和任务自适…详细
SCIENCEBOARD是一项开创性研究,旨在评估多模态自主智能体在真实科学工作流中的表现。研究团队构建了一个包含169个高质量任务的基准测试,涵盖生物化学、天文学等六个科学领域,并开发了一个真实环境让智能体通过CLI…详细
帝国理工学院的研究团队开发了AlphaMed,这是首个仅通过极简规则强化学习就能培养医疗推理能力的AI模型,无需依赖传统的思维链示范数据。通过分析数据信息丰富度和难度分布的影响,研究发现高信息量的医疗问答数据是…详细
普林斯顿大学研究团队开发了VideoGameBench,这是一个新基准测试,挑战视觉语言模型在经典视频游戏中的表现。研究发现,即使最先进的AI模型如Gemini 2.5 Pro在10款90年代游戏中也仅能完成0.48%的进度,表明当前AI在空…详细
Alita是一种新型通用AI代理系统,采用极简设计理念,以"最小预定义,最大自我进化"为原则构建。由普林斯顿大学等多家机构研究团队开发的Alita,只配备一个核心能力和少量通用模块,能自主创建所需工具并重用为模型上…详细
BiomedSQL是由NIH和DataTecnica团队开发的首个生物医学文本转SQL基准,专门评估大型语言模型在生物医学知识库查询中的科学推理能力。这项创新研究构建了一个包含68,000个问题-SQL-答案三元组的数据集,基于整合了基因…详细
清华大学与阿里巴巴通义实验室合作研发了EXTAGENTS,一个创新的多智能体框架,解决了大语言模型处理超大规模外部知识的限制问题。该研究通过全局知识同步和知识累积推理两大创新组件,使模型能够有效整合远超其上下文…详细
这项研究介绍了Ankh3,一种创新的蛋白质语言模型,通过多任务预训练策略显著提升了模型性能。研究者采用两种互补任务:多掩码概率的掩码语言建模和蛋白质序列补全,使模型仅从蛋白质序列就能学到更丰富的表示。实验表…详细
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。