科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-05-29 14:50:38
数学和代码推理力的关键数据特征是什么?上海交通大学团队用影响函数揭示跨领域学习的奥秘

上海交通大学研究团队利用影响函数揭示了数据特征如何刺激大型语言模型的数学和代码推理能力。研究发现高难度数学问题能同时提升数学和代码推理,而低难度编程任务对代码推理最有效。基于此,他们提出了"任务难度翻转…详细

人工智能影响函数推理能力

2025-05-29 14:50:15
重新思考大型语言模型推理的采样标准:基于能力-难度对齐的视角

本研究提出了"能力-难度对齐采样"方法(CDAS),革新了大型语言模型强化学习训练中的数据采样策略。与传统方法不同,CDAS通过聚合历史表现差异实现更稳定的问题难度估计,并将模型能力与问题难度动态匹配。在多个数学…详细

大型语言模型强化学习采样能力难度对齐

2025-05-29 14:49:59
多模态通才:InfantAgent-Next如何让AI更智能地操作你的电脑

InfantAgent-Next是一款突破性的多模态通用型AI助手,能通过文本、图像、音频和视频与计算机进行交互。不同于现有方法,它采用高度模块化架构,将基于工具和纯视觉的代理技术融为一体,让不同模型能逐步协作解决分散…详细

人工智能多模态代理计算机自动化交互

2025-05-29 14:49:02
覆盖原则:理解组合泛化能力的统一框架——KAIST研究团队揭示大语言模型的推理局限

KAIST等机构研究团队提出的"覆盖原则"框架揭示了大语言模型在组合泛化能力上的基本局限。研究表明,依赖模式匹配的模型只能泛化到那些可以通过替换功能等价片段到达的输入。实验证实,两步推理任务的训练数据需求与词…详细

人工智能组合泛化大语言模型

2025-05-29 14:48:32
干掉完美主义:多轮分解如何让大语言模型推理更高效

这项研究提出了"多轮分解"(MinD)方法,将大型推理模型的冗长思维链重构为结构化的多轮对话形式,每轮包含一个思考单元和一个答案。通过监督微调和强化学习相结合的训练策略,MinD在MATH等基准测试上实现了高达70%的标…详细

人工智能大型推理模型强化学习

2025-05-29 14:02:06
NVIDIA 发布 2026 财年第一季度财务报告

NVIDIA季度收入达 441 亿美元,较 2025 财年第四季度增长 12%,较去年同期增长 69%;数据中心季度收入达 391 亿美元,较 2025 财年第四季度增长 10%,较去年同期增长 73%…详细

2025-05-29 13:20:36
交织式思考与应答:让大语言模型通过强化学习实现更快响应和更准确推理

这项研究提出了"交织式推理"方法,通过强化学习训练大语言模型在复杂推理过程中穿插输出中间答案。与传统的"先思考后回答"模式不同,这种方式让模型像人类一样边思考边给出阶段性结论,不仅将首词响应时间平均减少80…详细

人工智能强化学习大语言模型推理

2025-05-29 13:20:10
DoctorAgent-RL:广州国家实验室研发的多智能体协作式强化学习医疗对话系统,让AI医生问诊更像真人医生

冯轶春、王嘉伟等研究人员开发了DoctorAgent-RL,一种基于强化学习的多智能体协作医疗对话系统,彻底改变了AI医疗咨询模式。与传统单轮问答系统不同,该系统通过医生智能体与患者智能体间的多轮互动,动态优化提问策…详细

人工智能医疗对话系统强化学习

2025-05-29 13:19:33
更智能的小模型推理:数据视角下的思维链蒸馏基准研究——北卡罗来纳大学

这篇研究介绍了DC-CoT,首个专门评估数据操作如何影响思维链(CoT)知识蒸馏的基准系统。北卡罗来纳大学教堂山分校等机构的研究者使用多种教师模型(如Gemini-Pro、Claude-3.5)和学生架构(3B-7B参数),系统评估了数据增…详细

人工智能知识蒸馏语言模型推理

2025-05-29 13:19:17
当网络犯罪更智能:动态评估攻击性网络安全AI助手的风险

这项由普林斯顿大学和加州大学欧文分校研究人员完成的研究揭示了一个令人担忧的发现:恶意行为者可以利用多种自由度来增强AI网络安全助手的攻击能力,且无需外部帮助。研究表明,即使只有约36美元的计算预算,这些改…详细

人工智能安全网络安全评估动态风险分析

2025-05-29 13:18:22
G1项目:Moonshot AI通过强化学习提升视觉语言模型的感知与推理能力

这篇研究介绍了Moonshot AI团队开发的G1模型,该模型通过强化学习显著提升了视觉语言模型在游戏环境中的决策能力。研究团队首创了VLM-Gym训练环境,包含多种视觉游戏与统一接口,并开发了两代模型:G0通过纯强化学习…详细

视觉语言模型强化学习智能体决策

2025-05-29 12:48:40
让AI判断推理中的错误更精准:PathFinder-PRM如何通过分步解析优化大语言模型的数学推理过程

这项研究提出了PathFinder-PRM,一种创新的层次化过程奖励模型,通过先分类数学和一致性错误,再估算步骤奖励分数,从而提升大语言模型的数学推理能力。研究团队构建了40万样本的数据集,使用细粒度错误标签训练模型…详细

人工智能数学推理过程奖励模型

2025-05-29 12:07:30
从直觉式编码到智能体编码:Cornell大学研究团队揭示AI辅助软件开发的两种范式

这篇论文比较了AI辅助软件开发中的两种新兴范式:"直觉式编码"(Vibe Coding)和"智能体编码"(Agentic Coding)。Cornell大学研究团队的综述揭示了两种方法的根本区别:直觉式编码强调开发者与AI的对话式交互和创意探索…详细

人工智能软件开发智能体技术

2025-05-29 12:07:12
RankNovo:上海人工智能实验室开发全能蛋白质序列重排序框架,显著提升从质谱数据解析肽段准确率

RankNovo是由上海人工智能实验室和复旦大学等机构联合开发的创新框架,通过列表式重排序方法整合多个肽段测序模型的优势,提出PMD和RMD两种新指标精确评估肽段差异。实验证明它在9-species基准测试中超越所有单一模型…详细

蛋白质组学深度学习序列重排序

2025-05-29 12:05:15
位置的不确定性:大语言模型中位置偏差的跨语言研究

这篇研究深入探讨了大语言模型在处理不同语言长文本时的位置偏差现象。研究团队分析了英语、俄语、德语、印地语和越南语五种语言,发现位置偏差主要由模型决定而非语言特性,Qwen模型偏好文本末尾位置信息,挑战了传…详细

大语言模型位置偏差多语言处理

2025-05-29 12:04:11
ScanBot:为什么康涅狄格大学研究团队认为机器人不仅需要抓取物体,还应精确扫描物体表面

ScanBot是康涅狄格大学研究团队开发的首个专为高精度表面扫描设计的指令条件数据集,旨在解决机器人在精细工具使用方面的能力缺口。与传统数据集专注于抓取和导航不同,ScanBot关注亚毫米级精度控制,包含12个物体、…详细

机器人学习视觉语言动作模型表面扫描

2025-05-29 12:03:07
价值引导搜索:提升推理模型思维链的高效指南——康奈尔大学研究团队的突破性成果

康奈尔大学研究团队提出了"价值引导搜索"方法,通过训练标记级价值模型来优化大型语言模型的推理过程。他们收集了250万个数学推理轨迹,训练了15亿参数的评估模型,实现了基于块的高效搜索。这种方法不需要预定义"步…详细

人工智能大型语言模型测试时计算优化

2025-05-29 12:02:35
FuxiMT:基于稀疏化大语言模型的中文为中心多语种机器翻译系统——天津大学和清华大学联合打造跨语言沟通新桥梁

天津大学和清华大学研究团队开发的FuxiMT是首个中文为中心的多语言翻译模型,基于BLOOMz模型并整合了混合专家技术,支持65种语言的翻译。其采用两阶段训练策略:先在50亿中文句子上预训练,再通过课程学习方法在多语…详细

大语言模型稀疏化技术多语言翻译

2025-05-29 12:01:08
s3搜索智能体:使用强化学习训练高效搜索,让你的Large Language Models检索能力大增

伊利诺伊大学研究团队开发的s3框架只需2,400个训练样本,就能超越需要17万个样本的现有方法,大幅提升语言模型的搜索质量。通过将搜索与生成解耦,s3使用"超越朴素RAG的增益"奖励,专注训练搜索智能体而保持生成模型…详细

人工智能强化学习检索增强生成

2025-05-29 10:26:09
PHYX:大模型的物理推理能力测试,揭示AI在视觉物理问题上的惊人差距

香港大学等机构研究者开发的PHYX基准测试评估了AI模型的物理推理能力,结果显示即使最先进的GPT-4o等多模态模型在此类任务上的准确率仅为32.5%-45.8%,比人类专家低29%以上。PHYX包含3000个跨六大物理领域的多模态问…详细

人工智能物理推理多模态大模型

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章