科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-06-01 18:59:36
打造自主信息搜索智能体:阿里巴巴WebDancer的探索之路

阿里巴巴集团和同义实验室的研究团队推出了WebDancer,这是一种能够在网络上自主搜索信息并回答复杂问题的智能体系统。研究团队提出了一个四阶段构建框架,包括数据合成、轨迹采样、监督微调和强化学习。他们创新性地…详细

人工智能信息搜索强化学习

2025-06-01 18:58:56
R2R:使用小型-大型模型令牌路由高效导航分歧推理路径

最近来自清华大学、无限极AI和上海交通大学的研究团队提出了一种名为"通向罗马之路"(R2R)的创新方法,可以在小型和大型语言模型之间进行智能令牌路由。研究发现,小型模型与大型模型的推理路径差异主要源于少量"分歧…详细

大语言模型令牌路由推理优化

2025-06-01 18:58:21
FinTagging: 金融信息提取与结构化的新基准测试,让大语言模型更懂财报数据

这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和…详细

金融信息提取大语言模型XBRL标记

2025-06-01 17:54:28
SweEval:企业使用中的多语言LLM脏话安全基准测试研究

这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示…详细

人工智能安全多语言自然语言处理企业AI应用

2025-06-01 16:36:22
无需验证师:如何让大型语言模型在没有答案检查者的情况下进行更好的推理

这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案…详细

人工智能强化学习大型语言模型

2025-06-01 16:35:25
快思与慢想:让AI学会像人一样思考的突破性研究——DualityRL团队的"思想家"模型

这项研究提出了"思想家"(Thinker)任务,一种受人类双重加工理论启发的新型AI训练方法。研究者将问答过程分解为四个阶段:快速思考(严格预算下给出初步答案)、验证(评估初步答案)、慢速思考(深入分析修正错误)…详细

人工智能强化学习认知模型

2025-06-01 16:11:36
能力差距决定破解能力:大语言模型红队测试的能力缩放规律

这项由ELLIS研究所和马克斯·普朗克智能系统研究所的科学家进行的研究,揭示了大语言模型安全测试的根本规律:越狱攻击成功率由攻击者与目标模型间的能力差距决定。通过评估500多个攻击者-目标组合,研究团队发现:更…详细

人工智能安全能力缩放规律语言模型测试

2025-06-01 16:09:53
SATORI-R1:华中科技大学研究团队通过空间定位和可验证奖励增强多模态推理能力

华中科技大学和香港中文大学研究团队提出SATORI-R1,一种通过空间定位和可验证奖励增强多模态推理的新方法。该方法将视觉问答任务分解为图像描述、区域定位和答案预测三个可验证阶段,解决了自由形式推理中注意力分散…详细

多模态推理视觉问答强化学习

2025-06-01 16:09:32
消除视觉噪点:香港大学团队开创自蒸馏寄存器让视觉Transformer产生更清晰特征表示

这项由浙江大学和香港大学联合研究的PH-Reg方法解决了视觉Transformer模型中的"异常令牌"问题,这些异常会干扰模型对图像细节的准确理解。研究团队提出了一种不需要完全重新训练的自蒸馏方法,通过添加"寄存器令牌"来…详细

计算机视觉自蒸馏技术密集特征表示

2025-06-01 16:08:43
图像渲染反馈强化学习:从ServiceNow研究团队到高质量矢量图形生成的突破

ServiceNow研究团队开发了一种名为RLRF的新方法,通过强化学习显著提升了AI生成矢量图形(SVG)的质量。与传统方法不同,RLRF让AI能够"看到"自己生成的SVG代码渲染后的效果,并据此获得反馈。研究表明,这种方法不仅提…详细

人工智能矢量图形生成强化学习

2025-06-01 11:29:37
专家精简大法:香港中文大学与华为诺亚方舟实验室联手助力大型混合专家模型在内存受限设备上高效运行

香港中文大学与华为诺亚方舟实验室合作开发了PreMoe框架,解决了大型混合专家模型(MoE)在内存受限设备上的部署难题。研究团队发现MoE模型中的专家表现出明显的任务专业化特征,据此提出了概率专家精简(PEP)和任务自适…详细

人工智能混合专家模型内存优化

2025-06-01 11:18:02
SCIENCEBOARD:评估科学工作流中的多模态自主智能体

SCIENCEBOARD是一项开创性研究,旨在评估多模态自主智能体在真实科学工作流中的表现。研究团队构建了一个包含169个高质量任务的基准测试,涵盖生物化学、天文学等六个科学领域,并开发了一个真实环境让智能体通过CLI…详细

人工智能科学工作流多模态智能体

2025-06-01 11:17:40
AlphaMed:突破医疗AI推理极限,来自帝国理工学院的创新研究无需蒸馏也能实现高性能医疗推理

帝国理工学院的研究团队开发了AlphaMed,这是首个仅通过极简规则强化学习就能培养医疗推理能力的AI模型,无需依赖传统的思维链示范数据。通过分析数据信息丰富度和难度分布的影响,研究发现高信息量的医疗问答数据是…详细

医疗AI强化学习推理能力

2025-06-01 11:17:17
玩游戏也要考!普林斯顿团队开发"VideoGameBench"测试视觉语言模型能否通关经典游戏

普林斯顿大学研究团队开发了VideoGameBench,这是一个新基准测试,挑战视觉语言模型在经典视频游戏中的表现。研究发现,即使最先进的AI模型如Gemini 2.5 Pro在10款90年代游戏中也仅能完成0.48%的进度,表明当前AI在空…详细

人工智能视觉语言模型AI游戏测试

2025-06-01 11:15:55
Alita:极简设计打造无限创造力的通用AI助手

Alita是一种新型通用AI代理系统,采用极简设计理念,以"最小预定义,最大自我进化"为原则构建。由普林斯顿大学等多家机构研究团队开发的Alita,只配备一个核心能力和少量通用模块,能自主创建所需工具并重用为模型上…详细

人工智能通用代理大语言模型

2025-06-01 11:15:23
BiomedSQL:一个突破性文本转SQL框架,让生物医学研究者更轻松查询知识库

BiomedSQL是由NIH和DataTecnica团队开发的首个生物医学文本转SQL基准,专门评估大型语言模型在生物医学知识库查询中的科学推理能力。这项创新研究构建了一个包含68,000个问题-SQL-答案三元组的数据集,基于整合了基因…详细

自然语言处理大型语言模型生物医学数据库

2025-06-01 11:15:07
打破极限:清华与阿里联合研究团队用多智能体协作突破大语言模型外部知识输入的窗口限制

清华大学与阿里巴巴通义实验室合作研发了EXTAGENTS,一个创新的多智能体框架,解决了大语言模型处理超大规模外部知识的限制问题。该研究通过全局知识同步和知识累积推理两大创新组件,使模型能够有效整合远超其上下文…详细

人工智能多智能体系统大语言模型扩展

2025-06-01 08:09:36
Ankh3: 蛋白质语言模型的多任务预训练革命,让蛋白质"说话"更有深度

这项研究介绍了Ankh3,一种创新的蛋白质语言模型,通过多任务预训练策略显著提升了模型性能。研究者采用两种互补任务:多掩码概率的掩码语言建模和蛋白质序列补全,使模型仅从蛋白质序列就能学到更丰富的表示。实验表…详细

蛋白质语言模型多任务预训练生物信息学

2025-06-01 08:08:16
脑部核磁共振正片加强!波尔多大学研发通过强化学习驱动大语言模型的神经退行性痴呆症可解释诊断框架

法国波尔多大学研究团队开发了一个突破性框架,用于神经退行性痴呆症的差异化诊断。该框架将3D脑部MRI转换为文本报告,并利用强化学习优化的大语言模型进行详细诊断推理。不同于传统"黑箱"方法,这一系统能生成透明、…详细

人工智能神经影像学神经退行性疾病

2025-06-01 08:06:28
揭秘事实核查的不确定性:哥本哈根大学研究团队如何让AI解释证据冲突

这项研究提出了CLUE框架,首次能够生成自然语言解释来揭示AI事实核查系统不确定性的来源。与现有方法不同,CLUE能识别文本片段间的冲突与一致关系,并解释它们如何影响模型的预测不确定性。实验表明,CLUE生成的解释…详细

人工智能自然语言处理可解释AI

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章