科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-05-27 17:59:58
惊人发现!伊利诺伊大学揭示最简单的方法让AI变得更聪明:减少不确定性胜过复杂训练

这项研究揭示了熵最小化作为单独目标可显著提升大型语言模型在数学、物理和编程任务上的推理能力,无需任何标记数据。伊利诺伊大学厄巴纳-香槟分校的研究团队提出三种方法:无监督微调(EM-FT)、基于熵奖励的强化学习…详细

人工智能大型语言模型熵最小化

2025-05-27 17:50:23
大联大连续荣登2025年度中国品牌价值500强,品牌影响力再攀新高

大联大成功跻身英国品牌评估机构Brand Finance 5月9日发布的“2025中国品牌价值500强”榜单并位列第218位。…详细

2025-05-27 17:18:25
原来AI也会内耗啊,新加坡国立大学提出Thinkless解决AI过度思考问题

2025年5月19日,新加坡国立大学研究团队发表最新研究Thinkless,就像是给"内耗"的AI朋友配了一个心理咨询师,教会它什么时候该深度思考,什么时候可以快速回答。…详细

2025-05-27 17:12:51
BLEUBERI:当BLEU不再只是一个简单指标,而成为指导大语言模型的强力工具

这篇文章介绍了马里兰大学研究团队开发的BLEUBERI方法,该方法惊人地发现被认为过于简单的BLEU评分系统在指导大语言模型遵循指令方面非常有效。研究表明,当使用高质量参考答案时,BLEU与人类偏好的一致率可达74.2%,…详细

人工智能自然语言处理模型对齐技术

2025-05-27 17:11:24
VerifyBench:为大语言模型的基于参考的奖励系统搭建基准测试

VerifyBench是首个专门评估大语言模型基于参考的奖励系统的基准测试,填补了现有奖励评估基准的关键空白。由浙江大学、美团等机构联合开发,包含VerifyBench和更具挑战性的VerifyBench-Hard两个数据集。研究发现虽然…详细

大语言模型参考式奖励系统推理能力评估

2025-05-27 17:10:22
BANDITSPEC:用赌博机算法提升AI模型推理速度的创新突破

BANDITSPEC是一项创新研究,将多臂赌博机算法应用于大型语言模型的推测解码过程,实现了无需训练的自适应超参数选择。研究团队通过理论分析和实验证明,该方法能在各种基准测试中显著提升模型推理速度,比现有方法快…详细

人工智能推测解码多臂赌博机

2025-05-27 17:08:43
这次与众不同:Datadog公司如何打造出一款专注于可观测性数据的时间序列基础模型

这篇博客解析了Datadog公司开发的TOTO模型,一款拥有1.51亿参数的时间序列预测基础模型,专为可观测性数据设计。研究团队同时推出了BOOM基准数据集,包含3.5亿个观测值和2,807个真实时间序列。TOTO创新性地结合了因果…详细

可观测性时间序列预测基础模型

2025-05-27 17:08:04
声入虎穴:MBZUAI研究团队揭示大型音频语言模型的安全漏洞与对抗攻击实验

这项由Mohamed bin Zayed人工智能大学研究团队主导的研究首次建立了针对大型音频语言模型的安全性测试基准。研究发现,当前主流音频语言模型在面对特定音频扰动时,即使是微小的声学变化也能显著降低其安全防护能力,…详细

人工智能安全音频语言模型对抗攻击

2025-05-27 17:07:25
小说竞技场:当AI作家与网文达人同台竞技 - WebNovelBench将大模型小说家放在网文分布图上

WebNovelBench研究为评估AI的长篇故事创作能力提供了突破性方法,利用4000多部中国网络小说建立基准,将AI小说家与人类作品进行直接比较。研究者设计了"摘要转小说"任务,通过八个叙事维度进行评估,发现顶级AI模型如…详细

人工智能小说生成故事评估

2025-05-27 17:04:00
MultiHal:基于知识图谱的多语言LLM幻觉评估数据集——为大模型事实性保驾护航

这项研究提出了MultiHal,一个基于知识图谱的多语言数据集,用于评估大型语言模型的幻觉问题。研究团队从开放域知识图谱中挖掘了14万条路径,筛选出2.59万条高质量数据,并翻译成5种语言。基线实验表明,使用知识图谱…详细

知识图谱多语言评估LLM幻觉

2025-05-27 17:00:27
HumaniBench:一个从人性角度评估大型多模态模型的全新框架——Vector研究院和中佛罗里达大学联合打造的人机协作评测体系

HumaniBench是由Vector研究院和中佛罗里达大学联合开发的首个以人为中心的大型多模态模型评测框架,包含约3.2万对真实世界图像-问题对。与传统仅关注准确率的评测不同,它从公平性、伦理性、理解能力、推理能力、语言…详细

人工智能多模态模型人机协作

2025-05-27 16:58:58
思考到什么时候为好?美团AI研究团队提出自适应思考模式切换方法,让大型推理模型更高效

这篇论文介绍了美团研究团队开发的"自适应自恢复推理"(ASRR)框架,解决了大型推理模型在简单问题上过度思考的效率问题。研究发现模型具有"内部自恢复机制",能在生成答案时隐式补充推理。ASRR通过无思考模式抑制不…详细

人工智能大型推理模型自适应推理

2025-05-27 16:18:12
联想问天数据网络产品线再添三款力作 以创新技术破解智算网络难题

联想最新发布三款联想问天系列数据网络新品。…详细

2025-05-27 16:16:43
解锁思维多样性:马里兰大学研究团队提出"混合思维"框架助力LLM更有效进行逻辑推理

马里兰大学和耶鲁大学研究团队提出"混合思维"(Mixture-of-Thought)框架,使大语言模型能够像人类一样通过自然语言、代码和真值表三种互补思维方式进行逻辑推理。这种创新方法在FOLIO和ProofWriter基准测试上比单一思…详细

逻辑推理混合思维框架大语言模型

2025-05-27 15:32:45
MIT和IBM联手创新:TANGO框架通过互促进方式强化大语言模型的推理能力

麻省理工学院与IBM研究团队共同开发的TANGO框架通过强化学习同时训练大语言模型的生成器和验证器,实现双向互促进的能力提升。不同于传统方法使用固定验证器,TANGO的验证器随生成器共同演进,提供精确的步骤级反馈。…详细

人工智能强化学习大语言模型

2025-05-27 15:31:49
预提示工程:为强化微调注入不同行为模式的全新方法

这项研究探索了预提示工程(pPE)在强化微调(RFT)中的作用,证明不同类型的预提示可以引导语言模型习得不同行为模式。研究者将五种推理时提示策略转化为训练时预提示,发现所有pPE训练的模型都优于仅用推理时提示的…详细

人工智能强化微调语言模型训练

2025-05-27 15:31:00
破解大模型量化训练之谜:香港大学与字节跳动的量化缩放定律研究

这项研究首次提出了一个统一的量化感知训练(QAT)缩放定律,通过268组实验揭示了模型大小、训练数据量和量化粒度对4位量化误差的影响规律。研究发现量化误差随模型增大而减少,随训练数据增加和量化粒度变粗而增加。通…详细

人工智能量化训练大语言模型

2025-05-27 15:30:12
仅需312个电脑操作轨迹,GAIR团队打造超高效电脑操作AI助手:数据质量胜过数据量

上海交通大学与GAIR实验室研究团队开发了PC Agent-E,一种高效的计算机操作AI代理训练框架。通过仅使用312个人类操作轨迹并利用Claude 3.7 Sonnet进行数据增强,该模型在WindowsAgentArena-V2基准测试上取得了36.0%的…详细

人工智能计算机代理数据效率

2025-05-27 15:08:49
智算“破壁者”:华为穿越AI生态周期的两张“底牌”

在算力“狂飙突进”的表象之下,华为正试图用“鲲鹏”与“昇腾”两张“底牌”,给出新的解题思路。…详细

华为鲲鹏昇腾AI通用计算

2025-05-27 14:38:58
对比扩散与自回归语言模型:从文本嵌入角度的深度分析

这项研究比较了扩散与自回归语言模型在文本嵌入领域的表现差异。研究团队提出,自回归语言模型由于单向注意力机制而难以捕捉全局语境,而扩散语言模型的双向注意力架构天然更适合文本嵌入任务。他们开发的DIFFEMBED模…详细

人工智能自然语言处理扩散语言模型

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章