科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-06-09 09:41:19
分段优化:让大语言模型通过段级信用分配更高效地学习推理能力

这篇研究论文《段级策略优化》提出了一种介于词元级和轨迹级之间的新型强化学习框架SPO,用于提升大语言模型的推理能力。研究者将生成序列划分为连续段落,并在段级粒度上估计优势,实现了更精确的信用分配和更准确的…详细

大语言模型强化学习信用分配

2025-06-09 09:40:38
小语言模型将成为AI智能代理的未来:NVIDIA研究团队揭示更高效的AI架构

NVIDIA研究团队在最新研究中指出,小语言模型(SLM)将成为AI智能代理的未来。他们论证了SLM不仅足够强大,还在操作上更适合且经济性更高。研究显示现代SLM已可媲美更大模型的性能,同时推理成本降低10-30倍,微调更快…详细

人工智能小语言模型智能代理系统

2025-06-09 07:30:21
RiOSWorld:突破性评测揭示多模态电脑使用代理的安全风险隐患

RiOSWorld是一项开创性研究,评估多模态计算机使用代理在真实环境中的安全风险。由上海人工智能实验室团队开发的这个基准测试包含492个风险任务,涵盖网页浏览、社交媒体、操作系统等多种应用场景。研究将风险分为环…详细

人工智能安全多模态代理评测计算机使用风险

2025-06-09 07:26:55
IllumiCraft:牛津大学联合研究团队打造融合几何与光照的视频生成新技术,让视频重光照变得触手可及

牛津大学林元泽及其国际合作团队开发的IllumiCraft是一种创新的视频重光照技术,它首次将几何和光照引导统一到一个扩散模型中。通过同时处理HDR环境图、合成重光照帧和3D点轨迹,该技术能生成与用户提示一致的时间连…详细

计算机视觉视频生成光照重建

2025-06-09 07:26:02
人工智能推动高温超导材料研究:中国人民大学物理学院开发HTSC-2025基准数据集,为AI预测超导临界温度铺平道路

中国人民大学物理学院研究团队开发了HTSC-2025,这是一个专为AI预测超导临界温度而设计的常压高温超导体基准数据集。该数据集包含140个样本,涵盖了2023-2025年基于BCS理论预测的超导材料,平均Tc为27.3K,最高达160…详细

人工智能材料科学超导体

2025-06-09 07:25:15
FinChain:金融领域首个可验证的符号化思维链推理基准测试

MBZUAI研究团队开发了FinChain,这是金融领域首个可验证的符号化思维链推理基准测试。该基准涵盖12个金融领域的54个主题,每个主题包含5个不同难度的参数化模板,配有可执行的Python代码验证每一步推理。研究者还提出…详细

金融推理符号化基准测试大型语言模型

2025-06-09 07:24:00
视频技能思维链:用领域自适应的技能链实现视频推理突破

这项研究提出了VIDEO-SKILL-COT(别名VIDEO-SKOT),一种新型视频理解框架,能自动构建和利用技能感知的思维链进行领域自适应视频推理。北卡罗来纳大学教堂山分校的研究人员首先从训练问题中提取领域相关推理技能并聚…详细

人工智能视频理解思维链推理

2025-06-09 07:23:01
AmbiK:探索厨房环境中的歧义任务,MIPT和AIRI共同打造智能机器人交流新标准

莫斯科物理技术学院和人工智能研究所共同开发的AmbiK数据集,专门用于评估大型语言模型处理厨房环境中歧义指令的能力。该数据集包含1000对任务,按照偏好类、常识知识类和安全类三种歧义类型分类,每对包含歧义和无歧…详细

人工智能自然语言处理人机交互

2025-06-09 07:22:22
CASS:跨越Nvidia与AMD的代码转译突破——来自MBZUAI的数据、模型与基准测试解决方案

MBZUAI和澳大利亚国立大学的研究团队开发了CASS,这是首个大规模跨架构GPU代码转译系统,实现了Nvidia和AMD之间的源代码和汇编级代码转换。该项目包含7万对验证代码对,展示了源代码转换95%和汇编转换37.5%的准确率,…详细

GPU编程跨架构转译人工智能模型

2025-06-09 07:22:05
MMR-V:视频多模态深度推理的新基准——探究视频中未被言明的内容

MMR-V是一个创新的视频多模态深度推理基准测试集,专注于评估AI模型在视频长距离多帧推理能力。与现有基准不同,它要求模型不仅理解问题帧,还需在远距离帧中挖掘证据进行推理。研究发现即使最先进的模型o4-mini也仅…详细

多模态推理视频理解基准测试

2025-06-08 16:45:18
VisCoder:打造能生成可执行Python可视化代码的大语言模型

这项研究介绍了VisCoder,一个经过专门微调的大语言模型,用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集,结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中,…详细

人工智能数据可视化深度学习

2025-06-08 16:44:56
适应再学习:四川大学团队提出的革新性连续学习框架

这项研究提出了"适应再连续学习"(ACL)框架,一种创新的方法解决预训练模型在连续学习中的稳定性-可塑性困境。通过在学习新任务前先对模型进行适应性调整,ACL使模型既能更好地学习新知识(提高可塑性),又能保留已…详细

连续学习预训练模型适应性调整

2025-06-08 16:44:33
双域稳健性:CLIP模型需要一个稳健的文本编码器

这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题,提出了LEAF方法(Levenshtein高效对抗性微调)来增强文本编码器的稳健性。实验表明,LEAF显著提高了模型在面对文本扰动时的性能,在AG-News数据集上将对抗准…详细

多模态模型对抗鲁棒性文本编码器

2025-06-08 16:44:13
BenchHub:一站式自定义评估大语言模型的统一基准平台 - KAIST和Yonsei大学科研团队让模型评估更智能灵活

BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好…详细

大语言模型评估基准测试平台领域特定模型评估

2025-06-08 16:43:22
双架构设计:破解持续学习中稳定性与可塑性的两难困境

这项由四川大学、浙江大学和清华大学合作完成的研究提出了"双架构"框架,创新性地解决了持续学习中的稳定性-可塑性困境。研究发现深度网络具有更好的可塑性,而宽度网络则更具稳定性,据此设计了两个互补网络:一个专…详细

持续学习神经网络架构知识蒸馏

2025-06-08 16:43:05
拼图游戏的隐藏危机:上海人工智能实验室研究发现视觉语言模型能将分散的图像碎片重组理解

上海人工智能实验室的研究揭示了视觉语言模型具有"视觉拼接"能力,可以整合训练中看到的分散图像碎片。研究者将图像切分成不同粒度的碎片进行测试,发现模型不仅能根据完整图像识别相关信息,还能通过纯文本引用进行…详细

人工智能视觉语言模型AI安全

2025-06-08 09:33:26
主动学习超参数全景调查:来自德累斯顿工业大学的大规模实验网格分析

这项研究由德累斯顿工业大学等机构的研究团队完成,旨在解决主动学习未被广泛应用的问题。研究者构建了包含460万种超参数组合的实验网格,系统分析了各参数对主动学习性能的影响。研究发现,不同策略实现间存在显著差…详细

主动学习超参数优化实验设计

2025-06-08 09:32:32
长文本语言模型的可控性评估:人造生物故事让评估更全面、更可靠

这项由英国爱丁堡大学和上海人工智能实验室研究者共同完成的工作提出了LongBioBench,一种用于评估长文本语言模型的新型基准测试框架。通过使用人工生成的虚构人物传记作为测试环境,该框架在保持可控性的同时,提供…详细

人工智能长文本处理评估基准

2025-06-08 09:32:16
SuperWriter:使用大型语言模型实现反思驱动的长篇文本生成

SuperWriter是一项来自新加坡科技设计大学和清华大学的突破性研究,通过模仿人类"先思考后写作"的过程,彻底改良了AI长文生成能力。该研究团队开发的框架包含三个关键阶段:规划、写作和修改,使AI能像专业作家一样进…详细

人工智能长文本生成语言模型

2025-06-08 09:31:57
LayerFlow:香港大学和阿里巴巴共同打造的层级视频生成技术,让你轻松创建前景、背景可分离的视频

香港大学与阿里巴巴达摩院合作开发的LayerFlow是一种突破性的层级视频生成技术,能同时生成透明前景、完整背景和混合场景视频。该技术通过创新的框架设计将不同视频层级作为子片段连接,并引入层级嵌入使模型区分各层…详细

人工智能视频生成视觉效果

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章