科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-06-07 08:28:47
CSVQA:中国团队打造超全面科学测评基准,挑战视觉语言模型的STEM推理能力

这篇研究介绍了CSVQA,一个专为评估视觉语言模型在STEM领域推理能力的中文多模态基准测试。该数据集包含1,378道涵盖物理、化学、生物和数学的问题,每题都要求模型分析科学图表并进行专业推理。实验评估了15种VLM,结…详细

人工智能多模态评测科学推理

2025-06-07 08:28:28
OmniSpatial:清华、北大等团队联手打造全面评估视觉语言模型空间推理能力的综合基准

OmniSpatial是由清华、北大等多所顶尖高校联合开发的首个全面评估视觉语言模型空间推理能力的基准测试。研究团队将空间推理分为动态推理、复杂空间逻辑、空间交互和视角转换四大维度,涵盖50个细分任务类别,构建了1…详细

视觉语言模型空间推理认知心理学

2025-06-07 08:28:09
ReFoCUS:KAIST研究团队开创视频理解新方法,让AI更懂你想问什么

这篇来自韩国科学技术院(KAIST)的研究介绍了ReFoCUS,一种创新的视频理解方法。不同于传统视频AI模型使用固定的帧采样策略,ReFoCUS通过强化学习教会模型选择最相关的视频帧来回答特定问题。研究团队巧妙地将策略优…详细

视频理解强化学习多模态大语言模型

2025-06-06 18:16:33
每一步都算数!“乡约青村-同兴同行”公益捐步活动芒种出发

6月5日,正值芒种节气,由中央广播电视总台央视财经和腾讯SSV共同发起的“乡约青村-同兴同行”公益捐步活动在北京金融街广场启动。…详细

2025-06-06 17:31:51
ORV:4D占用中心机器人视频生成——北京人工智能研究院打造精准可控的机器人世界

这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多…详细

人工智能占用表示机器人视频生成

2025-06-06 17:31:30
自我反思助力AI成长:Writer团队提出强化学习优化模型自我纠错能力的突破性研究

这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和…详细

人工智能强化学习大型语言模型

2025-06-06 17:31:11
FuseLIP:通过早期融合离散标记实现多模态嵌入的突破性研究

FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合…详细

多模态嵌入早期融合视觉语言模型

2025-06-06 17:30:50
解锁多语言多条件查询的新纪元:ByteDance多语言语义检索系统MERIT

ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此…详细

多语言检索多模态大语言模型语义搜索

2025-06-06 17:30:35
思考前知道:大语言模型在推理链尚未完成前就能预测是否成功

这项研究探索了大语言模型在思维链推理过程中的一个惊人能力:在完成推理甚至生成第一个词前,模型的内部表示已包含预测任务成功与否的信息。研究者通过探测分类器分析模型内部状态,发现其准确率显著高于仅基于文本…详细

大语言模型内部表示分析思维链推理

2025-06-06 17:30:17
大模型如何"思考"?杜克大学研究揭秘回溯思考对LLM推理能力的影响

这篇研究探索了大型语言模型(LLM)中回溯思考对推理能力的影响,以及监督微调(SFT)与强化学习(RL)的相互作用。杜克大学的研究团队发现,任务难度与最优回溯次数成正比:简单任务(如Arc 1D)适合零回溯,中等难…详细

人工智能推理能力大型语言模型

2025-06-06 17:29:54
UniWorld:北大袁路团队打造的高分辨率语义编码器,统一视觉理解与生成

北京大学深圳研究生院袁路团队提出UniWorld模型,使用高分辨率语义编码器替代传统VAE,实现了图像理解和操作的统一。通过仅2.7M样本训练,UniWorld在图像编辑、文本生成图像和视觉理解方面均超越或接近使用2665M样本…详细

图像生成模型语义编码器统一视觉理解

2025-06-06 17:29:36
VS-BENCH: 一项评估视觉语言模型在多智能体环境中战略推理和决策能力的全新基准测试

VS-BENCH是清华大学和中国科技大学研究团队开发的首个多模态基准测试,专门评估视觉语言模型在多智能体环境中的战略推理和决策能力。研究涵盖八个视觉基础环境,包括合作型、竞争型和混合动机游戏,从战略推理和决策…详细

视觉语言模型多智能体系统战略推理

2025-06-06 17:29:14
视觉赋能大脑:让多模态大语言模型在真实空间中看见、思考与控制

这项由上海人工智能实验室等机构联合发布的研究提出了VeBrain框架,成功解决了多模态大语言模型在现实世界应用中的关键挑战。VeBrain通过将机器人控制重新定义为2D视觉空间中的文本任务,统一了多模态理解、视觉空间…详细

人工智能视觉空间推理多模态大语言模型

2025-06-06 17:28:14
SynthRL:新加坡国立大学团队如何通过可验证数据合成提升视觉推理能力

新加坡国立大学研究团队开发的SynthRL是一种创新的数据合成管道,旨在提升视觉语言模型的推理能力。该方法通过三阶段流程自动生成更具挑战性的训练数据:首先基于难度选择模型已掌握的简单问题,然后生成保留原始答案…详细

视觉语言模型数据合成可验证强化学习

2025-06-06 17:27:57
FlowMo:一种无需额外训练即可增强视频生成运动连贯性的突破性方法

特拉维夫大学研究团队开发了FlowMo,一种无需重训练即可提升AI视频生成连贯性的创新方法。该技术通过分析模型内部潜在表示中的时序方差,找出并修正运动不自然的区域,有效解决了视频中物体突然变形、消失或出现额外…详细

人工智能视频生成运动连贯性

2025-06-06 17:27:40
RelationAdapter:用扩散变换器学习和传递视觉关系

这项由浙江大学和新加坡国立大学合作开发的RelationAdapter研究提出了一种新型轻量级模块,使扩散变换器(DiT)模型能从视觉示例对中学习并应用视觉转换关系。研究团队创建了包含218种多样编辑任务的Relation252K数据集…详细

视觉关系学习扩散变换器图像编辑

2025-06-06 17:27:28
数据表单不够用:DATARUBRICS来了!自动化数据集质量评估与问责框架

这篇研究介绍了DATARUBRICS,一个专为评估机器学习数据集质量而设计的创新框架。研究团队发现现有的数据表单工具缺乏可量化的质量评估标准,因此开发了基于十个关键维度(包括数据来源、标注方法、质量保证等)的结构…详细

人工智能数据质量评估大语言模型

2025-06-06 17:27:14
AnimeShooter:香港大学与腾讯ARC实验室联合开发的多镜头动画数据集,为参考引导式视频生成开辟新天地

香港大学与腾讯ARC实验室联合推出的AnimeShooter数据集,解决了AI动画生成面临的角色一致性和多镜头连贯性问题。该数据集提供层次化注释和准确角色参考图像,配套的AnimeShooterGen模型能自回归生成连贯多镜头动画。…详细

人工智能计算机视觉动画生成

2025-06-06 17:26:26
从零开始构建开源推理模型:解决大语言模型推理能力冷启动的关键数据集

这项研究解决了开源推理大模型领域的关键挑战:如何从零开始构建高质量的长思维链数据集,以解决大语言模型在强化学习中的冷启动问题。研究团队开发了一个创新管道,使普通大语言模型能够产生长思维链推理,方法是先…详细

人工智能推理大模型长思维链数据集

2025-06-06 17:25:16
加速扩散大语言模型:UCLA研究团队提出自适应并行解码新方法

UCLA计算机科学系研究团队提出的"自适应并行解码"(APD)方法,成功解决了扩散大语言模型面临的速度与质量权衡难题。该方法通过动态调整并行生成的词数,结合一个小型辅助自回归模型来评估生成质量,并引入KV缓存和掩码…详细

人工智能语言模型扩散模型

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章