科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-05-31 11:45:46
热带几何遇上人工智能:用"热带注意力"机制解决组合算法问题的突破性研究

这项研究介绍了一种名为"热带注意力"的新型注意力机制,专为解决神经网络在组合算法推理中的困境而设计。传统注意力机制使用softmax函数产生平滑的概率分布,无法精确捕捉组合算法所需的锐利决策边界。…详细

人工智能热带几何神经算法推理

2025-05-31 11:45:08
RAG系统真的受位置偏见影响吗?—来自罗马大学和技术创新研究所的最新研究揭示

这项研究揭示了RAG系统中位置偏见的真实影响——虽然在受控环境中明显存在,但在实际应用中却微不足道。研究人员发现,先进的检索系统不仅会找出相关内容,还会将具有干扰性的段落排在前列,超过60%的查询中至少包含…详细

人工智能检索增强生成位置偏见

2025-05-31 11:41:26
让视频大模型更聪明:哈工大团队开发的VerIPO让模型推理更深更长

哈工大(深圳)团队提出VerIPO方法,通过验证器引导的迭代策略优化提升视频大语言模型的长推理能力。该方法创新性地在GRPO和DPO训练阶段之间引入验证器,筛选高质量推理样本,有效解决了传统强化学习方法在推理链质量…详细

视频大模型验证器引导优化长推理能力

2025-05-31 11:41:05
GraLoRA:解决大型语言模型微调瓶颈的突破性方法 — SqueezeBits和POSTECH联合研究

SqueezeBits和POSTECH联合研究团队提出了GraLoRA,一种改进的参数高效微调方法,解决了传统LoRA在高秩设置下的表现瓶颈。通过将权重矩阵分解成多个独立的子块,每块配备自己的低秩适配器,GraLoRA有效增加了表达能力…详细

人工智能低秩适应参数高效微调

2025-05-31 11:40:42
rStar-Coder:微软亚洲研究院打造大规模验证数据集,小模型也能实现卓越代码推理能力

微软亚洲研究院研究团队开发的rStar-Coder通过构建大规模验证数据集,显著提升了语言模型的代码推理能力。该数据集包含418K个竞赛级代码问题和580K个长推理解决方案,每个都经过多样化测试案例验证。关键创新在于三步…详细

代码推理大规模数据集小模型优化

2025-05-31 10:06:36
解锁多模态推理力量:华中科技大学推出MMMR基准,全面评测模型思考能力

华中科技大学与利哈伊大学研究团队开发的MMMR基准是首个专门评估多模态大语言模型推理思考过程的综合工具。通过1,083个跨六大领域的高难度推理任务和创新的推理过程评估管道,研究发现即使最先进的模型在推理任务上也…详细

人工智能多模态推理思维评估

2025-05-31 10:06:16
UI-Genie: 一种自我改进的方法,通过迭代提升基于多模态大语言模型的移动端GUI智能体

UI-Genie是一个创新的自我改进框架,解决了GUI智能体面临的两大挑战:轨迹验证困难和高质量训练数据缺乏。研究团队开发了专用奖励模型UI-Genie-RM,采用图像-文本交错架构有效处理历史上下文,并统一了步骤级和任务级…详细

多模态大语言模型智能体系统人机交互

2025-05-31 10:05:58
主动感知:浙江大学团队ACTIVE-O3让多模态大语言模型"学会看哪里"

浙江大学和蚂蚁集团的研究团队开发了ACTIVE-O3,一种创新框架,赋予多模态大语言模型"主动感知"能力,使AI能够智能地决定"看哪里"和"怎么看"。基于群体相对策略优化(GRPO)构建,该系统采用两阶段策略,先选择关注区域…详细

多模态大语言模型主动感知强化学习

2025-05-31 10:05:02
ImgEdit:北京大学与兔小贝AI联合推出的统一图像编辑数据集与基准测试

ImgEdit是北京大学与兔小贝AI联合推出的图像编辑框架,解决了开源编辑模型落后于商业产品的问题。该框架包含120万对高质量编辑图像对,涵盖13种编辑类型和11万个多轮交互样本。通过融合视觉语言模型、检测模型和分割…详细

图像编辑人工智能视觉多轮交互式编辑

2025-05-31 08:25:18
语言神经元视角:对齐方式如何增强大语言模型的多语言能力?

这项研究探索了语言神经元视角下多语言对齐如何增强大语言模型(LLMs)的多语言能力。研究团队提出了一种更精细的神经元识别算法,将激活神经元分为语言特定、语言相关和语言无关三类,克服了现有方法的局限性。基于这…详细

多语言对齐语言神经元大语言模型

2025-05-31 08:24:41
框里框外:突破边界的可控性图像到视频生成技术 - 弗吉尼亚大学与Adobe研究院联合推出

这项由弗吉尼亚大学与Adobe研究院合作的研究突破了传统图像到视频生成的空间限制,提出了"Frame In-N-Out"技术,使物体可以自然地离开画面或新物体能够进入画面。研究团队创建了专门的数据集和评估方法,并设计了一种…详细

人工智能视频生成扩散模型

2025-05-31 08:23:42
视角转换:浙江大学研究团队开发ViewSpatial-Bench,全面评估视觉语言模型的多视角空间定位能力

浙江大学研究团队开发了首个评估视觉语言模型多视角空间定位能力的综合基准ViewSpatial-Bench,并揭示了现有模型在视角转换理解上的严重缺陷。通过自动化3D标注流水线构建的大规模数据集,他们训练出的多视角空间模型…详细

视觉语言模型空间认知多视角理解

2025-05-31 08:23:21
DetailFlow:让AI图像生成既细致又高效 - 字节跳动(ByteDance)团队的革命性突破

ByteDance团队提出的DetailFlow是一种创新的图像生成方法,通过"下一细节预测"策略实现从粗到细的自回归生成。它将图像编码为仅需128个令牌的1D序列,比传统方法少5倍,却实现了更高质量(2.96 gFID)和更快速度(提…详细

人工智能自回归图像生成计算机视觉

2025-05-31 08:22:12
HoliTom:西湖大学团队提出全息式令牌合并技术,让视频大语言模型推理速度提升14倍

这项来自西湖大学的研究提出HoliTom,一种创新的令牌合并技术,能将视频大语言模型的计算成本降低到原始的6.9%,同时保持99.1%的性能。该方法通过全局冗余感知的时间合并、智能空间合并和内部LLM合并三重策略,全面减…详细

人工智能视频大语言模型令牌合并技术

2025-05-30 17:26:08
双重并行:让AI视频生成突破时长限制,新加坡国立大学团队实现分钟级长视频创作

这项研究由新加坡国立大学团队开发的DualParal技术,通过创新的双重并行架构解决了AI视频生成的长度限制问题。该方法同时在时间帧和模型层两个维度实现并行处理,配合分块降噪机制、特征缓存和协调噪声初始化策略,使…详细

视频生成技术分布式计算扩散模型

2025-05-30 17:25:53
SoloSpeech:通过级联生成式管道提升目标语音提取的清晰度和质量

SoloSpeech是约翰霍普金斯大学研究团队开发的创新语音处理技术,针对"鸡尾酒会效应"问题提出了全新解决方案。该系统通过级联生成式管道整合压缩、提取、重建和校正过程,实现了高质量目标语音提取。与传统判别式模型…详细

人工智能语音处理生成式模型

2025-05-30 17:25:27
Sci-Fi:对称约束让视频过渡更自然 - 北京大学等机构研究突破

这项由北京大学深圳研究生院、伟湾大学、腾讯ARC实验室和兔小贝智能联合研究的Sci-Fi框架,通过创新的对称约束机制,解决了视频帧间插值中的关键问题。研究团队设计了轻量级EF-Net模块,增强结束帧约束力,使其与起始…详细

计算机视觉视频生成对称约束

2025-05-30 17:24:58
超越马尔可夫:贝叶斯自适应强化学习让大语言模型反思性探索更高效

这项来自西北大学和谷歌的研究突破了传统马尔可夫强化学习的局限,通过贝叶斯自适应RL框架解释了大语言模型中涌现的反思性推理行为。研究团队提出的BARL算法通过维护多个解题策略的后验分布,指导模型何时何地进行反…详细

人工智能强化学习大语言模型推理

2025-05-30 17:16:55
打造“全球一朵云”,广汽迈入出海3.0时代

从贸易出海转向海外运营,广汽向全球化迈出重要一步。…详细

阿里云汽车大模型

2025-05-30 17:05:28
央视点赞的“网红”村长张桂芳:新能源点亮新乡村

“卫生室翻新了,设备也增加了不少,屋顶的光伏每年还能给村集体带来稳定收益,有了这钱村里的老年食堂有着落喽!”河南鹤壁三家村,“95后”村长张桂芳望着焕然一新的村卫生室,眼里闪着光。…详细

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章