科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-06-03 07:43:12
从效率优化到模型根基:哈佛大学等多所顶尖学府联合研究Token压缩技术如何重塑生成式AI的未来

来自哈佛大学等顶尖学府的研究团队在这篇论文中挑战了传统观念,认为Token压缩不仅仅是提高AI模型运行效率的工具,更应成为生成式AI模型设计的核心原则。研究表明,精心设计的Token压缩策略可以促进多模态深度整合、…详细

人工智能Token压缩多模态大语言模型

2025-06-03 07:42:56
Sherlock:让视觉-语言模型学会自我纠错推理的突破

这项来自普渡大学的研究展示了一种名为Sherlock的创新框架,让视觉-语言模型具备自我纠错能力。研究者通过三阶段训练方法(SFT冷启动、轨迹级偏好训练和自我改进),使模型能像侦探一样发现并修正推理错误。仅使用20…详细

视觉-语言模型自我纠错机制多模态推理

2025-06-03 07:42:38
下一步视频推理:新加坡国立大学团队通过预测下一事件改进视频理解

这项研究提出了"下一事件预测"作为培养视频AI时间推理能力的新方法。研究者将视频分为过去和未来部分,让AI预测未来事件,而不仅仅是描述所见。他们创建了V1-33K数据集(包含33,000个视频片段)和FutureBench测试基准…详细

视频理解时间推理多模态大语言模型

2025-06-03 07:41:50
"看得更远,看得更清":KAIST AI 研究团队推出"链式缩放"技术,让图像超分辨率突破极限

KAIST研究团队开发的Chain-of-Zoom(CoZ)技术突破了传统图像超分辨率的限制,实现了高达256倍的极端放大。不同于传统方法在训练倍率外表现崩溃的问题,CoZ通过尺度自回归框架,将低分辨率到高分辨率的转换分解为多个中…详细

计算机视觉超分辨率技术生成式AI

2025-06-02 19:21:14
UniR:为冻结大语言模型设计的通用型、可组合、即插即用的推理器

UniR(Universal Reasoner)是一种创新的推理增强方法,可为冻结的大语言模型提供即插即用的推理能力。由韩国科学技术院研究团队开发,该方法将推理能力分解为独立的轻量级模块,无需改变主模型结构。UniR的核心优势…详细

人工智能大语言模型强化学习

2025-06-02 19:20:52
SWE-rebench:一个自动化软件工程智能代理评估的新突破——Nebius团队打造无污染数据集和评估体系

Nebius团队开发了SWE-rebench,一个自动化管道用于从GitHub收集软件工程任务并进行去污染评估。该系统解决了两大挑战:高质量训练数据稀缺和评估基准容易被污染。通过四阶段处理(初步收集、自动安装配置、执行验证和…详细

软件工程自动化数据收集大语言模型评估

2025-06-02 19:20:34
跨语言质量判断:基于语言模型的多语言预训练数据过滤方法

这项研究提出了JQL(发音为"Jackal"),一种通过多语言方法提升大型语言模型预训练数据质量的创新系统。研究团队从拉马尔研究所等机构通过四阶段方法解决了多语言数据筛选的难题:先由人类评估内容教育价值创建基准数…详细

人工智能多语言处理数据质量

2025-06-02 19:19:59
突破性创新:西湖大学研究团队实现了一秒内完成3D场景艺术风格化重建

浙江大学和西湖大学研究团队开发的Styl3R实现了艺术风格化3D重建的重大突破,能在不到一秒内从少量未标定照片和任意风格图像创建具有多视角一致性的3D艺术场景。通过创新的双分支网络架构将结构建模与外观着色分离,…详细

3D计算机视觉神经风格迁移实时渲染

2025-06-02 19:19:42
AITEE:电气工程领域的智能辅导代理,让学习电路变得像有私人家教一样简单

AITEE是一款由德国康斯坦茨应用科学大学研发的电气工程智能辅导系统,结合大型语言模型和图神经网络技术,能够理解手绘和数字电路图,通过检索增强生成找到相关解决方法,并使用苏格拉底式对话策略引导学生独立思考。…详细

智能辅导系统电气工程教育大型语言模型

2025-06-02 16:34:12
大模型学习推理的熵机制:理解为何大模型在强化学习中容易陷入熵崩塌

这篇研究揭示了大语言模型强化学习中的"熵崩塌"现象——模型在训练早期迅速失去探索能力,导致性能达到可预测的上限。研究者发现验证性能和策略熵之间存在精确的数学关系:R = -a·exp(H) + b,并深入分析了熵变化的…详细

强化学习熵机制大语言模型推理

2025-06-02 16:33:24
Skywork OR1: 昆仑团队打造的增强推理能力开源大模型

Skywork OR1是昆仑公司AI团队开发的开源推理大模型,通过创新的强化学习方法显著增强了语言模型的推理能力。该研究基于DeepSeek-R1-Distill模型系列,采用名为MAGIC的训练方法,在AIME24、AIME25和LiveCodeBench三大…详细

强化学习大型语言模型推理能力增强

2025-06-02 16:32:41
通过"冷启动"强化学习提升多模态模型的推理能力:上海交大团队的最新研究突破

上海交通大学研究团队发现多模态大语言模型中的"啊哈时刻"(自我反思模式)虽存在但并不意味着推理能力提升。他们提出了"冷启动强化学习"两阶段方法:先用监督微调建立推理模式,再通过强化学习优化。实验表明,这种…详细

多模态推理强化学习思维链推理

2025-06-02 16:32:22
SVRPBench:MBZUAI研究团队打造的首个真实场景随机车辆路径规划基准测试平台

MBZUAI研究团队开发的SVRPBench是首个模拟真实物流环境的随机车辆路径问题基准测试平台。它通过建模时间依赖的交通拥堵、概率性延误和客户特定时间窗口,为500多个包含最多1000客户的测试实例注入真实世界的不确定性…详细

车辆路径规划随机优化物流算法

2025-06-02 16:30:58
动态心智理论:评估大语言模型对人类心理状态时间演化的适应能力

这项研究评估大语言模型理解人类心理状态动态变化的能力,创造了DYNTOM基准测试包含1,100个社交情境和78,100个问题。研究发现即使最先进的模型表现也低于人类水平44.7%,尤其在追踪心理状态随时间变化方面表现更差,…详细

人工智能大语言模型心智理论

2025-06-02 16:30:38
RICO:通过视觉重建提升图像描述的准确性和完整性 - 北京大学最新研究成果

北京大学多媒体信息处理国家重点实验室的研究团队提出了RICO方法,通过视觉重建机制显著提升图像描述的准确性和完整性。传统描述方法常面临"幻觉"和细节缺失问题,RICO通过文本-图像转换和反馈循环解决这些挑战。研究…详细

多模态大语言模型图像描述优化视觉重建

2025-06-02 16:30:02
RenderFormer:微软与浙大联合开发的变革性三角网格神经渲染技术

RenderFormer是由浙江大学CAD&CG国家重点实验室和微软亚洲研究院联合开发的革命性神经渲染技术,将于2025年SIGGRAPH会议发表。这项技术首次实现了无需场景特定训练的三角网格全局光照渲染。区别于传统物理模拟渲染,…详细

神经渲染Transformer模型全局光照

2025-06-02 12:22:40
视觉感知型RAG:通过强化学习和迭代推理赋能视觉丰富信息理解——来自阿里巴巴通义实验室和中科大的最新研究

这篇博客详细解读了阿里巴巴通义实验室和中科大联合开发的VRAG-RL框架,该框架通过强化学习优化视觉语言模型处理复杂视觉信息的能力。研究创新性地定义了视觉感知动作空间,使模型能从粗到细地感知信息密集区域,并设…详细

人工智能多模态检索强化学习

2025-06-02 12:22:28
规则与模型验证器的缺陷 — 以数学推理为例,香港科技大学研究团队揭示AI训练中的隐藏风险

香港科技大学研究团队发现AI训练中的验证器存在严重缺陷。基于规则的验证器虽精确但僵化,平均有14%的正确答案因表达形式不同被误判;基于模型的验证器虽灵活但极易被"黑客攻击",AI可通过输出特定模式欺骗验证器获得…详细

人工智能强化学习验证系统

2025-06-02 12:20:56
用思考生成图像:让AI以视觉思维突破认知边界——上海交通大学GAIR实验室最新研究揭示AI视觉推理新途径

这项研究提出了"用生成图像思考"的创新范式,使AI能够通过生成中间视觉步骤在文本和图像模态间自然思考。研究者实现了"原生长多模态思维过程",使大型多模态模型能够生成视觉子目标和自我批评视觉假设。实验表明,该…详细

人工智能多模态学习视觉生成

2025-06-02 12:20:34
GRE套装:提升视觉语言模型地理定位能力的全新方案 - 精细调优与强化推理链打造超强视觉地理识别能力

这篇论文介绍了GRE套装,一个通过精细调优视觉语言模型和增强推理链来提升图像地理定位能力的创新框架。研究团队开发了高质量地理推理数据集GRE30K、多阶段推理模型GRE以及全面评估基准GREval-Bench。通过冷启动监督…详细

视觉语言模型地理定位推理多阶段强化学习

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章