科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-06-07 16:01:53
像你一样思考:链式推理让计算机更好地理解我们的指令

这项研究由IDEA、华南理工大学和北京大学联合开发的Rex-Thinker系统,通过模仿人类的链式思考方式来解决物体指代问题。与传统直接输出边界框的方法不同,它采用规划-行动-总结的三步骤推理,使AI能像人类一样逐步分析…详细

人工智能链式推理视觉识别

2025-06-07 16:01:23
动态分层剪枝:让大型语言模型"减肥"更聪明

这项研究提出了动态分层剪枝(DLP)方法,通过自动确定大型语言模型中各层的相对重要性来分配不同的剪枝率。与传统均匀剪枝方法相比,DLP在高稀疏度条件下表现优异,在70%稀疏度时可将LLaMA2-7B的困惑度降低7.79并提…详细

大型语言模型模型剪枝参数效率

2025-06-07 16:00:40
跟随流程:神经符号代理助力流程图精细归因

这项研究介绍了一种名为FlowPathAgent的神经符号代理系统,用于解决流程图归因问题。研究团队提出了流程图精细归因这一新任务,构建了FlowExplainBench评估基准,并开发了结合视觉分割、符号图构建和基于代理的图形推…详细

人工智能视觉语言模型流程图理解

2025-06-07 16:00:14
大型语言模型的可信评估新方法:揭秘"捷径神经元"如何影响AI真实能力测评

这项研究首次从神经元层面揭示了大型语言模型(LLM)评估中的"数据污染"机制。研究团队发现当模型在训练中接触过测试数据时,会形成特定的"捷径神经元",使模型无需真正理解问题就能给出正确答案。他们提出了一种新方法…详细

人工智能评估神经元分析数据污染

2025-06-07 15:59:45
安全与可信的智能代理时代:向量研究所发布LLM多智能体系统信任、风险与安全管理全面综述

这份来自向量研究所、康奈尔大学和格罗宁根大学研究团队的综述分析了基于大语言模型的代理型多智能体系统中的信任、风险和安全管理框架(TRiSM)。研究系统地探讨了代理型AI从概念基础到安全挑战,提出了包含治理、可解…详细

人工智能安全多智能体系统治理框架

2025-06-07 15:59:31
通过"置信引导型数据增强"解决知识蒸馏中的协变量偏移问题

这项研究提出了一种名为ConfiG的创新方法,通过生成针对性的数据增强样本来解决知识蒸馏中的协变量偏移问题。研究团队利用教师模型和学生模型之间的预测差异,引导扩散模型生成那些能挑战学生模型的样本,从而减少模…详细

人工智能知识蒸馏扩散模型

2025-06-07 09:55:05
用程序分析反馈训练大型语言模型生成高质量代码:加州大学圣地亚哥分校和微软的突破性研究

这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。…详细

人工智能编程程序分析强化学习

2025-06-07 09:54:04
自我挑战型大语言模型:让AI通过自创问题提升能力

加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成…详细

人工智能大语言模型强化学习

2025-06-07 09:52:35
打破僵硬动作!南洋理工大学团队为人类视频补帧注入3D控制能力

南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的…详细

人工智能视频生成人体建模

2025-06-07 09:51:41
超越上下文学习:通过任务内在属性指导对齐大型语言模型的长文本生成能力

这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约…详细

人工智能大型语言模型自然语言处理

2025-06-07 09:51:20
Ctrl-Crash:可控制的真实车祸场景生成——蒙特利尔理工学院与蒙特利尔人工智能研究所联合研发突破性技术

这项由蒙特利尔理工学院与多家研究机构合作的研究开发出Ctrl-Crash系统,该系统能从单一图像生成逼真的车祸视频。系统通过三种控制信号工作:初始图像、车辆边界框序列和碰撞类型。利用扩散模型技术和创新的无分类器…详细

人工智能视频生成自动驾驶安全

2025-06-07 08:30:07
大脑的双模思考:如何让AI像人类一样灵活切换快慢思维模式

这篇研究提出了OThink-R1,一种创新的大型推理模型,能够像人类一样在快速直觉思维和慢速深度推理之间自动切换。研究者发现,现有推理模型即使面对简单问题也会生成冗长的推理过程,导致计算资源浪费。通过分析推理轨…详细

人工智能大型推理模型自适应推理

2025-06-07 08:29:51
SHARE:一种基于小型语言模型的分层行动修正助手,助力文本到SQL转换

这项研究提出了SHARE,一种新型文本到SQL修正框架,它利用三个小型语言模型(SLM)协同工作,实现高效精准的SQL错误修正。SHARE首先通过基础行动模型将SQL转换为行动轨迹,再经过模式增强模型和逻辑优化模型的层次化…详细

人工智能自然语言处理数据库技术

2025-06-07 08:29:19
双专家一致性模型:高效高质量视频生成的解决方案 - 香港大学和南京大学联合研究突破

这项由香港大学和南京大学等机构研究人员联合开发的双专家一致性模型(DCM)解决了高质量视频生成中的效率难题。研究团队发现扩散模型蒸馏过程中存在优化冲突:早期阶段负责语义布局与运动,后期阶段关注细节精修,两者…详细

人工智能视频生成扩散模型

2025-06-07 08:29:02
QARI-OCR:阿拉伯文字识别新突破——如何让计算机轻松读懂阿拉伯文字的曲线与变化

这项研究介绍了QARI-OCR,一种基于Qwen2-VL-2B-Instruct模型微调的阿拉伯文字识别系统。研究团队通过三阶段合成数据训练,成功解决了阿拉伯文字识别中的主要挑战:曲线连笔特性、上下文变化的字母形状和发音符号。QA…详细

阿拉伯文字识别多模态大语言模型光学字符识别

2025-06-07 08:28:47
CSVQA:中国团队打造超全面科学测评基准,挑战视觉语言模型的STEM推理能力

这篇研究介绍了CSVQA,一个专为评估视觉语言模型在STEM领域推理能力的中文多模态基准测试。该数据集包含1,378道涵盖物理、化学、生物和数学的问题,每题都要求模型分析科学图表并进行专业推理。实验评估了15种VLM,结…详细

人工智能多模态评测科学推理

2025-06-07 08:28:28
OmniSpatial:清华、北大等团队联手打造全面评估视觉语言模型空间推理能力的综合基准

OmniSpatial是由清华、北大等多所顶尖高校联合开发的首个全面评估视觉语言模型空间推理能力的基准测试。研究团队将空间推理分为动态推理、复杂空间逻辑、空间交互和视角转换四大维度,涵盖50个细分任务类别,构建了1…详细

视觉语言模型空间推理认知心理学

2025-06-07 08:28:09
ReFoCUS:KAIST研究团队开创视频理解新方法,让AI更懂你想问什么

这篇来自韩国科学技术院(KAIST)的研究介绍了ReFoCUS,一种创新的视频理解方法。不同于传统视频AI模型使用固定的帧采样策略,ReFoCUS通过强化学习教会模型选择最相关的视频帧来回答特定问题。研究团队巧妙地将策略优…详细

视频理解强化学习多模态大语言模型

2025-06-06 18:16:33
每一步都算数!“乡约青村-同兴同行”公益捐步活动芒种出发

6月5日,正值芒种节气,由中央广播电视总台央视财经和腾讯SSV共同发起的“乡约青村-同兴同行”公益捐步活动在北京金融街广场启动。…详细

2025-06-06 17:31:51
ORV:4D占用中心机器人视频生成——北京人工智能研究院打造精准可控的机器人世界

这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多…详细

人工智能占用表示机器人视频生成

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章