科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-06-02 12:19:49
句子级预测:让大语言模型在高层抽象概念上进行推理

这项研究探索了让大语言模型从词级预测转向句子级预测的可能性。研究团队构建了一个框架,使预训练语言模型能在句子嵌入空间中进行推理,探索了语义嵌入和上下文嵌入两种范式。实验结果表明,上下文嵌入在连续推理模…详细

人工智能大语言模型连续空间推理

2025-06-02 12:19:32
揭秘指令特定神经元与专家:一个分析LLM指令跟随能力的全新框架

这项由香港科技大学研究团队开展的创新研究揭示了大型语言模型(LLM)执行指令能力背后的神经机制。研究者通过提出SPARCOM分析框架,成功识别并分析了"指令特定神经元"和"指令特定专家"这两类稀疏组件在模型内部的分…详细

人工智能大型语言模型机制解释

2025-06-02 12:18:48
Safe-Sora:为AI视频生成模型加上"身份证",清华大学研究团队开创图像水印新方法

清华大学研究团队开发了一种名为Safe-Sora的创新技术,首次实现在AI视频生成过程中嵌入图形水印。该方法通过分层自适应匹配机制,智能地将水印图像分割成小块并分配到视频中最适合的位置,同时利用3D小波变换增强的M…详细

视频生成水印技术版权保护

2025-06-02 12:17:43
MUSEG:清华-阿里团队打造时间感知多段定位技术,大幅提升视频理解能力

清华大学与阿里巴巴通义实验室联合研发的MUSEG技术通过创新的时间戳感知多段定位方法,显著提升了视频中的时间理解能力。该方法引入多段定位任务和精心设计的阶段性奖励机制,使模型能够精确识别视频中的多个相关事件…详细

人工智能视频时间理解强化学习

2025-06-02 12:17:13
像人类需要疫苗一样,AI模型也需要"免疫":Vector研究所提出模型免疫方法对抗虚假信息

这项由加拿大Vector研究所领导的研究提出了"模型免疫"概念,通过让AI模型在训练过程中接触已标记的虚假信息,增强其辨别和拒绝类似虚假内容的能力。类比人类疫苗接种原理,研究者在微调阶段向模型注入约5-10%的已标记…详细

人工智能模型免疫技术虚假信息防御

2025-06-01 19:00:03
DeepResearchGym:一款免费、透明且可复现的深度研究评估沙盒,让研究者摆脱商业搜索API的束缚

DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可…详细

人工智能深度研究系统信息检索评估框架

2025-06-01 18:59:36
打造自主信息搜索智能体:阿里巴巴WebDancer的探索之路

阿里巴巴集团和同义实验室的研究团队推出了WebDancer,这是一种能够在网络上自主搜索信息并回答复杂问题的智能体系统。研究团队提出了一个四阶段构建框架,包括数据合成、轨迹采样、监督微调和强化学习。他们创新性地…详细

人工智能信息搜索强化学习

2025-06-01 18:58:56
R2R:使用小型-大型模型令牌路由高效导航分歧推理路径

最近来自清华大学、无限极AI和上海交通大学的研究团队提出了一种名为"通向罗马之路"(R2R)的创新方法,可以在小型和大型语言模型之间进行智能令牌路由。研究发现,小型模型与大型模型的推理路径差异主要源于少量"分歧…详细

大语言模型令牌路由推理优化

2025-06-01 18:58:21
FinTagging: 金融信息提取与结构化的新基准测试,让大语言模型更懂财报数据

这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和…详细

金融信息提取大语言模型XBRL标记

2025-06-01 17:54:28
SweEval:企业使用中的多语言LLM脏话安全基准测试研究

这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示…详细

人工智能安全多语言自然语言处理企业AI应用

2025-06-01 16:36:22
无需验证师:如何让大型语言模型在没有答案检查者的情况下进行更好的推理

这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案…详细

人工智能强化学习大型语言模型

2025-06-01 16:35:25
快思与慢想:让AI学会像人一样思考的突破性研究——DualityRL团队的"思想家"模型

这项研究提出了"思想家"(Thinker)任务,一种受人类双重加工理论启发的新型AI训练方法。研究者将问答过程分解为四个阶段:快速思考(严格预算下给出初步答案)、验证(评估初步答案)、慢速思考(深入分析修正错误)…详细

人工智能强化学习认知模型

2025-06-01 16:11:36
能力差距决定破解能力:大语言模型红队测试的能力缩放规律

这项由ELLIS研究所和马克斯·普朗克智能系统研究所的科学家进行的研究,揭示了大语言模型安全测试的根本规律:越狱攻击成功率由攻击者与目标模型间的能力差距决定。通过评估500多个攻击者-目标组合,研究团队发现:更…详细

人工智能安全能力缩放规律语言模型测试

2025-06-01 16:09:53
SATORI-R1:华中科技大学研究团队通过空间定位和可验证奖励增强多模态推理能力

华中科技大学和香港中文大学研究团队提出SATORI-R1,一种通过空间定位和可验证奖励增强多模态推理的新方法。该方法将视觉问答任务分解为图像描述、区域定位和答案预测三个可验证阶段,解决了自由形式推理中注意力分散…详细

多模态推理视觉问答强化学习

2025-06-01 16:09:32
消除视觉噪点:香港大学团队开创自蒸馏寄存器让视觉Transformer产生更清晰特征表示

这项由浙江大学和香港大学联合研究的PH-Reg方法解决了视觉Transformer模型中的"异常令牌"问题,这些异常会干扰模型对图像细节的准确理解。研究团队提出了一种不需要完全重新训练的自蒸馏方法,通过添加"寄存器令牌"来…详细

计算机视觉自蒸馏技术密集特征表示

2025-06-01 16:08:43
图像渲染反馈强化学习:从ServiceNow研究团队到高质量矢量图形生成的突破

ServiceNow研究团队开发了一种名为RLRF的新方法,通过强化学习显著提升了AI生成矢量图形(SVG)的质量。与传统方法不同,RLRF让AI能够"看到"自己生成的SVG代码渲染后的效果,并据此获得反馈。研究表明,这种方法不仅提…详细

人工智能矢量图形生成强化学习

2025-06-01 11:29:37
专家精简大法:香港中文大学与华为诺亚方舟实验室联手助力大型混合专家模型在内存受限设备上高效运行

香港中文大学与华为诺亚方舟实验室合作开发了PreMoe框架,解决了大型混合专家模型(MoE)在内存受限设备上的部署难题。研究团队发现MoE模型中的专家表现出明显的任务专业化特征,据此提出了概率专家精简(PEP)和任务自适…详细

人工智能混合专家模型内存优化

2025-06-01 11:18:02
SCIENCEBOARD:评估科学工作流中的多模态自主智能体

SCIENCEBOARD是一项开创性研究,旨在评估多模态自主智能体在真实科学工作流中的表现。研究团队构建了一个包含169个高质量任务的基准测试,涵盖生物化学、天文学等六个科学领域,并开发了一个真实环境让智能体通过CLI…详细

人工智能科学工作流多模态智能体

2025-06-01 11:17:40
AlphaMed:突破医疗AI推理极限,来自帝国理工学院的创新研究无需蒸馏也能实现高性能医疗推理

帝国理工学院的研究团队开发了AlphaMed,这是首个仅通过极简规则强化学习就能培养医疗推理能力的AI模型,无需依赖传统的思维链示范数据。通过分析数据信息丰富度和难度分布的影响,研究发现高信息量的医疗问答数据是…详细

医疗AI强化学习推理能力

2025-06-01 11:17:17
玩游戏也要考!普林斯顿团队开发"VideoGameBench"测试视觉语言模型能否通关经典游戏

普林斯顿大学研究团队开发了VideoGameBench,这是一个新基准测试,挑战视觉语言模型在经典视频游戏中的表现。研究发现,即使最先进的AI模型如Gemini 2.5 Pro在10款90年代游戏中也仅能完成0.48%的进度,表明当前AI在空…详细

人工智能视觉语言模型AI游戏测试

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章