科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-06-05 15:20:21
使用多模态技术自动给语音贴情绪标签:MIKU-PAL如何突破情感语音合成的瓶颈

这项研究介绍了MIKU-PAL,一种突破性的自动化多模态情感语音标注系统,能以低成本、高一致性(Fleiss κ达0.93)自动标注语音情感。研究团队基于心理学理论扩展了情感分类系统至26种类别,并发布了131.2小时的MIKU-Emo…详细

多模态情感分析语音合成技术情感语音数据集

2025-06-05 15:19:37
超越80/20法则:少数高熵词决定了大模型推理能力的提升

来自阿里巴巴Qwen团队和清华大学LeapLab的研究人员通过分析词元熵模式,揭示了大型语言模型推理能力背后的关键机制。研究发现只有约20%的"高熵少数派"词元像思维路径上的"岔路口",决定着推理方向。惊人的是,仅对这…详细

强化学习大型语言模型推理优化

2025-06-05 15:19:15
巧用梯度分组:西湖大学团队打造更高效的大语言模型训练方式

西湖大学团队提出的梯度分组缩放(SGG)方法巧妙解决了大语言模型训练中的关键挑战。与传统方法不同,SGG动态聚类每层参数并应用特定缩放因子,既保留参数级优化又引入组级约束。实验证明,SGG在多种任务和模型规模上…详细

大语言模型训练优化算法梯度分组

2025-06-05 15:19:00
RoboMaster:协作式轨迹控制让机器人抓取物体变得更加真实自然

RoboMaster是一项由中国香港中文大学和快手科技联合开发的创新研究,它通过"协作式轨迹控制"解决了机器人操作视频生成中的关键挑战。与传统方法不同,该系统将交互过程分解为前、中、后三个阶段,并在每个阶段明确主…详细

机器人学习视频生成轨迹控制

2025-06-05 15:18:44
MiCRo:一种利用混合建模和情境感知路由的个性化偏好学习框架

伊利诺伊大学香槟分校等机构的研究团队提出MiCRo框架,创新性地解决了大语言模型偏好学习的多样性问题。该框架采用两阶段方法:先通过混合建模从二元偏好数据中提取多种潜在偏好模式,再利用情境感知路由根据用户具体…详细

人工智能偏好学习个性化推荐

2025-06-05 15:18:27
ARIA:用意图驱动的奖励聚合训练更聪明的语言智能体

这篇来自复旦大学和字节跳动的研究介绍了ARIA方法,解决了语言智能体在开放式交互环境中的训练难题。传统强化学习在这类任务中面临巨大挑战,因为行动空间呈指数级增长,导致奖励信号极度稀疏。ARIA创新性地将语言行…详细

人工智能自然语言处理强化学习

2025-06-05 14:49:40
十年专利纠纷如何可能颠覆 Uber 业务

Carma Technology 针对 Uber 提起专利侵权诉讼,称其侵犯了涉及拼车系统的五项专利。案情回溯至十年前,凸显专利保护对创新者的重要性,可能对 Uber 及其他公司带来巨大影响。…详细

知识产权专利技术商业模式创新

2025-06-05 14:48:33
Automattic 表示将在暂停后恢复对 WordPress 的贡献

经过暂停战略调整,Automattic 宣布重返 WordPress 开发,包括核心、Gutenberg、Playground 等模块,计划今年推出 6.9 版本,并涉及与 WP Engine 的法律争端。…详细

开源内容管理系统战略调整

2025-06-05 14:46:21
荷兰企业在应对不断加剧的威胁下,网络韧性落后

本文指出,荷兰66%的企业网络韧性不足,特别是中小企业频遭网络攻击。在Rick van der Kleij教授看来,传统网络安全模式已失效,亟需转向强调预防、响应、恢复与适应的新模式,并加强人本因素与协作,共同提升防御能力…详细

网络安全网络韧性行为防护

2025-06-05 14:46:01
使用 Edits 指南:Meta 全新短视频编辑利器,挑战 CapCut

本文介绍了 Meta 刚发布的 Edits,这是一款短视频编辑工具,旨在与 ByteDance 的 CapCut 竞争。文章简述了 Edits 的核心功能、操作流程及与 CapCut 的异同。…详细

短视频视频编辑新型应用

2025-06-05 14:30:23
顺丰×淘宝天猫合作!极速上门服务,重塑电商物流体验

顺丰速运联合淘宝天猫正式达成官方合作,推出高品质物流服务“极速上门”,覆盖全国300个城市及三大经济圈核心区域。…详细

2025-06-05 13:49:38
将 ROCs 放在 SOCs 之前 —— Qualys 对公共部门的建议

Qualys首席执行官Sumedh Thakar提出,将传统主要用于被动响应安全事件的SOC升级为基于风险管理的ROC,通过聚焦关键风险而非海量安全扫描,帮助公共部门更高效、低成本地降低潜在威胁。…详细

网络安全风险运营中心风险管理转型

2025-06-05 13:49:12
全民基本收入:AI时代的商业案例

全球经济正处在自动化与 AI 推动的巨大变革关口,大规模就业受冲击,而普遍基本收入(UBI)有望稳定社会、激发创新,促进经济持续健康发展。…详细

人工智能自动化全民基本收入

2025-06-05 13:34:06
经济学家式思维:在经济问题上进行后训练,让大语言模型产生战略性泛化能力

这项研究展示了如何通过在经济问题上进行后训练,让大语言模型像经济学家一样思考,从而实现战略性泛化能力。研究团队开发了名为Recon的7B参数开源模型,通过在2,100个高质量经济推理问题上进行监督微调和强化学习,…详细

人工智能经济推理多智能体系统

2025-06-05 13:33:48
何时行动,何时等待:理解对话系统中用户意图的形成过程

STORM框架是一种创新的对话系统研究方法,通过模拟用户和AI助手之间的信息不对称来解决意图触发性问题。研究发现中等程度的不确定性(40-60%未知信息)在某些情况下能够优于完全透明,挑战了传统的AI设计假设。通过对…详细

人工智能任务导向对话系统意图理解

2025-06-05 13:32:42
ShapeLLM-Omni:清华大学团队打造的首个原生多模态3D生成与理解大模型

清华大学和盛树实验室的研究团队开发了ShapeLLM-Omni,这是一个突破性的大语言模型,能够同时理解和生成文本、图像及3D内容。该模型通过3D向量量化变分自编码器将复杂的3D网格压缩为离散标记,使大语言模型能够高效处…详细

人工智能3D生成多模态学习

2025-06-05 13:31:54
大语言模型看图思考:华盛顿大学推出VisualSphinx,一个660K规模的视觉逻辑训练数据集

华盛顿大学与西华盛顿大学的研究团队合作开发了VisualSphinx——一个包含66万个合成视觉逻辑谜题的大规模数据集,用于提升视觉语言模型的逻辑推理能力。通过四阶段流程:种子问题收集、规则遗传算法扩展、程序化图像…详细

人工智能视觉多模态推理合成数据集

2025-06-05 12:03:41
Cora:使用少量步骤的扩散模型实现对应感知图像编辑,来自西蒙弗雷泽大学的创新

Cora是一项来自西蒙弗雷泽大学的研究,提出了一种利用少步骤扩散模型进行对应感知图像编辑的新方法。它通过三大创新解决了现有编辑技术的局限性:对应感知噪声校正、注意力插值映射和结构对齐。这使Cora能够出色处理…详细

图像编辑扩散模型对应感知技术

2025-06-05 12:03:09
从令牌到行动:状态机推理减轻信息检索中的过度思考

这项来自首尔国立大学的研究提出了状态机推理(SMR)框架,解决了大型语言模型在信息检索中的过度思考问题。研究者将推理过程从冗长的令牌生成转变为离散动作(精炼、重排序、停止),使系统能够高效地在状态间转换。…详细

信息检索状态机推理大语言模型过度思考

2025-06-05 12:01:52
推理健身房:带有可验证奖励的强化学习推理环境

REASONING GYM是GitHub团队开发的一个突破性推理环境库,为强化学习模型提供可验证奖励。与传统固定数据集不同,它能生成无限训练数据并调整难度,涵盖代数、算术、认知、几何等100多个领域的数据生成器。研究显示,…详细

人工智能强化学习推理能力

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章