清华大学与重庆大学研究团队提出Vid2World方法,成功将预训练视频扩散模型转变为交互式世界模型。该方法通过视频扩散因果化和因果动作引导两大创新,使模型能够进行自回归生成并响应动作条件。在机器人操作和游戏模拟…详细
清华大学深圳国际研究生院与阿里巴巴AMAP团队合作开发了UniVG-R1,这是一种基于推理引导的通用视觉定位模型。研究者通过构建高质量思维链数据集和应用强化学习技术,显著增强了模型处理多图像复杂指令的能力。实验表…详细
清华大学和上海人工智能实验室联合开发的AutoMat是一个突破性工具,能自动将电子显微镜图像转换为精确的晶体结构模型并预测材料性质。系统整合了模式自适应降噪、物理引导模板匹配、对称感知结构重建和机器学习性质预…详细
南洋理工大学与SenseTime Research的研究团队提出了ProxyV,一种创新算法,解决大型多模态模型处理视觉信息时的计算冗余问题。与传统方法不同,ProxyV不减少视觉标记数量,而是引入少量"代理视觉标记"替代原始标记参…详细
5月15日,爱普生亮相第十一届北京国际印刷技术展览会。本次展会,爱普生以“印之生态”为主题,带来预售标签新品及“五专”方案,充分展示在标签印刷行业的技术实力和多样化产品布局,围绕行业用户全场景需求,交出满…详细
应用生命周期管理(ALM,Application Lifecycle Management)是 IT 基础设施中的一个关键组成部分,可协调和优化软件和产品的整个生命周期。从最初的概念到开发、维护和进一步发展:ALM 可确保所有流程实现无缝连接和…详细
AI作为推动生产力提升和差异化竞争的重要引擎,已成为不可逆的趋势,客户普遍认可其长期价值,在AI这条赛道上要不断强化本地生态和应用实践。…详细
这篇论文介绍了3DTown,一种从单一俯视图生成3D城镇场景的创新方法。研究团队结合区域化生成和空间感知3D修复技术,无需额外训练即可创建几何一致、布局协调的3D场景。通过将场景分解为重叠区域并使用预训练生成器处…详细
西安交通大学等机构研究团队提出的"基于先验的深度思考"(DP)框架,通过充分利用知识图谱中的结构信息和约束条件,显著提升了大语言模型的推理可靠性。该框架包含知识蒸馏、规划、实例化和内省四个组件,通过渐进式知…详细
这项研究介绍了WEB-SHEPHERD,这是首个专为评估网络导航轨迹设计的过程奖励模型。延世大学和卡内基梅隆大学的研究团队创建了包含40K步级别注释的WEBPRM COLLECTION数据集和WEBREWARDBENCH评估基准。实验表明,WEB-SH…详细
AROS 是一款自由、开源的 AmigaOS 重现操作系统,现能以 USB 启动方式在 PC 上运行。它借助 Linux 系统与 QEMU 虚拟化技术,实现了经典 Amiga 环境的体验。…详细
Signal利用DRM功能防止Recall自动对Signal窗口截图,从而保障聊天隐私,避免被无差别捕捉信息。…详细
Neptune OS 基于 Debian 稳定版,采用 KDE 桌面,并预装 Flatpak 支持和现代应用,但其安装器分配了过大交换分区和冗余工具,导致磁盘空间使用吃紧与更新问题。…详细
微软数字犯罪部门联合美国、欧洲和日本执法机关,根据美国法院命令捣毁了 Lumma 恶意软件的核心基础设施,关闭约2300个恶意域名,清除近40万台受感染的 Windows 电脑,有效切断了网络敲诈和非法盈利链路。…详细
AnduinOS 是微软中国工程师独立打造的 Ubuntu 改版系统,通过定制 GNOME 呈现 Windows 11 风格,轻量无 Snap,适合熟悉 Windows 的用户尝试 Linux。…详细
清华大学研究团队提出RLVR-World框架,通过可验证奖励的强化学习直接优化世界模型的预测质量,而非传统的最大似然估计。这一方法在文本游戏状态预测和网页导航中显著提升了准确率,在机器人视频预测中改善了视觉质量…详细
这项研究揭示了强化微调(RFT)在提升大语言模型推理能力的同时,会产生一种意外副作用——"幻觉税":模型拒绝回答不可回答问题的能力显著下降,导致提供虚构答案的倾向增强。南加州大学的研究者通过创建"合成不可回…详细
这篇研究介绍了"视觉指令瓶颈调优"(Vittle)方法,该方法通过应用信息瓶颈原理,增强多模态大语言模型应对分布偏移的能力。研究不依赖增加数据量或模型规模,而是教会模型像人类一样进行"概念压缩",在保留关键信息…详细
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。