这项研究介绍了WikiDYK基准测试,利用维基百科"你知道吗"板块的实时更新内容评估大语言模型的知识注入能力。研究发现,双向语言模型(BiLMs)在记忆知识方面显著优于因果语言模型(CLMs),准确率高出约23%。基于此,研究团队提出了一个模块化框架,将BiLMs作为知识库集成到LLMs中,进一步提升了29.1%的可靠性。这一发现挑战了当前主流LLM架构的优势假设,为AI系统的知识更新提供了新方向。
这篇研究探讨了Alpha世代(2010-2024年出生)独特的数字通信模式如何挑战现有AI内容审核系统。研究者评估了四大AI系统(GPT-4、Claude、Gemini和Llama 3)以及人类审核员理解这一代专属语言的能力,特别关注隐蔽骚扰识别。研究创建了100个当代Alpha世代表达的数据集,发现即使是最先进的AI系统也难以理解Alpha世代快速演变的语言,特别是在语境依赖和隐蔽风险方面。
斯科尔科沃科技学院和合作伙伴的研究团队开发了新型AI方法"TLG",有效识别违反常识的奇怪图像。该方法利用大型视觉-语言模型从图像提取基本事实,再通过注意力池化分类器分析这些事实的一致性,实现了WHOOPS!数据集73.54%和新创建的WEIRD数据集87.57%的准确率,均达到目前最佳水平。研究还创建了包含824张图像的WEIRD数据集,为评估AI对常识判断的能力提供更全面基础。
这项由斯坦福大学和多家研究机构联合推出的R3(强健的无评分标准奖励模型)系统,解决了现有AI评估模型在可控性与可解释性方面的关键缺陷。不同于仅提供分数的传统模型,R3能适应任何评分标准,支持单项评分、对比评分和二元评分三种评估形式,并提供详细解释。研究团队从45个来源构建了高质量数据集,即使仅用14,000个训练样本,R3模型也在众多基准测试中超越了现有系统。这一突破性研究为AI系统提供了更透明、更可信的评估方式,有望显著改善人类与AI的互动体验。
Meta 推出“Llama for Startups”计划,为在美初创企业提供直接支持与资金,助力开发生成式 AI 应用;同时,Meta在 Llama 模型研发中面临竞争与挑战,努力推动 AI 业务增长。
奥兰多魔术队与SAS达成战略合作,借助SAS Viya平台,通过数据和AI技术全方位提升球迷现场及数字化体验,同时优化票务预测与运营管理。
本文讨论了 MCP、ACP 与 Agent2Agent 三项协议如何助力 AI 系统的互联互通,降低整合复杂性,推动从试验向实用化转型。
Dell专家指出,主动式AI将大幅提高计算、存储与网络等基础设施要求,其代币处理、长期记忆和多领域应用均远超现有GenAI能力。
NVIDIA最新发布的HelpSteer3-Preference是一个包含超过4万个样本的开放许可偏好数据集,涵盖STEM、编程和多语言等多样化任务。由专业标注者标注的高质量数据使研究团队训练出在RM-Bench和JudgeBench基准上分别取得82.4%和73.7%准确率的顶尖奖励模型,比现有最佳模型提升约10%。研究还展示了如何利用这些奖励模型通过RLHF对齐大语言模型,在MT Bench和Arena Hard等评估基准上取得显著提升。这个以CC-BY-4.0许可证发布的数据集为开发更好的通用领域指令型语言模型提供了宝贵资源。
这篇论文介绍了一种名为LATENTSEEK的创新框架,它通过在潜在空间进行测试时实例级政策梯度优化,显著提升了大型语言模型的推理能力。研究团队在GSM8K、MATH-500和AIME2024等基准测试上评估了该方法,结果显示LATENTSEEK比思维链方法平均提升了10.75%的准确率。该方法无需更新模型参数,计算高效,平均只需1-2次迭代即可收敛,同时证明了潜在空间中的测试时扩展可行性。
圣地亚哥大学团队提出的VSA(视频稀疏注意力)机制,通过巧妙的两阶段设计解决了视频生成模型的计算瓶颈。它首先将视频分割成小立方体,在粗粒度层面快速识别重要区域,再只在这些区域内进行精细计算。实验表明,VSA能在不损失生成质量的情况下将训练计算量减少2.53倍,将推理时间从31秒缩短至18秒。这一可训练的稀疏注意力机制为大规模视频生成模型的进一步发展铺平了道路。
这项由新加坡和英国研究机构联合进行的研究,使用多智能体强化学习探索了语言起源问题。研究团队设计了"觅食游戏"环境,让智能体在部分可观察的世界中协作完成任务。结果表明,智能体自发发展出具有人类语言五大特性的通信系统:任意性、互换性、位移性、文化传播和组合性。研究提供了关于语言如何在合作环境中自然演化的新见解,证明语言是从社会互动和共享目标中浮现的工具,而非孤立系统。
QVGen是一项突破性研究,致力于解决视频扩散模型在低比特量化时的性能挑战。研究团队通过理论分析发现,降低梯度范数是改善量化感知训练收敛性的关键,因此引入了辅助模块来减轻量化误差。为消除这些模块在推理阶段的开销,他们创新性地提出了秩衰减策略,通过奇异值分解和基于秩的正则化逐步移除低影响组件。实验证明,QVGen是首个在4比特设置下达到与全精度相当性能的量化方法,其3比特实现也显著优于现有技术。这一成果为高效视频生成在普通设备上的应用铺平了道路。
Mistral 与 All Hands AI 合作推出了一款专注编程的 AI 模型 Devstral,通过 Apache 2.0 许可证开放使用,在代码浏览、多文件编辑及自动化测试等任务中表现优异,可在 RTX 4090 或高配 Mac 上运行,定价亲民。
亚马逊在购物 App 中测试一项新功能,通过“大语言模型”从用户评价和网络信息中提炼出产品关键特性,并以对话形式生成简短音频摘要,帮助消费者更便捷地做出购买决策。目前该功能先在部分美国商品上试用,未来将逐步推广。
Extreme Networks 通过 Platform One 平台将会话、多模态及代理 AI 融入企业网络管理,显著提升可视化、自动化和安全性能。
OpenAI 今天推出新版 Responses API 更新,新增远程 MCP、原生图像生成、代码解释器和改进的文件搜索能力,帮助企业构建智能自动化代理,同时维持原有定价。
法国 Mistral AI 携手 All Hands AI 推出 Devstral——一款拥有240亿参数的开源语言模型,专为软件工程代理开发设计,能跨文件理解代码、执行多步骤任务,并在 SWE-Bench 测试中表现出色,以 Apache 2.0 许可证开放供开发者与企业灵活使用。
本文报道 Klarna 采用 CEO 的 AI 化身发布财报,展示 AI 在提升效率和盈利中的作用,并探讨 AI 替代高管的可能性。
本文探讨了人工智能驱动的数据中心建设变革,涵盖半导体进步、高密度供电、先进冷却及模块化设计,揭示未来数据中心的高效、灵活与可持续发展趋势。