这项研究首次从图论视角探索大语言模型的知识结构模式,揭示了模型知识的三峰分布特性、节点度数与知识水平的正相关关系,以及知识同质性现象——拓扑位置相近的实体往往具有相似的知识水平。基于这些发现,研究团队开发了图神经网络模型来预测实体知识水平,并证明了这种方法在选择高价值三元组进行模型微调时的有效性,特别是在专业领域知识方面取得了显著提升。
大模型时代,玛丽·米克尔(Mary Meeker)的名字可能大家不一定熟悉,但是在互联网时代,这位被可被誉为“互联网女皇”的。她是美国风险投资家和前华尔街证券分析师,专注于互联网及新兴技术领域。玛丽·米克尔(Mary Meeker)发了一份340页的《人工智能趋势报告》,粗粗看了一下,并没有非常轰动的观点,但是数据比较全面
本文评测了 Google 最新 AI 视频生成工具 Veo 3,从音频生成、功能局限、等待时长及费用限制等方面展示其优劣,适合 AI 爱好者体验,但专业创作者可能会感到不便。
首尔国立大学研究团队提出了"多模态对抗组合性"(MAC)基准测试,评估预训练多模态表示(如CLIP)在理解文本与图像、视频、音频关系时的组合性弱点。研究使用大语言模型生成欺骗性文本,通过样本成功率和多样性双重指标进行评估。团队创新性地提出了多样性促进自训练方法,即使使用较小的Llama-3.1-8B模型,也能显著提高攻击成功率和多样性。实验在COCO、MSRVTT和AudioCaps数据集上验证,该方法优于现有技术,并展示了良好的跨模型迁移性,为构建更可靠的多模态系统提供了重要见解。
ChartLens是马里兰大学与Adobe研究院合作开发的创新技术,专门解决多模态大型语言模型在图表理解中的"幻觉"问题。这项研究提出了"后验细粒度视觉归因"方法,能够将AI对图表的分析结果与图表中的具体视觉元素(如特定柱形或数据点)精确关联起来,使AI的回答变得可验证。研究团队还创建了ChartVA-Eval基准测试集,并证明他们的方法比现有技术提高了26-66%的归因准确率,为金融分析、政策制定和科学研究等领域提供了更可靠的图表理解工具。
这篇论文介绍了一个名为"CrEval"的创新框架,用于跨领域评估文本创造力。研究团队构建了"CreataSet"数据集,包含超过10万条人类水平和100多万条合成创意文本,涵盖87个领域。基于此训练的CrEval评估器在与人类判断的一致性上显著优于现有方法,包括GPT-4o。研究发现,结合人类创建的数据和合成数据对训练有效评估器至关重要,且CrEval不仅能评估创造力,还能提升AI模型生成更有创意内容的能力,为创造力评估和提升开辟了新方向。
这项研究由清华大学和新加坡国立大学团队完成,系统探讨了大推理模型在事实查询任务中的幻觉问题。研究发现,仅通过单一训练阶段(仅SFT或仅RL)开发的推理模型更容易产生幻觉,而完整SFT+RL流程训练的模型幻觉较少。研究者识别出两种导致幻觉的关键认知行为:"错误重复"和"思考-答案不匹配",并从模型不确定性校准角度揭示了幻觉产生的内在机制,为开发更可靠的推理模型提供了重要指导。
这项由香港理工大学和复旦大学联合领导的研究提出了"自适应无分类器引导"(A-CFG)技术,用于改进AI文本生成。传统CFG使用静态无条件输入,而A-CFG能识别模型在生成过程中最不确定的部分,动态地重新掩码这些低置信度标记,创建针对性的无条件输入。实验表明,A-CFG在多种基准测试中显著优于标准CFG,如在GPQA上提升3.9点,在数独任务上提升8.0点,证明了在迭代生成中动态响应模型不确定性的价值。
ETH Zürich等机构研究人员提出TrustVLM框架,解决视觉-语言模型预测可信度问题。该方法利用模型中存在的"模态差距",创新性地结合图像到文本和图像到图像的相似度,实现无需重新训练即可大幅提升误分类检测性能。在17个数据集的严格测试中,TrustVLM相比现有方法在关键指标上提升显著,同时改善了零样本分类准确率。此成果为AI系统在自动驾驶、医疗等安全关键领域的可靠部署提供了重要保障。
这项研究提出了个性化安全概念,解决大语言模型对不同用户采用统一安全标准的问题。研究团队创建了PENGUIN基准测试集评估模型在处理高风险场景时的个性化安全能力,并开发了RAISE框架高效获取关键用户信息。实验表明,提供用户背景可使安全分数提高43.2%,而RAISE框架通过平均仅2.7次交互即可提高安全分数31.6%。这一创新方法将AI安全从"一刀切"转向"个性定制",为高风险领域的AI应用提供了新思路。
明尼苏达大学研究团队提出了一种创新方法,通过回合级信誉分配显著提升大语言模型(LLM)智能体的多回合推理能力。传统方法只对整个过程进行评价,而他们的MT-GRPO算法能够精确评估每个决策步骤的价值,就像为每一步提供具体反馈。在维基百科搜索工具使用场景中,该方法实现了100%的工具执行成功率和50%的答案精确匹配率,远超传统方法。这一突破不仅提高了AI在多步骤任务中的表现,也为开发更复杂的AI系统提供了重要思路。
这项研究探究大语言模型从真实文本中推断因果关系的能力,创建了首个真实世界基准数据集ReCAST。研究发现,即使最先进模型在此任务上表现也不佳,最高F1分数仅为0.477。模型尤其难以处理隐含因果关系、区分关键因素与背景信息,以及整合长文本中分散的信息。这揭示了当前语言模型在真实世界因果推理方面的重大局限,为未来研究指明了方向。
文章讨论了 GPU 服务器如何利用并行处理支持 AI 运算,比较了其与传统 CPU 服务器在扩展性、功耗与散热等方面的区别,并指出数据中心须相应升级供电与冷却设施。
IBM 周一宣布收购 AI 数据分析平台 Seek AI,并在纽约启动 Watsonx AI Labs 加速器,以利用自然语言处理技术支持企业数据查询,扩展 AI 解决方案和人才培养。
Bing 视频生成器利用 OpenAI 的 Sora 模型,通过文字提示生成视频。登录微软账户的用户可免费生成10个视频,之后需消耗微软奖励积分。目前仅支持竖屏9:16比例,未来将增加横屏选项。
波士顿大学研究团队开发的DORI基准测试从四个维度评估多模态大语言模型的物体方向理解能力:正面对齐、旋转变换、相对方向和规范方向感知。研究评估了15个最先进模型,发现即使最佳模型在粗粒度任务上的准确率也仅为54.2%,在细粒度方向判断上更低至33.0%,与人类表现相差近30%。结果表明当前模型在精确角度估计、多视角追踪和理解复合旋转方面存在系统性缺陷,反映了它们内部3D空间表示的根本局限,为未来模型设计提供了明确方向。
Prot2Token是密苏里大学研究团队开发的一种突破性蛋白质建模框架,它通过将各种蛋白质预测任务转化为统一的下一个标记预测问题,解决了传统方法需要为不同任务开发专门模型的限制。这个框架以自回归解码器为核心,配合预训练蛋白质编码器和任务标记引导,实现了从蛋白质序列到结构、功能和相互作用的多样化预测。实验证明其性能媲美甚至超越专门方法,并在结构预测上比AlphaFold2快1000倍。Prot2Token通过多任务学习促进了不同预测任务间的协同效应,为蛋白质研究提供了高效、通用的计算范式。
这项研究提出了一种通过"替身模型"训练视觉编码器并实现零样本嫁接到大型语言模型的创新方法。研究团队分析发现大语言模型内部存在明显的处理阶段转折点,据此构建的替身模型保留早期处理层而压缩后期层。使用替身训练的视觉编码器可直接插入目标大模型而无需额外训练,或作为全面训练的高效起点。实验证明,这种方法不仅能将Llama-70B的训练成本降低约45%,还在部分基准测试中实现了超越全面训练的性能。
希伯来大学研究团队创建了CHIMERA,这是一个从科学文献中自动提取思想重组实例的大规模知识库。研究区分了两种重组类型:概念融合和灵感迁移,并从28,000多个案例中揭示了跨学科创新的模式。研究发现认知科学和生物学是AI领域重要的灵感来源,且不同领域间的灵感流动呈现动态变化。基于这一知识库,团队还开发了能预测新创新方向的模型,经真实研究人员评估证实其有效性。这项工作为理解科学创新提供了新视角,也为研究人员探索跨领域思想融合提供了实用工具。