亚利桑那州立大学团队开发出MMTok技术,通过多模态覆盖最大化方法,让视觉语言AI模型在保持98.7%准确度的同时实现1.87倍速度提升。该方法同时考虑图片和文字信息来智能选择关键视觉令牌,将处理的视觉信息从2880个压缩到160个,显著降低计算成本和内存使用,为AI系统的实际部署提供了高效解决方案。
NousResearch团队发布的Hermes 4是一个突破性的混合推理AI模型,它首次实现了结构化多步推理与广泛指令执行能力的完美结合。该模型通过创新的"思考截止"训练技术和大规模开放数据集,在数学推理、编程、知识问答等任务上达到顶尖水平,同时展现出卓越的个性化适应能力,为AI技术的开放化发展树立了新标杆。
马里兰大学研究团队开发了"去预设"方法,通过将复杂声明分解为无预设前提的简单问题,让AI像侦探般系统性验证每个假设。该方法显著提升AI信息验证准确率2-5%,大幅降低对提示词变化的敏感性,为构建更可靠的AI系统提供新思路。研究在生物医学等复杂领域表现尤其出色。
科技亿万富翁拉里·埃里森资助的研究团队将向英国牛津大学投资1.18亿英镑,用于将AI技术应用于疫苗研究。牛津疫苗研究小组将领导这一项目,研究人体免疫系统对严重细菌感染和抗生素耐药性的反应。该项目由曾主导新冠疫苗试验的安德鲁·波拉德教授领导,计划采用人体挑战模型,让志愿者在受控条件下接触细菌,然后运用现代免疫学和AI工具来精确识别预测保护效果的免疫反应,以开发针对致命疾病的创新疫苗。
据报道,ChatGPT开发商OpenAI计划在印度建设一座耗电量超过1吉瓦的数据中心,目前正寻找当地合作伙伴。该设施预计可容纳至少5.9万片英伟达B200芯片。这可能是OpenAI全球数据中心计划的一部分,旨在为国际用户提供更低延迟服务。OpenAI CEO奥特曼将于下月访问印度,公司还计划年底前在新德里开设办事处。
AI智能体不再局限于重复性任务处理,正逐步渗透到企业高层战略决策领域。麦肯锡研究显示,53%的高管和44%的中层管理者已在工作中使用生成式AI。LVMH、贝莱德等知名企业纷纷构建智能体平台,用于市场监控、数据分析和战略决策支持。虽然智能体尚未完全接管决策权,但已成为领导者的重要助手,帮助他们更好地导航商业环境并预警潜在风险。
尽管生成式AI公司高管声称其产品将替代大量工人,但深入研究显示AI更多是在任务层面而非整体职业层面产生影响。以翻译和历史学家为例,专业翻译需要理解文化背景和法律语境,承担准确性责任;历史学家的核心工作是运用判断力和创造力发现新的历史解释。AI虽能处理某些例行任务,但缺乏人类的判断力、创造力和文化理解能力。最终AI对就业的影响将取决于企业领导者的决策,而非技术本身的能力。
纽约AI公司Runway过去七年专注为创意产业构建视觉生成工具,现在发现其技术在机器人领域的新机遇。该公司的世界模型技术吸引了机器人和自动驾驶汽车公司的关注,用于训练仿真。联合创始人表示,相比现实世界训练,使用AI模型进行仿真更具成本效益和可扩展性。公司不会为机器人客户开发全新产品线,而是优化现有模型并组建专门团队。Runway已获得超过5亿美元融资,估值30亿美元。
瑞典AI编程公司Lovable专注帮助无编程经验用户构建应用和网站。仅8个月内,公司年收入突破1亿美元,完成2亿美元A轮融资,估值18亿美元,成为欧洲增长最快的独角兽。CEO Osika表示,公司目标是成为最佳软件产品开发平台,通过整合多种AI模型为用户提供无与伦比的能力。尽管面临Anthropic和OpenAI的竞争威胁,Osika专注于产品优化,强调速度、安全性和用户体验。
AI厂商正在试验各种定价策略和模式,为企业CIO部署AI技术带来成本不确定性。许多厂商采用订阅与使用量结合的混合定价模式,但这些策略并非固定不变,有些厂商甚至每几周就调整一次价格。面对激烈竞争和盈利压力,AI厂商价格波动频繁。专家建议CIO应避免厂商锁定,设置预算限制,采用类似云计算的成本控制策略来管理基于使用量的AI工具费用。
Pangea安全公司研究人员发现了一种名为"LegalPwn"的新型攻击方式,通过在法律文档中隐藏恶意指令来欺骗大语言模型忽略其安全防护机制。该攻击利用了LLM对法律免责声明的合规要求,成功绕过了多个主流模型的安全检测。测试显示,OpenAI的GPT-4o、谷歌的Gemini 2.5等模型容易受到此类攻击,而Anthropic的Claude等模型则表现出更好的抵抗能力。
谷歌云在新加坡推出本地部署的Gemini AI模型,通过完全断网的Google分布式云服务,让政府机构和监管行业首次能在自有数据中心运行AI模型。新加坡政府科技局等机构将率先使用该技术。同时,谷歌云扩展了在新加坡公有云区域的数据驻留保证,支持本地机器学习处理。星展银行和职总平价等企业已开始应用相关AI能力。
希伯来大学研究团队开发出MV-RAG系统,首次解决了AI在生成稀有物品3D模型时的"胡编乱造"问题。该系统像拥有图像记忆库的艺术家,能先搜索相关真实照片再生成准确3D视图。通过独创的混合训练策略和智能自适应机制,MV-RAG在处理罕见概念时性能显著超越现有方法,为游戏开发、影视制作、虚拟现实等领域提供了强大工具。
MBZUAI等机构研究团队通过一维细胞自动机实验揭示了AI模型多步推理的关键限制:固定深度模型在单步预测上表现优异,但多步推理能力急剧下降。研究发现增加模型深度比宽度更有效,自适应计算时间、强化学习和思维链训练能突破这些限制。这为开发更强推理能力的AI系统提供了重要指导,强调了真正推理与简单记忆的本质区别。
上海AI实验室发布的InternVL3.5是新一代开源多模态大语言模型,能够同时理解图像和文字内容。该系统采用级联强化学习技术,推理性能提升16%,并通过视觉分辨率路由器实现4倍推理加速。在36项基准测试中表现优异,最大模型在多学科推理任务中得分77.7,接近商业模型水平,支持GUI交互、多语言处理等功能。
阿里巴巴推出Visual-CoG技术,首次让AI绘画学会"分步思考"。该技术通过语义推理、过程优化和结果评估三个阶段,显著提升了AI处理复杂描述的能力。测试显示,在计数、位置、颜色等关键指标上提升15-48%,特别是推理任务成功率达77.5%,为AI绘画的智能化发展开辟了新方向。
香港大学联合香港中文大学研究团队首次提出T2I-ReasonBench基准,系统评估AI绘图模型的推理能力。研究发现当前开源模型在处理习语理解、设计规划、知识推理和科学常识等需要深度思考的任务时表现严重不足,平均得分不到50分,而商业模型如GPT-Image-1表现相对较好但仍有提升空间。该研究揭示了AI绘图技术从"按字面理解"向"智能推理"发展的迫切需要。
浙江大学团队开发的RuscaRL方法通过"脚手架学习"解决了AI训练中的探索瓶颈问题。该方法使用评分准则作为智能指导,在训练中提供差异化支持并逐步减少辅助,让AI学会独立思考。实验显示,使用RuscaRL的小模型能在医疗咨询等复杂任务上超越GPT-4,证明了教育学原理在AI训练中的重要作用。
MIT和哈佛研究团队发现,AI语言模型在自我评估能力方面存在显著问题,经常表现出过度自信或过度谦虚,无法准确判断自己答案的可靠性。研究揭示了AI校准偏差的深层机制,并提出改进方法。这一发现对AI在医疗、教育、商业等关键领域的应用具有重要意义,提醒我们需要更谨慎地评估AI建议的可信度。
麦吉尔大学研究团队通过测量理论框架分析发现,当前广泛使用的大型语言模型评价系统存在严重的可靠性和有效性问题。研究揭示了AI评委在替代人类评委、自身能力、规模化应用和成本效益四个核心假设方面的缺陷,并通过文本摘要、数据标注和安全评估三个应用场景验证了这些问题的严重性,为建立更加科学严谨的AI评价体系提供了重要指导。