这项跨国研究首次系统评估了大语言模型生成编程测试用例的能力。研究团队构建了包含500个竞赛问题和10万错误代码的TestCase-Eval基准,设计了故障覆盖和故障暴露两个核心任务。测试19个主流模型后发现,最佳模型仅达…详细
这项由中国人民大学、微软亚洲研究院等机构联合完成的研究发现,通过监测AI思考过程中的"不确定性"(熵值),可以识别出有价值的探索性思考时刻。研究团队设计了一种仅需一行代码的简单方法,在AI训练时给予探索性思…详细
MBZUAI研究团队开发的GG技术突破了跨架构程序翻译难题,通过AI将x86程序准确翻译为ARM版本,准确率达99.39%。与苹果Rosetta 2相比,性能快73%、省电47%、内存占用少141%。该技术采用大型语言模型结合严格测试验证,为…详细
百川智能团队提出了一种基于强化学习的医疗文档视觉信息提取方法,仅用100张标注图片就实现了医疗报告的高精度结构化数据转换。该方法采用平衡的精确度-召回率奖励机制和创新的采样策略,在医疗VIE任务上达到77.81的…详细
微软亚洲研究院团队通过创新的评估方法发现,具有可验证奖励的强化学习(RLVR)能够真正提升AI的推理能力,而非仅仅改善答案准确率。研究提出了CoT-Pass@K评估标准,要求AI不仅给出正确答案还需保证推理过程正确,实验…详细
OPPO AI团队首次系统性探索了如何让AI智能体进行更深入的推理思考。研究提出ATTS框架,包含并行采样、序列修正、验证合并和多样化探索四大策略。实验发现,给智能体更多尝试机会能显著提升性能,但关键在于知道何时反…详细
NVIDIA团队开发出革命性AI图像生成技术AYF,成功将传统需要几十步的复杂图像生成过程压缩至仅4步,同时保持高质量输出。该技术通过创新的流映射方法和双重训练目标,解决了现有快速生成方法质量差或多步性能退化的问…详细
中科大团队发布CRITICTOOL基准,首次系统评估大型语言模型工具调用自我批判能力。研究发现当前AI模型包括GPT-4o在内,遇到工具使用错误时恢复能力有限,最高仅达70%水平。该基准通过内部错误和外部环境错误两大类五种…详细
中文大学等机构联合研究提出"问题自由微调"方法,解决AI推理模型在简单问题上过度思考的问题。该方法训练时移除问题输入,仅学习推理过程,使AI能自适应选择短推理或长推理模式。实验显示该方法在保持性能的同时将回…详细
上海交大团队开发EfficientVLA框架,通过三重优化策略让机器人大脑提速93%:简化语言模块冗余层、精选关键视觉信息、缓存动作生成中间结果。该无训练方案将计算量降至28.9%,任务成功率仅降0.6%,为高性能机器人在普…详细
这项由18所顶尖高校联合开展的研究推出了革命性的AI代理评估平台xbench,彻底改变了传统以技术能力为中心的评测方式,转而采用真实职业场景的实战检验。研究团队在招聘和营销两个专业领域构建了完整的评估体系,让AI…详细
2025年6月20日至22日,华为开发者大会(HDC 2025)盛大召开。大会首日上午,场景化解决方案分论坛(以下简称“论坛”)圆满举办,聚焦开发者高频需求:AI辅助开发、性能优化、问题定位分析与场景化能力赋能,全面展现…详细
2025年6月26日,一场汇聚行业顶级智慧、洞察前沿趋势的智算产业盛会“2025中国智算产业生态发展大会”,将在中国深圳中洲万豪酒店盛大召开。本届大会将集结权威机构学者、产业领袖与技术先锋,共同擘画中国智算产业的…详细
日立集团 (TSE: 6501) 旗下专注数据存储、基础架构与混合云管理的子公司 Hitachi Vantara 今日宣布,在《2025 年 GigaOm 面向 AI 工作负载优化的高性能存储雷达报告》中,Hitachi Vantara 获评“领导者 (Leader)”与…详细
随着AI发展推动数据中心能耗激增,预计2030年将增长160%,微软等科技巨头甚至重启核电站以满足算力需求。然而,真正的解决方案可能不是更大的基础设施,而是更智能的芯片。以色列初创公司Proteantecs通过芯片遥测技术…详细
谷歌为Chromebook推出多项AI新功能,包括图像生成、文本摘要等内置系统功能。配备现代CPU和8GB以上内存的Chromebook Plus设备将获得Lens视觉搜索、Quick Insert图像生成、Help Me Read文档摘要等功能。联想Chromeboo…详细
位于智利的维拉·鲁宾望远镜首次发布南半球夜空图像,标志着为期十年的星系变化延时拍摄项目正式启动。该望远镜搭载32亿像素相机,每晚约40秒拍摄一次不同区域,十年内将产生约500PB数据。Spectra Logic磁带库系统负…详细
法国卫星运营商Eutelsat宣布潜在融资13.5亿欧元,用于加速去杠杆化并投资现有低轨道卫星能力和未来IRIS?星座项目。该公司的低轨网络将提供安全、低延迟、高速宽带服务,已在多个地区运营。Eutelsat是仅有的两家拥有活…详细
Berg Insight研究显示,2024年全球超过三分之二的新车达到SAE Level 1自动驾驶要求,预计2030年将达到90.4%。Level 2车辆占比将从28.1%增至51.2%,Level 3车辆预计占8.6%。目前奔驰Drive Pilot和宝马Personal Pilot …详细
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。