卡耐基梅隆大学等机构联合发布CameraBench,这是首个专门评测AI理解视频摄像头运动的大规模数据集。研究团队与专业电影摄影师合作,标注了约3000个多样化视频,建立了精确的摄像头运动分类体系。测试发现现有AI模型在…详细
科技专家Sungjoo Yoon在TED演讲中提出"偏好原理",认为了解用户喜好信息越多,就能创造更强大的技术。他将市场变化比作"地壳运动",从1969年命令行界面到80年代GUI,再到90年代网络界面,技术发展都遵循这一规律。自…详细
微软推出了Copilot Vision AI新功能,该技术能够扫描和分析用户屏幕上的所有内容。这项AI视觉技术可以实时理解用户正在查看的信息,包括文本、图像和应用程序界面,为用户提供更加智能化的交互体验和个性化建议。此功…详细
马斯克旗下AI初创公司xAI正与沙特方面就租赁数据中心容量进行谈判,寻求在能源成本低廉地区扩展基础设施。谈判涉及两个潜在合作伙伴:沙特支持的AI公司Humain提供数千兆瓦容量方案,以及另一家正建设200兆瓦设施的公…详细
谷歌与西屋电气公司合作,将生成式AI模型应用于核反应堆建设和运营优化。双方计划结合西屋的HiVE GenAI系统和bertha大语言模型与谷歌云技术,简化新核电站建设并提升现有反应堆性能。西屋声称其核能AI技术基于75年专…详细
谷歌正在其个性化内容流Discover中引入AI生成摘要功能,该功能已在美国的Android和iOS用户中开始推广。摘要卡片会显示新闻网站标志和AI生成的内容片段,用户可点击查看更多相关文章。谷歌声称此举能帮助用户更好地选…详细
Meta联合滑铁卢大学开发的MoCha系统实现重大突破,仅需语音和文字描述就能生成电影级会说话的虚拟角色视频。该技术突破传统局限,无需参考图片等辅助条件,还能实现多角色对话场景,在唇音同步、表情自然度等方面显著…详细
阿联酋和中国研究团队联合开发prima.cpp系统,成功实现70B大模型在普通家庭设备集群上运行。该系统通过创新的管道环形并行技术和Halda调度算法,将响应速度提升15倍至600毫秒,内存压力控制在6%以下,为AI技术民主化…详细
Moonshot AI发布了新一代视觉语言模型Kimi-VL,该模型采用混合专家架构,仅用2.8B激活参数就能媲美大型模型性能。其创新包括原生分辨率视觉编码器、128K长上下文处理能力和长链思考推理机制。在多项基准测试中,Kimi…详细
清华大学研究团队通过大规模实验发现,当前备受推崇的强化学习训练方法(如训练GPT-o1的技术)并未真正提升AI的推理能力,而是让模型更善于从已掌握的推理方法中选择正确答案。研究涵盖多个模型和任务,揭示了AI能力…详细
ByteDance Seed团队发布的Seaweed-7B研究展示了如何用相对较少的计算资源(665,000 H100 GPU小时)训练出高质量视频生成模型。这个70亿参数的模型通过精细的数据处理、创新的VAE压缩技术、混合流架构和多阶段训练策略…详细
沙特阿拉伯misraj.ai团队开发了Kuwain 1.5B,一个仅15亿参数的阿拉伯语-英语双语AI模型。他们创新性地提出"语言注射"技术,在英语模型基础上增加8个新层专门处理阿拉伯语,同时保持原有层冻结。通过扩展26000个阿拉伯…详细
清华大学研究团队开发出TTRL技术,让AI无需标准答案即可自我学习。通过"多数投票"机制,AI分析自己的多个解答找出最佳答案并以此改进。在数学竞赛中表现卓越,AIME 2024正确率提升159%。这种"无师自通"能力标志着AI向…详细
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。