中国互联网巨头百度表示,其在中国的无人出租车业务已实现盈亏平衡,对进军全球市场后的盈利前景充满信心。CEO李彦宏在财报电话会议中透露,尽管武汉的出租车费用比其他中国城市低30%,但百度的无人出租车业务已在当地实现盈亏平衡。AI技术在多方面助力百度发展,包括代码生成、数字人技术等,但AI搜索的商业化仍面临挑战。
字节跳动Seed团队在Hugging Face发布新的开源大语言模型Seed-OSS-36B,专为高级推理和开发者友好性设计。该模型提供三个版本:基础模型(含/不含合成数据)和指令调优版本。模型拥有360亿参数,支持512K令牌上下文长度,相当于约1600页文本。在数学推理、编程和长文本处理等基准测试中达到开源领域最先进水平。采用Apache-2.0许可证,允许企业免费商用部署。
中南大学等机构联合发布TextAtlas5M数据集,包含500万图像-文本对,专门解决AI长文本图像生成难题。该数据集平均文本长度148.82词,远超现有数据集,涵盖广告、学术、教育等真实场景。配套的TextAtlasEval基准测试显示,即使最先进的商业模型也面临显著挑战,为AI图像生成技术指明了新的发展方向。
斯坦福大学Gordon Wetzstein教授团队提出神经辐射场技术,首次让AI具备类似人类的三维空间理解能力。该技术仅需少量不同角度照片即可重建完整三维场景,在图像质量上比传统方法提升20%以上。研究成果应用于自动驾驶、VR/AR、医学影像等领域,标志着AI从二维图像识别向三维空间理解的重大跃进。
新加坡国立大学团队开发的PhotoDoodle系统,通过两阶段训练策略实现了从少量样本学习艺术家照片涂鸦风格的突破。该系统采用位置编码复用和无噪声条件机制,仅需30-50对图片样本就能掌握特定艺术风格,在保持背景完整的同时精确添加装饰元素,为AI辅助艺术创作开辟了新方向。
亚利桑那州立大学等多所高校联合研究发现了AI评估中的"偏好泄漏"现象:当大语言模型既用于生成训练数据又用于评判学生模型时,会产生系统性偏见,偏爱体现自己风格的回答。研究显示这种偏见可达23.6%,比已知的自我中心偏见影响更严重,可能导致AI评估排行榜出现系统性偏差,威胁AI评估体系的公正性。
商汤科技研究团队开发了MaskGWM,一个革命性的自动驾驶预测系统。该系统采用创新的"双重学习法",让AI同时掌握图像生成和逻辑推理能力,能够预测长达12秒的未来驾驶场景。通过空间和时间两个维度的掩码重建训练,结合多视角预测能力,MaskGWM在标准测试中显著超越现有技术,并展现出强大的跨域泛化能力,为更安全智能的自动驾驶技术奠定了重要基础。
UC伯克利研究团队发现,仅用17000个训练样本就能让AI获得强大推理能力,关键在于推理的逻辑结构而非具体内容正确性。即使训练数据包含错误答案或错误计算,AI仍能学会推理,但一旦打乱逻辑结构,性能就会急剧下降。该发现颠覆了AI训练需要海量完美数据的认知,为资源有限的团队提供了经济高效的AI推理能力培养方案。
斯坦福大学研究发现,主要用英语训练的大型语言模型竟能自发学会处理其他语言任务,无需明确教学。这种跨语言迁移能力随模型规模增大而显著提升,通过形成"通用语义空间"实现不同语言间的知识迁移。研究为降低多语言AI开发成本、支持资源稀缺语言提供了新途径,但仍面临性能不均衡、文化适应性等挑战。
随着谷歌搜索和亚马逊主页在电商领域影响力下降,AI助手如ChatGPT、Claude等成为消费者新的购物入口。品牌必须掌握生成式引擎优化(GEO)技术才能保持可见性。传统SEO策略已失效,AI系统更青睐结构化、问答式的高质量内容。研究显示,来自AI助手的流量转化率比其他渠道高9倍。品牌需要基于真实客户问题创建内容,采用结构化问答格式,并建立信任度,才能在这个新的电商秩序中脱颖而出。
阿姆斯特丹大学与Salesforce合作开发的奖励引导推测解码(RSD)技术,通过让小模型处理简单任务、大模型解决复杂问题的智能分工,在保持推理准确率的同时大幅提升计算效率。该技术在数学推理等任务中表现出色,计算量最多可减少75%,为AI应用的普及和成本降低提供了重要技术支撑。
微软研究院开发出LongRoPE2技术,能让大型语言模型的记忆容量扩展64倍至12.8万字,同时保持98.5%的原有性能。该方法通过发现AI位置编码训练不均衡问题,采用智能搜索和混合训练策略,仅用传统方法八十分之一的资源就实现突破。这项技术将使AI能完整处理长文档、进行复杂对话,为文档分析、代码开发、内容创作等领域带来重大改进。
华中科技大学联合地平线机器人开发RAD自动驾驶训练系统,首次将3D高斯点云渲染技术应用于强化学习,在逼真虚拟环境中让AI通过试错学习驾驶技能。该方法巧妙结合模仿学习与强化学习,将碰撞率降低3倍至8.9%,同时保持人类化驾驶风格。研究为自动驾驶AI安全训练开辟新路径,预示更可靠的无人驾驶汽车即将到来。
华盛顿大学研究团队发现小AI模型无法有效学习大模型的复杂推理方法,提出了"小模型可学习性差距"概念。他们通过大规模实验证明,小模型更适合学习简洁推理而非复杂推理,并创新性地提出混合蒸馏法,将不同复杂度的训练数据按比例组合,显著提升了小模型性能,为AI模型训练策略提供了新的"因材施教"思路。
MIT研究团队开发出革命性的手语视频搜索技术,能够通过普通文字搜索找到对应的手语视频内容。该系统运用深度学习建立手语与文字间的语义映射,准确率达到87%,为全球7000万聋人群体打开数字世界大门。技术有望在教育、社交媒体、客服等领域广泛应用,推动建设更包容的数字社会。
谷歌今日发布Pixel 10系列智能手机、轻量化Pixel Buds及更智能的AI助手功能。新品包括Pixel 10、10 Pro、Pro XL和具备防尘防水功能的可折叠Pro Fold,以及Pixel Watch 4。设备搭载新一代Tensor G5芯片,AI处理能力提升60%。Magic Cue是基于Gemini的主动式AI助手,能在用户需要时主动提供信息。新产品在电池续航、显示效果和用户体验方面均有显著提升。
谷歌正在为智能家居领域推出重要的新产品Gemini for Home,这被视为该公司多年来在智能家居市场的最大动作。该产品将整合谷歌的人工智能技术,为用户提供更智能化的家居体验,标志着谷歌在智能家居生态系统建设方面的重大进展。
Salesforce发布面向政府部门的Agentforce平台,该AI智能体开发平台已获得FedRAMP高级授权,可部署到联邦机构。平台提供六种预构建AI机器人,包括代码执行、投诉识别、招聘筛选、职位推荐、福利申请和投诉处理等功能。尽管研究显示AI智能体在70%办公任务中仍会失败,但Salesforce称德州凯尔市使用该系统后显著缩短了服务请求处理时间。多个联邦机构已采购该产品并正在部署中。
主打"极速定制"的Arch衍生发行版CachyOS在DistroWatch人气排行榜上跃居第一位,超越了长期霸榜的Linux Mint和MX Linux。该发行版提供罕见的UKUI桌面环境,并针对高性能进行了优化。最新测试显示,CachyOS在Dell XPS 13上表现出色,三种桌面环境运行流畅,响应速度极快。在Steam调查中,CachyOS占据4.21%的用户份额,紧随Ubuntu 24.04之后,其高性能优化在Linux游戏市场中颇受欢迎。
谷歌发布Pixel 10系列AI手机,抢在苹果iPhone 17之前推出。新设备搭载Tensor G5处理器,配备Visual Overlays相机功能、主动式Magic Cue助手、Camera Coach拍照指导、实时语音翻译等AI功能。Gemini Live新增音调检测,可根据用户情绪调整回应。设备还支持C2PA标准识别AI修图,Voice Translate实现实时通话翻译。