科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-05-29 12:04:11
ScanBot:为什么康涅狄格大学研究团队认为机器人不仅需要抓取物体,还应精确扫描物体表面

ScanBot是康涅狄格大学研究团队开发的首个专为高精度表面扫描设计的指令条件数据集,旨在解决机器人在精细工具使用方面的能力缺口。与传统数据集专注于抓取和导航不同,ScanBot关注亚毫米级精度控制,包含12个物体、…详细

机器人学习视觉语言动作模型表面扫描

2025-05-29 12:03:07
价值引导搜索:提升推理模型思维链的高效指南——康奈尔大学研究团队的突破性成果

康奈尔大学研究团队提出了"价值引导搜索"方法,通过训练标记级价值模型来优化大型语言模型的推理过程。他们收集了250万个数学推理轨迹,训练了15亿参数的评估模型,实现了基于块的高效搜索。这种方法不需要预定义"步…详细

人工智能大型语言模型测试时计算优化

2025-05-29 12:02:35
FuxiMT:基于稀疏化大语言模型的中文为中心多语种机器翻译系统——天津大学和清华大学联合打造跨语言沟通新桥梁

天津大学和清华大学研究团队开发的FuxiMT是首个中文为中心的多语言翻译模型,基于BLOOMz模型并整合了混合专家技术,支持65种语言的翻译。其采用两阶段训练策略:先在50亿中文句子上预训练,再通过课程学习方法在多语…详细

大语言模型稀疏化技术多语言翻译

2025-05-29 12:01:08
s3搜索智能体:使用强化学习训练高效搜索,让你的Large Language Models检索能力大增

伊利诺伊大学研究团队开发的s3框架只需2,400个训练样本,就能超越需要17万个样本的现有方法,大幅提升语言模型的搜索质量。通过将搜索与生成解耦,s3使用"超越朴素RAG的增益"奖励,专注训练搜索智能体而保持生成模型…详细

人工智能强化学习检索增强生成

2025-05-29 10:26:09
PHYX:大模型的物理推理能力测试,揭示AI在视觉物理问题上的惊人差距

香港大学等机构研究者开发的PHYX基准测试评估了AI模型的物理推理能力,结果显示即使最先进的GPT-4o等多模态模型在此类任务上的准确率仅为32.5%-45.8%,比人类专家低29%以上。PHYX包含3000个跨六大物理领域的多模态问…详细

人工智能物理推理多模态大模型

2025-05-29 10:25:50
QwenLong-CPRS: 阿里巴巴推出突破无限长文本窗口的动态上下文优化技术

QwenLong-CPRS是阿里巴巴千问文档团队开发的创新上下文压缩框架,专为解决大型语言模型处理长文本的效率和"迷失在中间"问题。该技术通过自然语言引导的动态优化、双向推理层、基于语言建模的标记评价和窗口并行推理四…详细

大型语言模型动态上下文优化长文本处理

2025-05-29 10:25:31
MOOSE-Chem3:通过模拟实验反馈进行假设排序,迈向实验引导式科学发现

这项研究介绍了MOOSE-Chem3,一种通过模拟实验反馈进行化学假设排序的创新方法。传统的预实验排序仅依靠大型语言模型的内部推理,而该研究提出的实验引导式排序方法则利用先前实验结果来优化决策。研究团队基于三个领…详细

人工智能化学研究实验模拟

2025-05-29 10:24:54
FullFront:探索跨越前端工程全流程的多模态大语言模型基准测试

FullFront是一项创新研究,首次全面评估多模态大语言模型在前端工程完整流程(从设计概念化到视觉理解再到代码实现)中的能力。研究通过精心设计的基准测试,包括网页设计、网页感知问答和网页代码生成三大核心任务,…详细

前端工程多模态大语言模型视觉感知

2025-05-29 10:24:11
Time-R1: 让3B小模型也能拥有全面时间推理能力,击败671B大模型

这项研究介绍了Time-R1,一个3B参数的语言模型,通过创新的三阶段强化学习训练方法,在时间推理能力上超越了参数量大200倍的模型。该框架依次建立了基础时间理解、未来事件预测和创意场景生成能力,采用精心设计的动…详细

人工智能时间推理强化学习

2025-05-29 10:23:50
Bench-V:首个评估多模态输出视觉推理能力的基准测试

这项由清华大学领导的研究提出了Bench-V,首个专注于评估AI模型视觉推理中多模态输出能力的基准测试。通过803个涵盖数学、物理、计数和游戏的精心设计问题,研究揭示即使是最先进的OpenAI o3模型也仅达到25.8%准确率…详细

人工智能评估多模态输出视觉推理能力

2025-05-29 10:05:33
数据目录为非结构化数据带来全新改变

本文介绍了 Starfish Storage 开发的非结构化数据目录(UDC),它利用跨厂商文件索引与灵活元数据管理,实现大规模存储管理及 AI 数据应用,帮助企业识别文件价值、优化存储策略。…详细

人工智能元数据管理跨存储整合

2025-05-29 10:04:10
Salesforce 斥资80亿美元收购 Informatica 支持 agentic AI 策略

Salesforce将以约80亿美元收购云数据管理公司Informatica,通过整合数据目录、数据集成、治理及质量管理等领先能力,构建统一的平台,支持agentic AI大规模、安全应用,助推企业数字化转型。…详细

人工智能云数据管理Agentic AI

2025-05-29 10:01:40
Bit Cloud 为 AI 生成应用程序提供更高的可视性和控制力

Bit Cloud 推出 Hope AI,这是一款新型 AI 代理,能通过自然语言提示构建完整、模块化、长期可扩展的应用。它打破常见的“黑箱”现象,实现代码透明、易于维护,并支持 GitHub、Azure DevOps 等主流工具,现提供免费…详细

人工智能软件组件化AI 自动编程

2025-05-29 10:00:28
618买什么?综合强才是真的强 机械革命极光X搭载“六边形战士“酷睿 Ultra 200HX创造AI游戏体验

在"Windows 11 AI+ PC创新AI及游戏体验·618英特尔(R) 酷睿(TM) Ultra产品品鉴会"上,英特尔联合微软和京东正式宣告PC产业迈入Windows 11 AI+新时代。…详细

2025-05-29 09:59:55
2025 BOE(京东方)全球供应伙伴大会隆重举行 共筑全球显示产业共生共赢新格局

5月28日,备受瞩目的2025年BOE(京东方)全球供应伙伴大会(BOE SPC 2025)在东方帆船之都——青岛盛大启幕。…详细

2025-05-29 09:59:01
原子峡谷想要成为核工业的 ChatGPT

Atomic Canyon 借助 AI 技术帮助核电厂高效检索海量文件,已与 Diablo Canyon、Oak Ridge 国实验室等达成合作并获融资,为核能行业带来颠覆性搜索解决方案。…详细

核能生成式 AI文档搜索

2025-05-29 09:58:39
基于放射影像的临床诊断中,AI模型尚未达到实际应用水平

新研究通过 DeepTumorVQA 基准测试表明,尽管 AI 在基本识别和测量任务上有一定表现,但在复杂医学推理上仍远落后于临床要求,难以取代医生的诊断判断。…详细

人工智能视觉语言模型DeepTumorVQA

2025-05-29 08:25:24
NOVER:语言模型的无验证器强化学习激励训练

NOVER是一种创新的无验证器强化学习框架,解决了传统激励训练依赖外部验证器的限制。由伦敦国王学院研究团队开发,它通过计算"推理困惑度"作为奖励代理,使语言模型能在任何文本任务中自主发展推理能力。实验表明,N…详细

人工智能强化学习语言模型推理

2025-05-29 08:24:17
当心安全漏洞!韩国中央大学研究团队揭示大语言模型在遵守安全政策时面临的严峻挑战

韩国中央大学研究团队开发了名为CoPriva的基准测试,评估大语言模型遵守上下文安全策略的能力。研究发现,虽然多数模型能成功拒绝直接违反安全政策的查询,但在面对间接攻击时存在严重漏洞,泄露率平均增加40%以上。…详细

大语言模型安全政策间接攻击

2025-05-29 08:20:15
不是所有模型都适合专家卸载:揭秘混合专家模型的局部路由一致性

这项研究分析了混合专家模型(MoE)的"局部路由一致性"特性,即连续词元激活相似专家的程度,这对内存受限设备上的模型部署至关重要。研究者提出了两种测量指标:段路由最佳性能(SRP)和段缓存最佳命中率(SCH),分…详细

大语言模型混合专家模型专家卸载技术

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章