开云网址团队引入了视听一致性评分机制-开云·Kaiyun(中国)官方网站-科技股份有限公司

发布日期:2026-02-12 06:10    点击次数:126

开云网址团队引入了视听一致性评分机制-开云·Kaiyun(中国)官方网站-科技股份有限公司

近日,飞捷科想智能科技(上海)有限公司晓喻完成近亿元Pre-A1轮融资。本轮融资由经纬创投与东方富海连络领投,沐曦股份、驰星创投等机构参与投资。

飞捷科想定位为Physical AI(物理AI)核心基础才气供应商,专注于自主研发面向具身智能的新一代可微分、多物理和洽求解物理仿真引擎。该引擎适配主流及国产GPU,缓助大领域并行仿真,旨在通过生成高质地合成数据,处治机器东谈主老师数据匮乏的行业痛点。

尽管现存顶尖多模态大讲话模子(MLLMs)在语义结实与跨模态推理上已展现出惊东谈主能力,但它们在物理感知层面仍面对巨大的“领略鸿沟”。这种物理领略的缺失,导致现存模子在生成任务中频频产生违背因果律的“物理幻觉”,在推理任务中则倾向于依赖浅层的语义标签而非内在的物理属性与参数,终端了其在真什物理宇宙中的可用性、可靠性与泛化能力。其背后的根底原因在于,要害的物理属性在视觉上具有自然的微辞性,且在现存的汇聚领域数据中短缺显式的表征与对王人,导致模子难以像东谈主类一样通过跨模态萍踪排斥歧义,从而无法建立起对物理宇宙现实的正确意志。

为突破这一物理领略瓶颈,飞捷科想智能科技(Fysics AI)推出了OmniFysics —— 一款面向真实宇宙的全模态物理AI基础模子。OmniFysics和洽了图像、音频、视频和文本的跨模态结实,并集成了高保确切语音与图像生成能力,不仅在程序多模态基准上进展优异,更通过注入显式的物理知识,从根底上重塑了AI模子对物理王法的感知与掂量,有用弥合了隐式神经知道与显式物理知识之间的鸿沟,为构建约略的确结实并与物理宇宙互动的具身智能体奠定了坚实基础。

为了处治高质地物理对王人数据的稀缺问题,团队构建了双核心数据生态系统:FysicsAny核心针对静态属性,通过“感知-检索-考据”的五阶段众人相助机制,结合物理定律管理与分层知识检索,构建了包含 943K 考据物理标签和 4.7M 对领导-图像的首个大领域物理属性数据钞票;FysicsOmniCap核心则针对动态过程,诈骗视听一致性过滤与“大脑-器用”相助机制,索取出872K富含物理因果链的高保真领导钞票,强化了模子对跨模态物理萍踪的捕捉能力。此外,OmniFysics 交融了高效的和洽生成机制与智能动态路由工夫。这种立异瞎想使模子约略凭据用户意图自妥当转机探究资源,在保捏高效推理的同期,精确呈现相宜物理定律(如正确的材质纹理与形变)的视觉内容。

核心核心:

始创“双轮动手”物理数据生态,高出感知鸿沟

OmniFysics之是以能“识破”表象背后的物理现实,源于其背后庞大而严谨的物理数据生态。针对现存公开数据集“重语义、轻物理”的过错,团队构建了FysicsAny 与 FysicsOmniCap 双核心,从静态属性到动态因果,为模子注入了可考据的物理知识。

1. FysicsAny:静态物理属性映掷核心

FysicsAny是首个联结视觉实体与内在物理参数的自动化活水线。为了确保数据的严谨性,FysicsAny 扬弃了单纯依赖大模子生成的旅途,而是经受了一套包含“夹杂采样-物理感知-分层检索-定律考据-领导构建”的五阶段众人相助机制。团队构建了包含300个程序物理原型的数据钞票,涵盖刚体、软体与流体气象,通过检索众人将视觉对象映射到精确的物理参数空间(如密度、杨氏模量、粘度等)。尤为垂危的是,该核心在生成数据前强制施行物理定律考据,举例通过本构方程考据耦合变量的一致性,以及通过硬规模管理剔除一切违背物理学问的“幻觉”数据。该核心最终产出了 943K经过物理定律考据的物理标签和 4.7M物理领导-图像数据,组成了现时领域最大的高质地物理属性数据钞票。

图 1 FysicsAny 数据管谈默示图

2. FysicsOmniCap:动态视听因果核心

物理宇宙的现实在于变化与交互,FysicsOmniCap 专注于捕捉时代动态与跨模态因果性。团队引入了视听一致性评分机制,精确筛选出具有强因果联系(如“敲击声-材质硬度”)的动态片断。该引擎经受强众人模子四肢核心大脑,转机视觉、音频与物理感知三大家人模子协同使命。这种机制约略合成深度物理因果链。举例,模子不仅能面貌“一个球落地”,还能凭据声息忖度出“球体具有高刚性,落地后无塑性变形并连忙反弹”。最终,该核心索取出 872K 高保真领导对,使模子约略结实荫藏在像素变化背后的物理王法。

建程序式:

紧凑型全模态和洽架构,已毕高效物理对王人

OmniFysics 结巴了传统模子在结实与生成之间的壁垒,冷漠了一种全新的全模态和洽架构,以 3B 参数的大讲话模子为基座,已毕了对图像、音频、视频与文本的和洽处理与生成。

图 2 OmniFyscis模子框架默示图与全模态微调阶段老师数据配比

1. 全模态和洽交互与高保真生成

模子经受了时代多模态旋转位置编码,约略精确处理交错的视听流输入。在输出端,OmniFysics 集成了两大生成模块:Spoken Voxer缓助从多模态落魄文径直掂量闹翻音频token,合成高保真语音;同期也具备了物理感知的图像生成能力,约略基于对物理属性的真切结实,合成相宜真什物理王法的高质地元素。

2. 智能动态路由机制

为了在复杂交互中均衡推理深度与反应速率,OmniFysics 立异性地交融了智能动态路由工夫。该机制充任了模子的“意图指导官”,约略及时代析用户领导的句法结构与语义意图。当识别到浅显的谈天或基础理免除务时,模子自动切换至轻量级感知模式,极速反应用户领导;当检测到波及复杂物理模拟或高精度生成的央求时,则智能激活高阶生成模块。这种自妥当探究政策确保了模子在保捏极低延迟的同期,约略精确施行相宜物理王法的复杂意图任务。

3. 渐进式四阶段老师与亿级全模态数据配比

OmniFysics 实施了层层递进的四阶段老师政策,逐渐解锁全模态结实与生成能力。该经过始于单模态众人的零丁预老师,随后干与全模态连络对王人阶段,诈骗 3700万条悉心配比的领导微调数据,将图像、视频、音频与文本映射到和洽语义空间,并要害性地融入了 FysicsAny 与 FysicsOmniCap 生成的物理增强数据钞票,确保模子建立起褂讪的物理宇宙不雅。在临了的生成能力突破阶段,OmniFysics 进一步引入了稀奇 1亿的高质地样本进行专项老师:涵盖用于构建高保真语音映射的音频数据,以及用于图像生成流匹配老师的海量图文对。这种“结实与生身分阶段、物理与语义相交融”的老师范式,确保了模子在习得通用多模态结实的同期,约略内化真实的物理王法。

图 3 OmniFysics的四阶段老师经过

FysicsEval:

首个全维度物理感知与逻辑推理基准,重塑物理AI领略规模

为了全见解量化物理AI的领略规模,咱们持重推出了FysicsEval——海外首个全维度物理感知与逻辑推理评测基准。该评测基准是一个面向多模态物默然能的全维度、多粒度评估系统,初次将物理感知与掂量、物理逻辑推理、物理宇宙结实三大核心能力纳入归拢评估体系,为通用多模态模子建立了物理领略能力的和洽标尺。

1. 填补行业空缺的详细评估体系

现存评测基准主要针对表面解题或定性场景分析,仅能评估直观物理或物理答题能力,无法自在下一代通用物理AI与物理现实交互的需求。FysicsEval 强调定量掂量与定律推理,旨在处治现存评测无法自在通用大模子与物理宇宙交互需求的问题。基准包含 3,854 个源自真实宇宙的样本,障翳刚体、软体、流体三大物理格式,以及密度、摩擦整个、杨氏模量等 11 类要害物理参数。

表 1 FysicsEval与现存物理评测基准的全见解对比

2. 三大核心能力维度的深度障翳

FysicsEval 建立了和洽的评估框架,涵盖三个互补的能力维度:(1)物理属性定量掂量,熟谙模子能否从视觉萍踪中反推潜在物理参数;(2)可解释性物理推理,条目模子基于守恒定律和受力分析等,生成相宜因果律的推理链路;(3)跨模态一致性结实,评估模子对物理宇宙的结实以及识别违背物理学问的“幻觉”表象的能力。通过整合定量掂量、深度推理、物理结实与幻觉识别三大核心维度,FysicsEval 建立了一套严实的物理领略评价体系,迫使模子走出语义抖擞区,直面物理宇宙的因果铁律。

性能考据:

结巴 Scaling Law,小参数目下的物默然能透露

通过多维度的详细实验,OmniFysics 考据了一个垂危论断:注入显式物理知识,不错让紧凑型模子在特定领域超越盲目扩大参数领域的通用模子。

1. 物理AI感知能力的大幅跃升

在专为物默然能瞎想的 FysicsEval 评测中,OmniFysics (3B) 展现出惊东谈主的爆发力,其详细得分不仅全面稀奇同量级开源模子,更在多项要害目的上超越了Gemini-2.5-flash和Claude-4.5-Haiku等大领域参数的闭源模子,合座上赢得了最佳的物理逻辑推理能力。在 PhysBench、QuantiPhy 等泰斗第三方物理榜单上,OmniFysics 相通保捏了开端上风。这一效果有劲证明了,专用物理数据核心约略有用弥合小参数架构与高密度物理知识之间的差距,已毕物理领略的越级进展。

图4 FysicsEval全维度物默然能评估效果

图5物理AI感知能力评估效果

2. 视觉多模态结实的稳健进展

物理能力的增强并未抛弃通用的视觉感知。在 MMBench、MMStar 等六大通用视觉结实基准评测中,OmniFysics 赢得了 72.8% 的平中分,在扫数同尺寸的Omni模子中位列第一。绝顶是在 MMMU 等波及学科知识推理的任务上,OmniFysics 凭借其强盛的物理逻辑老师,展现出了超越传统视觉模子的推理鲁棒性。

图6视觉多模态结实能力评估

3. 全模态与视频结实的全面领跑

在OmniBench、Video-MME 等全模态与视频结实榜单中,OmniFysics 以 49.97 的平中分位居 3B 量级模子之首,在 5 个评估基准中有 4 个优于 Qwen2.5-Omni 3B。这证明全模态数据和物理视频感知数据的引入,约略增强模子关于真实音视频环境的妥当。

图7全模态与视频结实能力评估

4. 音频结实能力评估

在 MMAU 和 MMAR 音频结实基准上,OmniFysics 赢得了 61.2 的平中分,这一收货不仅优于 Qwen2.5-Omni 3B,更在部分目的上超越了音频众人模子。这标明 OmniFysics 的全模态架构得胜建立了对声学信号的深度感知,并未因侧青睐觉物理而偏废听觉能力。

图8音频结实能力评估

5. 物理诚实的高保真图像生成

现时的主流文生图模子过火评测体系主要侧重于“语义一致性”与“艺术好意思感”,通常忽视了对“物理王法一致性”的考量。在定性实验中,OmniFysics 展现了私有的“物理转译”能力——它能凭据“密度”、“杨氏模量”等抽象参数,生成具有正确材质精炼与形变逻辑的图像,这是现时文生图模子无法企及的“物理真实”。

图9高保真物理感知的图像生成

四肢首个注入显式物理知识的紧凑型全模态物理大模子,OmniFysics 得胜高出了隐式神经知道与显式物理定律之间的领略鸿沟 。它不仅结巴了全模态模子在参数领域上的固有依赖,证明了小参数目下物默然能透露的可行性 ,更将多模态生成的范式从单纯的“语义对王人”重塑为严谨的“物理诚实”。OmniFysics 建设了具备物理王法的因果逻辑与高精度物理掂量能力的物理AI 新范式,为具身智能在真什物理宇宙中的感知、交互与演进奠定了坚实的基础。

数据基准: https://github.com/Fysics-AI/FysicsEval

Hugging Face畅达: https://huggingface.co/datasets/Fysics-AI/FysicsEval

蔓延阅读

飞捷科想智能科技(上海)有限公司由复旦大学智能机器东谈主与先进制造立异学院副院长、智能机器东谈主商讨院常务副院长,原英伟达PhysX物理引擎主要奠基东谈主与研发团队负责东谈见解立华证明注解创办,是国内唯独领有阔气自主研发的可微分通用物理仿真引擎产物的企业。公司以新一代物理仿真引擎 Fysics为核心,戮力于打造大家开端的物默然能要害工夫与产物,鼓动具身智能与东谈主形机器东谈主工夫研发及应用场景的快速落地,在高精度物理仿真引擎、高质地具身智能仿真平台、机器东谈主敏捷迷惑与鲁棒智能限制等领域处于行业开端水平,并向行业提供障翳“仿真—老师—部署—迭代”的全栈处治有野心。依托自主可控的物默然能底座,公司捏续赋能中国具身智能与机器东谈主产业的发展。

翻开畅达:https://arxiv.org/pdf/2602.07064开云网址,下载工夫证明