新闻资讯

你的位置:开云官网kaiyun皇马赞助商 「中国」官方网站 登录入口 > 新闻资讯 > 开云体育(中国)官方网站该页面包含带有荒谬事件和故障风物的游戏视频-开云官网kaiyun皇马赞助商 「中国」官方网站 登录入口

开云体育(中国)官方网站该页面包含带有荒谬事件和故障风物的游戏视频-开云官网kaiyun皇马赞助商 「中国」官方网站 登录入口

发布日期:2025-05-25 06:57    点击次数:96

新闻资讯

交融物理知识的大型视频话语模子PhysVLM开云体育(中国)官方网站,开源了! 它不仅在 PhysGame 基准上展现出起先进的性能,还在通用视频会通基准上(Video-MME, VCG)进展出逾越的性能。 在这项接头之前,思让 AI 像东说念主类儿童不异,通过不雅察寰宇会通基本的物理学问,是一个主要挑战。 关于现实寰宇的视频来说,全面遮盖和讲授扫数泛泛的物理风物既繁难又毋庸要。 比较之下,游戏视频(gameplay videos)频繁包含违犯物理学问的"故障风物"(glitches),这有助

详情

交融物理知识的大型视频话语模子PhysVLM开云体育(中国)官方网站,开源了!

它不仅在 PhysGame 基准上展现出起先进的性能,还在通用视频会通基准上(Video-MME, VCG)进展出逾越的性能。

在这项接头之前,思让 AI 像东说念主类儿童不异,通过不雅察寰宇会通基本的物理学问,是一个主要挑战。

关于现实寰宇的视频来说,全面遮盖和讲授扫数泛泛的物理风物既繁难又毋庸要。

比较之下,游戏视频(gameplay videos)频繁包含违犯物理学问的"故障风物"(glitches),这有助于简化物理学问会通的界说和评估,即专注于讲授物理学问的违犯风物,而不是试图列举扫数存在的泛泛物理风物。

为此,PhysVLM 在挑升整理的一套数据集上进修,包括用于评估的 PhysGame benchmark、用于监督微调的 PhysInstruct 数据集和用于偏好对皆的 PhysDPO 数据集。

PhysGame benchmark 打算

如图所示, PhysGame包含 880 个含有故障风物的游戏视频,每个视频都配有一个高质料的多项遴荐题,挑升针对故障风物的性质进行标注。

△PhysGame 类别散播

PhysGame 涵盖了四个关节的物理鸿沟(即力学、畅通学、光学和材料属性),并细分为 12 个具体类别(如重力和速率)。

力学(Mechanics):该类别触及力与力矩过甚对畅通的影响,提供了讲授和分析视频中物体畅通的基础旨趣。典型案例包括重力、弹性和摩擦力。

畅通学(Kinematics):该鸿沟接头不探讨力的情况下的畅通,触及邃密分类,如随技艺变化的速率和加快度。

光学(Optics):该鸿沟怜惜光的步履与特质过甚与物资的互相作用,包括反射、折射以及接管与透射。

材料属性(Material properties):该鸿沟指的是物资固有的特质,包括心扉、刚性、物体形势以及东说念主体姿态。

PhysGame benchmark 构建

视频网罗和过滤 :

PhysGame 中的视频主要从 Reddit 页面执取,该页面包含带有荒谬事件和故障风物的游戏视频。为了均衡不同的类别,团队还通过关节词搜索从 YouTube 增强视频数据。团队说明以下两项圭臬进行东说念主工筛查:

选项生成 :

本文以多项遴荐题的形势创建问答对。具体来说,正确选项形容了视频中违犯物理学问原则的特定故障风物。为了增强干涉选项的真正度,本文条款干涉选项中的故障风物应与视频中不雅察到的个体或动作高度有关,这使视频 LLM 会通故障施行,而不单是通过识别包含的物体或动作来遴荐谜底。

质料罢了 :  

为了保证数据集的质料,本文进行了一项包括东说念主工查验和自动 LLM 赞成查验在内的双重质料罢了过程:

东说念主工查验:扫数初步标注的问答对都经过不同东说念主工标注东说念主员的严格交叉查验。关于正确选项,查验东说念主员必须评估它们是否全面准确地形容了扫数存在的物理学问违犯实例。关于干涉选项,查验东说念主员需评估它们是否有余具有引诱性;

LLM 赞成查验 :  团队去除那些仅凭问题和选项,不需要观察视频就能由 GPT-4o 正确回答的问答对。

△PhysGame 示例 PhysInstruct&PhysDPO 数据集构建

PhysInstruct:

为了普及视频 LLM 的物理学问会通能力,团队斥地了 PhysInstruct 数据集用于监督微调。视频网罗过程与 PhysGame 中的经由疏导。为了退缩数据泄露,团队严格舍弃任何已包含在 PhysGame 中的视频。团队衔命 Self-instruct 范式通过辅导 GPT-4o 来构建 PhysInstruct。

PhysDPO:

团队构建了偏好对皆数据集 PhysDPO,以提供更真正和可靠的回答。如图 3 所示,团队将 PhysInstruct 数据吞并生成的谜底视为 preferred 回答,而 dis-preferred 回答则通过元信息改削(meta-information hacking)、技艺改削(temporal hacking)和空间改削(spatial hacking)生成。团队用误导性的元信息以及减少帧数和镌汰帧分辨率的视频帧来辅导 GPT-4o。

以下是 PhysDPO 数据集构建经由图:

模子评估与分析

PhysGame benchmark 实验服从 :

在扫数私有模子中,GPT-4o 和 Gemini-1.5-pro 进展最好,永别达到了 56.1% 和 55.2% 的平均准确率。在扫数细分鸿沟中,GPT-4o 在摩擦和加快度方面进展优胜。比较之下,Gemini-1.5-pro 在会通与重力、弹性、反射、接管与透射、心扉和刚性有关的物理学问方面进展更强。

现存的开源模子远远逾期于私有模子。即即是进展最好的开源模子 LLaVA-OneVision,其平均准确率仅为 47.7%。比较之下,本文建议的 PhysVLM 在扫数私有和开源模子中都达到了起先进的性能。与开源身手比较,本文的 PhysVLM 在 12 个评估鸿沟中的 6 个鸿沟达到了最高性能。值得戒备的是,PhysVLM-DPO 在平均准确率这一倡导上比最好进展的私有模子 GPT-4o 超出了 3.4%。

△PhysGame benchmark 实验服从

Video-MME benchmark 实验服从 :

本文的 PhysVLM 模子在扫数 7B 模子中进展优胜。令东说念主诧异的是,当作 7B 模子,PhysVLM-SFT 和 PhysVLM-DPO 在举座进展上永别比 34B 模子 LLaVA-NeXT-Video 提高了 3.2% 和 3.8% 的皆备值。通过比较 PhysVLM-SFT 和 PhysVLM-DPO,团队发现,使用所建议的 PhysDPO 数据进行 DPO 进修在短视频和长视频上的进展都有所普及,而在中等长度的视频上的进展略有下跌。

△Video-MME benchmark 实验服从

VCG benchmark 实验服从 :

在仅使用 SFT 的模子中,本文的 PhysVLM-SFT 在平均得分方面进展最好。在四个子类别的评估中,PhysVLM-SFT 在信息正确性和一致性类别上进展尤为出色。与使用 DPO 或 PPO 进修的 PPLLaVA 和 LLaVA-Next-Video 比较,本文的 PhysVLM-DPO 也展现出不凡的性能,进一步考据了所建议的 PhysVLM 模子在通用视频会通中的出色能力。

△VCG benchmark 实验服从

PhysVLM 有关论文、代码、数据均已开源 :

pre-prints:   https://arxiv.org/abs/2412.01800

代码衔接 :   https://github.com/PhysGame/PhysGame

leaderboard:   https://physgame.github.io/#leaderboard

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿施行‍

附上论文 / 样式主页衔接,以及干系形态哦

咱们会(尽量)实时回应你

点这里� � 怜惜我,谨记标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日相遇 ~  

官方网站

www.bradleysknives.com

联系邮箱

314d21f5@outlook.com

联系地址

新闻资讯科技园4886号

Powered by 开云官网kaiyun皇马赞助商 「中国」官方网站 登录入口 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024
开云官网kaiyun皇马赞助商 「中国」官方网站 登录入口-开云体育(中国)官方网站该页面包含带有荒谬事件和故障风物的游戏视频-开云官网kaiyun皇马赞助商 「中国」官方网站 登录入口