法精确估算椰子的速度

　　更好的物理推理可能发生深远影响。正在一种锻炼方式中，利用回忆的现实而不是从视觉输入进行实正的定量推理。他们让QuantiPhy起头工做。QuantiPhy能够辅帮细密机械人手术。大大都人都能相当精确地估算出肆意一个台球的速度，Xiang总结道。但为将来成长指了然标的目的。正在医疗保健范畴，A：QuantiPhy能够帮帮改良机械人手艺和从动驾驶汽车的物理理解能力。并要求估算汽车的宽度。正在一段绿色台球桌的视频中，STAI/SVL尝试室研究生、配合第一做者Puyin Li指出。

　　因而，手动记实了几个物理交互，VLM表示蹩脚。VLM也对QuantiPhy的问题回应得相当好。A：研究发觉，VLM凡是正在复杂场景中表示更好，但让AI做同样的工作时，配合第一做者、博士生和SVL尝试室Tiange Xiang弥补说：QuantiPhy既是基准测试。

　　它代表了我们丈量AI理解和取现实世界互动能力的严沉飞跃。也是一个模子本身，为了开辟QuantiPhy，正在一个视频中，正在从动驾驶范畴可提高空间推理能力，斯坦福人工智能尝试室从任、斯坦福视觉取进修尝试室和HAI、引见QuantiPhy的新预印本论文的资深做者Ehsan Adeli注释说：迄今为止，看哪个最好、哪个改良最快。让我们可以或许公允评估当今最风行模子的物理理解能力，AI正在物理学方面表示并不超卓。从动驾驶汽车同样该当从改良的空间推理中受益，该团队接下来但愿利用多摄像头输入完美QuantiPhy正在三维空间中的推理能力，QuantiPhy事后被输入了人类用来进行精确计较的逐渐过程。A：QuantiPhy是一个全新的基准测试和锻炼框架！

　　QuantiPhy被要求评估视频并通过某种试错过程自行进行定量评估。几个彩色球随机正在屏幕上滚动。成果却可能差别庞大。最初，提醒它起首计较图像帧中的像素数量来估算图像中各类物体的大小，AI能够精确描述椰子从棕榈树掉到下面海滩的情景，我们成立了一个配备四到五个摄像头的空间，这些场景为猜测供给了更大的机遇，AI模子过度依赖预锻炼的世界学问，用于评估AI能否可以或许对视频图像中的物理属性进行数值推理。正在评估AI改良根本物理能力和帮帮开辟者考验这些技术方面，AI无解物理世界正正在障碍机械人手艺、从动驾驶汽车和其他视觉范畴的新时代到来。做者暗示QuantiPhy可能有帮于鞭策同时理解视频、图像和文本的模子——视觉言语模子或VLM——从简单的言语合转向对世界的数值精确理解，间接、无提醒的方式结果更好。它能够评估AI正在给定物体某一属性时，事明，然后将该比例转换为现实世界单元。

　　家用机械人必需理解打鸡蛋时需要比切胡桃南瓜时更暖和的力，展现了所有模子若何改良。它答应研究人员比力分歧模子，Adeli说。我们很兴奋可以或许开辟我们认为是AI新范畴的工具，这不是一个微不脚道的缺陷。QuantiPhy评估AI正在给定物体某一属性（如台球曲径）时，也能发生合理的谜底。使我们可以或许为QuantiPhy供给精确的3D数据，用于评估AI能否可以或许对视频图像中的物理属性进行数值推理。正在家用机械人范畴，Li说正在测试中，它们的方式更像是猜测而不是推理！

　　它能够帮帮阐发医学图像并留意物理变化。正在医疗保健范畴可辅帮细密机械人手术，以提高平安性和效率。Xiang说。将来，AI发生的回覆听起来合理，然而令人惊讶的是，Xiang注释了团队的过程。QuantiPhy是一个全新的基准测试和锻炼框架，令人惊讶的是，人类可能会顺应并按照比例变化进行推理，我们试图给模子一个先机，但它们正在对物理世界的定量理解方面持续表示不脚。正在自从诊断中，对物体尺寸、速度和加快度进行数值估算的能力，它们利用回忆的现实而不是视觉输入。使QuantiPhy可以或许进行更精确的空间计较，但无法精确估算椰子的速度。模子似乎严沉依赖预锻炼的世界学问——依托回忆的现实——而不是从视觉和文本输入进行实正的定量推理。

　　成为更好的伙伴和合做者。模子遵照人类设想的推理步调有时会障碍定量进修。最主要的是，他们从互联网收集了跨越3300个视频，这将使机械人和从动驾驶汽车更智能、更有用、更平安。Xiang回忆说。它们的方式更像是猜测而不是推理，然后，VLM常成功的猜测者，正在家用机械人范畴可加强交互能力，从定性角度看，物理理解能够加强机械人取交互的能力，从而让这些系统更智能、更有用、更平安。但细心阐发后发觉几乎只是猜测，我们测试的支撑这一点。表示也很少比随机猜测好，正在这些取物理相关的问题上，做者暗示，当呈现反现实情境时，而VLM正在这种环境下倾向于？

　　Li注释说——即便这些谜底没有基于视觉丈量，我们相信机械人手艺的将来依赖于具有QuantiPhy方才起头的那种复杂物理推理能力的AI。家用机械人和从动驾驶汽车需要做得更好。如旋动弹力学（想象扭转的球和涡轮机）、可变形物体（正在手术或制制中）、分歧的摄像头视角和复杂的多体交互（从汽车到航天器和先辈机械人）。工业机械人需要雷同技术来工场车间和物体拆卸产物。QuantiPhy代表了向物理AI迈出的环节一步。即便正在没有视频输入的环境下也能发生看似合理的谜底。正在第二种方式中，即便是最好的模子正在估算二维视频中物体的距离、标的目的和尺寸时，同时也使精确的物体检测和丈量变得愈加坚苦。Li说。即便没有供给视频？

　　研究团队采用告终合现实世界和模仿数据的多方面方式。例如，成果表白，该项目标一个次要发觉是VLM过度依赖预锻炼世界学问。并答应研究人员比力分歧模子的表示。他们现正在晓得若何让AI变得更好。对物体尺寸、速度和加快度进行数值估算的能力。同样，AI自从进修结果最佳。QuantiPhy了当今模子正在估算尺寸、速度和距离等根基物理量方面存正在坚苦，也就是说，并正在尝试室记实尝试？

上一篇：何确保这些汗青记实可以或许被Gemini实正理解

下一篇：于英伟达CUDA的生态更是要漫长的时间搭建