Research 揭晓 50 多篇论文,先容 在创意家当、开辟、医疗和畛域的潜伏使用。

NVIDIA 的研讨职员站在倏地进展的视觉天生式 AI 畛域最前沿,正在开辟用于建立和说明图象、视频与 3D 环境的新技术。
NVIDIA 将在 6 月 17 日至 21 日于西雅图进行的国际视觉与模式辨认集会(CVPR)上展示 50 多个此类项目结果。此中的两篇论文(一篇对于散布模子锻炼静态,另外一篇对于主动驾驶汽车高清舆图)入围了 CVPR 最好论文奖。
NVIDIA 同时还在 CVPR 主动驾驶大型挑战赛中获得了大规模端到端驾驶种别第一名。这座首要的里程碑代表 NVIDIA 正在将天生式 AI 周全应用于主动驾驶模子。NVIDIA 提交的获奖作品在环球 450 多件参赛作品中脱颖而出,还获得了 CVPR 创新奖。
NVIDIA 在 CVPR 上展示的研讨结果包孕:一种可轻松定制以描写特定物体或脚色的文本转图象模子、全新的物体姿势估量模子、神经辐射场(NeRF)编纂手艺以及一种可以或许懂得流行语的视觉言语模子等。此外还展示了先容汽车、医疗和机器人等行业的特定畛域立异的论文。
这些研讨结果都加入了壮大的 AI 模子,赞助创作者可以或许更快地将其艺术构思变成理想,加速制造业自立机器人的锻炼速率,经由过程帮忙处置放射学呈报为医疗业余职员供应支撑。
NVIDIA 感知与进修研讨副总裁 Jan Kautz 暗示:“,尤其是天生式野生智能,是一次关头的手艺前进。从可认为业余创作者供应超强助力的壮大图象天生模子,始终扩展到能够赞助开辟新一代主动驾驶汽车的主动驾驶软件,都将在 CVPR 上显现 NVIDIA Research 若何不息拓宽手艺界限。”
NVIDIA 还在 CVPR 上宣布了 NVIDIA Omniverse Cloud Sensor RTX,这套能完成物理级正确仿真的微办事,从而加快各类全自立机械的开辟事情。
无需微调,JeDi 简化自定义图象天生
散布模子是以后基于文本天生图象的焦点要领。应用散布模子的创作者通常以一个特定的脚色或物体为中央,比方环抱一只动画老鼠创作一个故事,或许集思广益接头一款特定玩具的告白等。
此前的研讨曾经让这些创作者可以或许经由过程微调(即用户在自定义数据集上锻炼模子)对散布模子的输入效果举行个性化处置,使模子可以或许专一于特定的主题。但这一进程异常耗时,并且不支持一般用户应用。
由约翰-霍普金斯大学(Johns Hopkins University)、工业大学芝加哥分校(Toyota Technological Institute at Chicago)和 NVIDIA 研讨职员配合撰写的论文《JeDi》提出了一种新的手艺,使用户只需要应用参考图象就能在几秒钟内轻松完成个性化的散布模子输入效果。研讨小组发现该模子达到了最进步前辈的品质程度,显然优于以后基于微谐和无微调的要领。
JeDi 还能够与检索加强天生(RAG)相结合,为品牌产物目次等天生特定视觉结果。

新根底模子让姿势更圆满
NVIDIA 研讨职员还在 CVPR 上展示了用于物体姿势估量和跟踪的根底模子 FoundationPose。该模子无需举行微调,即可在推理过程当中立即应用于新的物体。
该模子经由过程一小组参考图象或许物体的 3D 显现懂得物体的外形,并且在风行的物体姿势估量基准测试中创下了新纪录。在懂得物体外形后,它就能够辨认并跟踪物体在视频中的 3D 挪移和扭转情形,纵然在光芒前提较差或有视觉障碍物的庞杂场景中也不受影响。
FoundationPose 可用于工业使用,以赞助自立机器人辨认和跟踪与之交互的物体。它还能够用于使用,应用 AI 模子在及时场景上叠加视觉结果。
NeRFDeformer 转换 3D 场景,只要一张快照
NeRF 是一种 AI 模子,能够基于在环境分歧地位拍摄的一系列 2D 图象举行 3D 场景衬着。在机器人等畛域,NeRF 可用于天生理想天下庞杂场景的沉溺式 3D 衬着,比方芜杂无章的房偶尔修筑工地等。一旦需求举行变动,开辟职员就需要手动界说场景的改变体式格局,或许从新制造 NeRF。
伊利诺伊大学香槟分校(University of Illinois Urbana-Champaign)和 NVIDIA 的研讨职员则应用 NeRFDeformer 简化了这一进程。在 CVPR 大会上展示的这一要领,能够应用单张 RGB-D 图象胜利转换现有的 NeRF。RGB-D 图象由失常照片与深度图组合而成,深度图能够捕捉到场景中每一个物体与摄像机之间的间隔。

VILA 视觉言语模子猎取图象
NVIDIA 与麻省理工学院(MIT)联结开展的 CVPR 研讨项目正在推进视觉言语模子手艺的进展。视觉言语模子是一种可以或许处置视频、图象和文本的天生式 AI 模子。
该研讨小组开辟的 VILA 是一个视觉言语模子系列。在测试 AI 模子回覆图象题目才能的关头基准测试中,VILA 的体现优于先前的。VILA 怪异的预锻炼流程解锁了新的模子才能,包孕加倍深挚的天下常识、更壮大的上下文进修才能以及多图象间的推理才能。

VILA 能够懂得流行语并基于多个图象或视频举行推理。
VILA 模子系列支撑应用 NVIDIA TensorRT-LLM 开源程序库举行推理优化,而且能够安排在、工作站以至边缘设置装备摆设的 NVIDIA GPU上。
在 NVIDIA 手艺博客和 GitHub 上都可进一步懂得 VILA。
在 NVIDIA编缉的 CVPR 论文中对于主动驾驶汽车研讨的论文有十多其余主动驾驶汽车相干的重点内容包孕:
- NVIDIA主动驾驶汽车使用研讨博得 CVPR主动驾驶挑战赛冠军并在以下 demo 中进行了演示。
- NVIDIA AI研讨副总裁 Sanja Fidler 于 6 月 17主动驾驶钻研会上揭晓对于视觉言语模子的演讲。
- 多伦多大学和 NVIDIA研讨职员配合撰写的论文《在轨迹展望天生应用在线舆图的不确定性》成为 24 篇入围 CVPR最好论文奖的论文之一。
NVIDIA Research环球领有数百迷信家和专一于 AI、计算机图形学、计算机视觉主动驾驶汽车和机器人畛域研讨懂得更多无关 NVIDIA Research 在 CVPR相干信息。

