锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

7 Papers & Radios | 机器人「造孩子」;谷歌裸眼3D全息视频聊天技术公开

时间:2022-11-02 23:00:00 传感器rl70ce

点击上方“3D视觉车间,选择星标

第一时间送达干货

fe5c5376bf74b06234f5b4ec1c27b758.png

来源!机器之心

作者杜伟、楚航、罗若天

本周的重要论文包括能力「造孩子」谷歌公开的机器人和裸眼3D全息视频聊天背后的技术。

目录:

  • Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability

  • AI in Games: Techniques, Challenges and Opportunities

  • Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language

  • Kinematic Self-replication in Reconfigurable Organisms

  • SOFT: Softmax-free Transformer with Linear Complexity

  • Advancing Mathematics by Guiding Human Intuition with AI

  • Project Starline: A high-fidelity telepresence system

  • ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability

  • 作者:Dibya Ghosh、 Jad Rahme、 Aviral Kumar 等

  • 论文地址:https://arxiv.org/pdf/2107.06277.pdf

摘要:今天加强学习(RL)有很多问题,比如收敛效果差。在薄弱的实验环境中,模型测试结果似乎可以接受,许多问题并不明显,但大量的实验证明了深度 RL 尽管 RL 智能主体可以学会执行非常复杂的任务,但它似乎对不同任务的泛化能力较差。相比之下,监督深度网络具有良好的泛化能力。一些研究人员认为,对于监督学习,一个错误只是分类错误的图片。而对于 MDP假设(马尔可夫决策过程) RL,识别错误会导致次优决策,甚至可能总是错误的 RL 不能在现实世界中使用的根源。为什么从根本上很难加强学习的泛化能力,甚至从理论的角度来看?

来自加州大学伯克利分校的博士生 Dibya Ghosh 研究人员从认知中解释了这一现象 POMDP(Epistemic POMDP)、隐式部分可观察(Implicit Partial Observability)解释两个方面。论文一起工作 Dibya Ghosh 研究方向是利用强化学习做出决策。他以前在蒙特利尔 Google Brain 工作。

全部可观察 RL 问题的泛化。

推荐:为何 RL 泛化如此困难:UC 伯克利博士从认知 POMDP、可观察和解读隐藏部分。

论文 2:AI in Games: Techniques, Challenges and Opportunities

  • 作者:Qiyue Yin、Jun Yang、Wancheng Ni 等

  • 论文地址:https://arxiv.org/pdf/2111.07631.pdf

摘要:近年来,我们见证了游戏 AI 的快速发展,从 Atari、AlphaGo、Libratus、OpenAI Five 到 AlphaStar 。这些 AI 在某些游戏中,结合现代技术击败了职业人类玩家,标志着决策智能领域的快速发展。AlphaStar(DeepMind 开发的计算机程序) 和 OpenAI Five(美国人工智能和 OpenAI 开发)分别在星际争霸和 Dota2 达到专业玩家水平。现在看来,目前的技术可以处理非常复杂和不完美的信息游戏,特别是在最近的火王荣耀和其他游戏中,他们都遵循类似的 AlphaStar 和 OpenAI Five 的框架。

我们不禁问:人机游戏: AI 未来的趋势或挑战是什么?中国科学院自动化研究所和中国科学院大学的研究人员回顾了最近典型的人机游戏 AI,并试图通过对当前技术的深入分析来回答这些问题。

本文调查了游戏和游戏 AI

AlphaGo 系列。

推荐:通过这篇文章,研究人员希望初学者能很快熟悉游戏 AI 该领域的技术、挑战和机遇,并能激励路上的研究人员进行更深入的研究。

论文 3:Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language

  • 作者:Mingyu Ding、Zhenfang Chen、Tao Du 等

  • 论文地址:http://vrdp.csail.mit.edu/assets/NeurIPS21_VRDP/vrdp.pdf

摘要:动态视觉推理(Dynamic Visual Reasoning),尤其是涉及到物体间物理关系的推理,是计算机视觉中一个重要且困难的问题。给定一个观测视频,不仅要求模型根据视频推理视频中物体的交互过程,还要求视频的长期未来(Long-term)以及反事实(Counterfactual)预测情况,这两种预测恰好是现有神经网络模型的弱点。现有的方法大致可以分为两类:使用端到端神经网络(如 Vision Transformer)建模物体之间关系的方法 [3]和基于神经符号的(Neuro-Symbolic)的推理模型 [2, 前者受益 Transformer 强大的表征有很好的性能,但它依赖于大量的数据,推理过程不透明,难以解释;后者基于神经符号逐渐推理,模型解释良好,但精度有限;现有解决方案难以解决长期和反事实预测的问题。

本文提出的基于微物理模型的神经符号推理框架很好地解决了这个问题。它从视频和问题中学习物理模型,利用显式物理模型建模物体动力学,并基于准确的动力预测来回答长期和反事实预测问题。本文的框架透明可解释,精度超过了基础 Transformer 的模型。此外,它只使用数据效率好 20% 甚至更少的数据也能取得好的效果。作者来自香港大学 (HKU),麻省理工大学 (MIT) 和 MIT-IBM 沃森人工智能实验室 NeurIPS 2021 接收。

VRDP 框架由视觉感知模块、概念学习器和微物理模型三部分组成

推理问题预测示例

推荐:精度超越 Transformer,MIT、港大提出基于物理模型的 Neuro-Symbolic 视觉推理框架。

论文 4:Kinematic Self-replication in Reconfigurable Organisms

  • 作者:Sam Kriegman、Douglas Blackiston、Michael Levin 等

  • 论文地址:https://www.pnas.org/content/118/49/e2112672118

摘要:机器人必须由金属、塑料、木材和混凝土制成吗?去年,佛蒙特大学和塔夫茨大学的研究人员给出了否定的答案。他们利用青蛙的表皮细胞和心肌细胞创造了世界上第一批活体机器人,并将其命名为「Xenobot」。

「Xenobot」与传统机器人不同,它不是一种已知的动物物种,而是一种新的、生命的、可编程的生物。它们可以独立移动,即使切割也可以自动愈合。

Xenobots 能够集体行动(转圈)。

Xenobot 切割后可自动修复。

推荐:机器人也能「造孩子」:世界上第一台活体机人创生命繁衍新方式。

论文 5:SOFT: Softmax-free Transformer with Linear Complexity

  • 作者:Jiachen Lu、 Jinghan Yao、 Junge Zhang 等

  • 论文地址:https://arxiv.org/pdf/2110.11945.pdf

摘要:近日,来自复旦大学、萨里大学和华为诺亚方舟实验室的研究者在一项研究中经过深入分析表明,这些尝试要么在理论上存在缺陷,要么在实验中对视觉识别无效,并进一步发现这些方法的局限性在于在近似过程中仍然保持 softmax 自注意力。具体来说,传统的自注意力是通过对标记特征向量之间的缩放点积(scaled dot-product)进行归一化来计算的。保持这种 softmax 操作阻碍了线性化 Transformer 的复杂度。基于此,该研究首次提出了一种无 softmax Transformer(softmax-free transformer,SOFT)。

为了去除 self-attention 中的 softmax,使用高斯核函数(Gaussian kernel function)代替点积相似度,无需进一步归一化。这使得可以通过低秩矩阵分解来近似一个完整的自注意力矩阵。通过使用 Newton-Raphson 方法计算其 Moore-Penrose 逆来实现近似的稳健性。ImageNet 上的大量实验表明,SOFT 显着提高了现有 ViT 变体的计算效率。至关重要的是,对于线性复杂性,SOFT 中允许更长的 token 序列,从而在准确性和复杂性之间实现卓越的权衡。

所提出的无 softmax 自注意力 (SOFT) 方法的示意图。P.E.:位置嵌入。虚线:线性投影。dh:每个注意力头的隐藏暗淡。◦ 表示矩阵点积。

不同方法的比较结果。

推荐:解决 Transformer 固有缺陷:复旦大学等提出线性复杂度 SOFT。

论文 6:Advancing Mathematics by Guiding Human Intuition with AI

  • 作者:Alex Davies、Petar Veličković、Lars Buesing 等

  • 论文地址:https://www.nature.com/articles/s41586-021-04086-x

摘要:DeepMind 作为一家全球领先的人工智能公司,他们探索了机器学习 (ML) 在识别数学结构和模式方面的潜力。现在他们帮助数学家解决了一些数学难题,成为 AI 首次探索纯数学的前沿研究,相关论文今天已在《自然》杂志上发表。

具体来说,DeepMind 与顶级数学家合作,将 AI 应用于纯数学中的两个领域:拓扑和表示论。其中 DeepMind 与牛津大学的 Marc Lackenby 教授和 András Juhász 教授一起,通过研究纽结 (Knot) 的结构发现了不同数学领域之间的意外联系;与悉尼大学的 Geordie Williamson 教授一起,DeepMind 发现了一个关于排列猜想的新公式,该猜想几十年来一直未解决。

DeepMind 假设在一个纽结的双曲不变量和代数不变量之间存在一种未被发现的关系。监督学习模型能够检测大量几何不变量和 signature σ(K) 之间存在的模式,并用归因技术(attribution technique)确定最相关的特征。下图 3(a) 显示了 cusp 几何的三个不变量,图 3b 中部分地显示了其中的关系。

推荐:引导直觉解决数学猜想难题,DeepMind 登上《Nature》封面。

论文 7:Project Starline: A high-fidelity telepresence system

  • 作者:JASON LAWRENCE、DAN B GOLDMAN、SUPREETH ACHAR 等

  • 论文地址:https://storage.googleapis.com/pub-tools-public-publication-data/pdf/424ee26722e5863f1ce17890d9499ba9a964d84f.pdf

摘要:今年 5 月举行的谷歌 I/O 大会上,在谷歌园区户外进行的开场 Keynote 上,这家公司发布了一系列引人瞩目的全新产品。在会上,谷歌公布了一个秘密开发多年的黑科技:全息视频聊天技术 Project Starline。Project Starline 本质上是一个 3D 视频聊天室,取代一对一的 2D 视频电话会议,让用户感觉就像坐在真人面前一样。通过 Starline,相互视频的人,不需要佩戴任何眼镜或者头盔,真实的就像坐在对面聊天一样,人物细节饱满。

系统组件。

捕获和显示组件。

推荐:论文来了!谷歌公开裸眼 3D 全息视频聊天技术:8k 屏幕、4 块 GPU 和一堆摄像头。

ArXiv Weekly Radiostation

本周 10 篇 NLP 精选论文是:

1. Predicting Document Coverage for Relation Extraction.  (from Gerhard Weikum)

2. Systematic Generalization with Edge Transformers.  (from Dzmitry Bahdanau)

3. CO2Sum:Contrastive Learning for Factual-Consistent Abstractive Summarization.  (from Wei Liu)

4. Emergent Graphical Conventions in a Visual Communication Game.  (from Song-Chun Zhu)

5. An analysis of document graph construction methods for AMR summarization.  (from Kathleen McKeown)

6. SimCLAD: A Simple Framework for Contrastive Learning of Acronym Disambiguation.  (from Shutao Li)

7. PSG: Prompt-based Sequence Generation for Acronym Extraction.  (from Shutao Li)

8. NLP Research and Resources at DaSciM, Ecole Polytechnique.  (from Michalis Vazirgiannis)

9. Enhancing Identification of Structure Function of Academic Articles Using Contextual Information.  (from Yuzhuo Wang)

10. Near-Zero-Shot Suggestion Mining with a Little Help from WordNet.  (from Sergey Nikolenko)

本周 10 篇 CV 精选论文是:

1. Improved Multiscale Vision Transformers for Classification and Detection.  (from Jitendra Malik)

2. SEAL: Self-supervised Embodied Active Learning using Exploration and 3D Consistency.  (from Jitendra Malik, Ruslan Salakhutdinov)

3. Equitable modelling of brain imaging by counterfactual augmentation with morphologically constrained 3D deep generative models.  (from Sebastien Ourselin, John Ashburner)

4. Multiway Non-rigid Point Cloud Registration via Learned Functional Map Synchronization.  (from Leonidas J. Guibas, Shi-Min Hu)

5. MDFM: Multi-Decision Fusing Model for Few-Shot Learning.  (from Yan-Jiang Wang)

6. AdaAfford: Learning to Adapt Manipulation Affordance for 3D Articulated Objects via Few-shot Interactions.  (from Leonidas Guibas)

7. Semi-Supervised 3D Hand Shape and Pose Estimation with Label Propagation.  (from Richard Hartley)

8. Neural Collaborative Graph Machines for Table Structure Recognition.  (from Bing Liu)

9. Routing with Self-Attention for Multimodal Capsule Networks.  (from Mubarak Shah)

10. OW-DETR: Open-world Detection Transformer.  (from Mubarak Shah)

本周 10 篇 ML 精选论文是:

1. Differentiable Spatial Planning using Transformers.  (from Jitendra Malik)

2. Towards Principled Disentanglement for Domain Generalization.  (from Bernhard Schölkopf, Eric P. Xing)

3. Group equivariant neural posterior estimation.  (from Bernhard Schölkopf)

4. Spatio-Temporal Joint Graph Convolutional Networks for Traffic Forecasting.  (from Philip S. Yu)

5. Adversarial Factor Models for the Generation of Improved Autism Diagnostic Biomarkers.  (from Guillermo Sapiro)

6. Intrinsic Dimension, Persistent Homology and Generalization in Neural Networks.  (from Leonidas Guibas)

7. Editing a classifier by rewriting its prediction rules.  (from Antonio Torralba)

8. On the Generalization of Agricultural Drought Classification from Climate Data.  (from Markus Reichstein)

9. Efficient Online Bayesian Inference for Neural Bandits.  (from Kevin Murphy)

10. Hierarchical Prototype Networks for Continual Graph Representation Learning.  (from Dacheng Tao)

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章