3D Diffuser Actor: Policy Diffusion with 3D Scene Representations
3D Diffuser Actor: Policy Diffusion with 3D Scene Representations
Introduction
Manipulation task는 기본적으로 멀티모달 성격을 가진다. 가장 자연스러운 해결 메소드는 policy학습을 distribution learning problem으로 정의하고 policy를 deterministic map(
본 연구에서는 effective spatial reasoning을 위한 3D scene representation을 이용한 action prediction에 diffusion을 결합하여 멀티모달리티를 처리한다. 3D Diffuser Actor를 제시한다.
a novel 3D denoising policy transformer that takes as input a tokenized 3D scene representation, a language instruction and a noised end-effector’s future translation and rotation trajectory, and predicts the error in translations and rotations for the robot’s end-effector
scene tocken과 end effector location을 동일한 3D 공간에서 표현하며, 이 두 요소를 relative-position 3D attention을 통해 결합한다. 이를 통해 모델은 translation equivariance을 달성하며, 이는 모델의 generalization capability를 강화한다.

본 연구의 main contribution은 3D scene representation과 diffusion objective를 결합해 demonstration기반 robot policy 학습을 하는 것이다. 논문 전반에 걸쳐 비슷하지만 3D scene을 1D 임베딩하여 활용하는 3D diffusion policy와 비교한다.
Related Work
Learning manipulation policies from demonstrations
Diffusion models in robotics
2D and 3D scene representations for robot manipulation
Method
Appendix에서 가져온 자세한 모델 구조이다.

3D Diffuser Actor는 task에 대한 언어 지시와 함께 하는 {(
visual observation
end-effecter 3D location, rotation, gripper
quaternion의 불연속성을 방지하기 위해 [REF]의 6D representation을 사용한다. 매 timestep t마다 모델은 다음과 같은 구조의 prediction을 뱉는다. $\tau_t = (a^{loc}{t:t+T}, a^{rot}{t:t+T}), a^{open}_{t:t+T}$

위 이미지에서 3D Diffuser Actor의 구조를 보여준다. visual scene과 language instruction을 받아 전체 경로
and
3D Relative Denoising Transformer
3D Diffuser Actor는 3D relative transformer
3D Tokenization
모든 diffusion step 에서 클린한 궤적
3D Relative Denoising Transformer는 모든 3D token에 self-attention을 적용하고, 언어토큰에 cross-attention을 적용한다. 3D self-attention에서 attention layer의 상대 위치 정보를 주기 위해 rotary positional embedding을 박는다. 어텐션 가중치 q,k를 이렇게 정의한다
최종 궤적을 MLP를 통과시켜 loc noise 와 rot noise를
Training and Inference
Loss function 형태는 아래와 같다. 특이하게 L1 loss를 사용한다.

Experiments and Results
성능 테스트는 벤치마크로 RLBench와 CALVIN에서 멀티태스킹 manipulation을 수행한다. 비교군으로 채용된 모델들은 3D input을 받는 모델들로 선정한다.
RLBench

CALVIN

Limitations
현 시점에 세 가지 한계가 존재한다.
- 모든 3D task 와 동일하게 카메라 캘리브레이션과 깊이 정보가 필요하다.
- RLBench와 CALVIN에서의 테스트는 거의 정적인 것으로 동적 테스크 수행은 현재 어렵다.
- diffusion 을 사용하지 않은 모델에 비해 느리다.
댓글