MDT 논문리뷰(Multimodal Diffusion Transformer: Learning Versatile Behavior from Multimodal Goals)

Multimodal Diffusion Transformer: Learning Versatile Behavior from Multimodal Goals

Multimodal Diffusion Transformer: Learning Versatile Behavior from...

Introduction

multimodal task에서 다목적 행동을 학습할 수 있는 새로운 확산 기반 접근법인 Multimodal Diffusion Transformer (MDT) 를 소개한다. MDT는 적은 언어 주석 데이터에서도 효율적으로 학습하며, 두 가지 self-supervised loss(MGF, CLA)을 도입하여 성능을 크게 향상시킴. MDT는 CALVIN 및 LIBERO 벤치마크에서 최고 성능을 기록하며, 대규모 사전 학습 없이도 탁월한 성능을 보인다.

Method

Problem Formulation

현재 state s와 latent goal g로 컨디셔닝 된 goal-conditioned policy( $π_{θ} ({\bar{a}}_{i} | s_{i}, g)$ ) 는 길이 k의 action sequence를 예측한다. 이 goal은 observation or free-form language ( $g \in o, l$ ).

dataset

goal image는 [20,50] 내에서 0.1 확률로 랜덤하게 샘플링된 미래 state이다. ( $o_{i} = s_{i + j}$ ). Loss는 다음과 같다.

Score-Based Diffusion

noise의 adding,subtracting과정 모두 연속적인 시간상의 SDE문제로 정의한다.

score function은 diffusion time variable t(0~T)를 파라미터로 가진다

이 시점의 SDE는 해가 나오지 않지만 위 식에서 시간항을 무한으로 늘리면 무한소 성질을 가지는 $β_{t}$ 항이 0으로 수렴해 해결이 가능한 ODE로 변한다.

:위의 프로세스는 Wiener Process $ω_{t}$ (무한소의 가우시안 노이즈) 을 denoising 함으로 써 Stochasticity를 줄인다.

$σ_{t}$ : Noise Scheduler , MDT에서는 $σ_{t} = t \in [0.001, 80]$

$β_{t}$ : replacement of existing noise through injected new noise

(기존에 존재하던 Noise를 새로운 noise 로 대체하는 것의 정도에 대한 값)

이 디퓨전 모델은 score matching을 통해 위의 score function을 근사한다.

$β_{t} = 0$ 으로 설정하여 Deterministic한 inverse process를 하도록 하고, 이를 통하여 샘플링 step의 수를 줄인다. 총 DDIM Sampler의 10 step을 사용하여 inference time에서 빠른 샘플링한다.

Model Architecture

MDT는 멀티모달 Transformer 인코더-디코더 아키텍처를 사용함.

인코더 종류:
- MDT (ResNet18을 사용하는 기본 모델)
- MDT-V (고정된 Voltron 임베딩 사용)
MDT-V 인코더:
- Perceiver-Resampler를 사용하여 다양한 크기의 시공간 특징을 고정된 작은 크기의 시각적 토큰으로 매핑, 계산량 감소
- 각 이미지 관찰은 Voltron 임베딩에 의해 196개의 잠재 토큰으로 임베딩됨
- 최종적으로 3개의 토큰 출력
MDT 인코더:
- 학습 가능한 ResNet18을 softmax pooling, group norm과 함께 사용
- 각 이미지에 대해 단일 관찰 토큰 출력
멀티모달 목표:
- CLIP(frozen)을 사용해 각 멀티모달 목표를 단일 토큰으로 구성

MDT Diffusion Decoder 구조 요약:

Masking 및 Denoising: MDT Diffusion Decoder는 마스킹을 통해 action sequence를 denoising함.
Cross-Attention Layer: 디코더 레이어의 모든 cross-attention 레이어에 conditioning 정보를 추가하여 이를 결합함.
Noise Level Embedding: 현재 noise level (\sigma_t)을 Sinusoidal Embedding으로 변환하고, 이를 MLP를 통해 latent noise token으로 만듦.
AdaLN 사용: Adaptive Layer Normalization (AdaLN)을 통해 해당 noise level 정보를 scale 및 shift로 적용하여 디코더 블록에 반영함.

이 구조는 Time step과 label의 embedding을 각각 scale과 shift 값으로 사용하여 모델의 성능을 향상

Masked Generative Foresight(MGF)

Aligning Latent Goal-Conditioned Representations

CLIP으로 이미지 인코딩을 하느데 CLIP은 정적(static) 이미지에 적합하지만, 동적(dynamic) 상황을 이해하는 데 한계가 있음. 이 문제를 해결하기 위해 CLA (Contrastive Latent Alignment) Objective를 도입하여, 모델이 동적 상황을 더 잘 고려할 수 있도록 설계한다.

Loss Formulation

Evaluation

저자들 진짜 열심히 했다…

Ablation study들을 보면 MGF와 CLA의 영향이 벤치마크에 따라 다르게 나타난다.

Limitation

MGF와 CLA는 특정 작업, 특히 LIBERO-Long에서 성능을 향상시키지 못함.
MGF와 CLA의 성능 영향은 벤치마크마다 다름. CLA는 LIBERO에서 더 큰 영향을 미치고, CALVIN에서는 그 반대임.
Diffusion은 다수의 전방 패스를 요구하여 비확산 접근법보다 추론 속도가 느림.
실제 로봇 멀티 작업에서 평균 롤아웃 길이가 짧음. 이는 설정의 난이도와 카메라 위치의 문제로 인한 것일 수 있음.

Comment

DDPM읽고 그 다음에 score-based diffusion에 대한 이해가 없으면 DDIM으로 넘어가기 힘들다. 본 논문에서 score-based diffusion에 대한 논리를 차용해서 얘기하다보니 이런 코멘트가 나옴.

Transformer cross attention & self attention 순서?
→ 3D Diffuser Actor와 달리, noisy action sequence에 대해 self attention을 먼저 수행하고, 그 다음 observation conditioning을 cross attention으로 수행하는 구조이다.
Rollout Length : complex task에서 각 sub task 성공률을 통한 기댓값의 합으로, 길 수록 sub task를 더 많이 수행할 수 있음을 나타낸다.

'ML Study > Robotics논문리뷰' 카테고리의 다른 글

3D Diffuser Actor 논문리뷰(3D Diffuser Actor: Policy Diffusion with 3D Scene Representations) (0)	2024.08.12
Diffusion Policy 논문리뷰(Diffusion Policy: Visuomotor Policy Learning via Action Diffusion) (0)	2024.08.07
Concurrent Training 논문리뷰(Concurrent Training of a Control Policy and a State Estimator for Dynamic and Robust Legged Locomotion) (0)	2024.08.01
GNFactor 논문리뷰(GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields) (0)	2024.07.26
GenLoco 논문리뷰(GenLoco: Generalized Locomotion Controllers for Quadrupedal Robots) (3)	2024.07.24

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

말티즈가 물어온 잡동사니

MDT 논문리뷰(Multimodal Diffusion Transformer: Learning Versatile Behavior from Multimodal Goals)

Introduction

Method

Problem Formulation

Score-Based Diffusion

Model Architecture

Masked Generative Foresight(MGF)

Aligning Latent Goal-Conditioned Representations

Evaluation

Limitation

'ML Study > Robotics논문리뷰' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

MDT 논문리뷰(Multimodal Diffusion Transformer: Learning Versatile Behavior from Multimodal Goals)

Introduction

Method

Problem Formulation

Score-Based Diffusion

Model Architecture

Masked Generative Foresight(MGF)

Aligning Latent Goal-Conditioned Representations

Evaluation

Limitation

'ML Study > Robotics논문리뷰' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역