금주 캐치페이퍼는 Microsoft Research, Google, Tencent, Meta, Alibaba, Meituan과 함께합니다. 3분만 투자해 쓱 둘러보고, 빠르게 바뀌는 기술의 방향성을 놓치지 마세요!

📈 최신 AI 트렌드 3줄 요약

🌟 비디오 생성 모델의 추론 능력과 월드 시뮬레이션이 이번 주의 핵심 키워드입니다
🔥 LLM 에이전트의 '경험 학습'과 '자기 진화'가 새로운 연구 흐름으로 부상하고 있습니다
🚀 1,600개 언어 번역부터 스테레오 VR 렌더링까지, AI가 커버하는 범위가 극적으로 확장되고 있습니다

🔭 "비디오 모델은 프레임이 아니라 '노이즈 제거 단계'에서 생각한다"

Demystifing Video Reasoning
🏛️ 소속: SenseTime, CUHK, NTU
🏷️ 핵심 키워드: Video Reasoning, Chain-of-Steps, Diffusion Transformers

💭 이런 질문을 해본 적 있나요?

  • 비디오 생성 모델이 정말로 '추론'을 할 수 있을까?

  • 영상 속 논리적 전개는 프레임 순서대로 만들어지는 걸까?

  • 디퓨전 모델 내부에서 실제로 무슨 일이 벌어지고 있을까?

셰프가 요리를 할 때, 간을 보고 조절하고 때론 처음부터 다시 시작하죠. 비디오 디퓨전 모델도 마찬가지였습니다. 이 연구는 기존의 '프레임 순서대로 추론한다(Chain-of-Frames)' 가정을 뒤집고, 실제로는 디노이징 단계를 따라 추론이 전개된다는 Chain-of-Steps(CoS) 메커니즘을 발견했습니다. 초기 단계에서 여러 후보 해답을 탐색하고, 점진적으로 최종 답에 수렴하는 과정이 관찰됩니다.

특히 주목할 점:

  • 워킹 메모리, 자기교정, 인지 후 행동 등 3가지 창발적 추론 행동을 최초로 규명

  • Diffusion Transformer 내부에서 초기 레이어→지각, 중간→추론, 후기→통합이라는 기능적 분화 발견

  • 동일 모델의 다른 시드 잠재 경로를 앙상블하는 것만으로 추론 성능 향상 (학습 없이!)

🎯 왜 이것이 게임 체인저인가? : 비디오 모델의 추론을 '블랙박스'로 취급 → 디노이징 스텝 단위의 체계적 이해와 학습-없는 개선 전략 제시

🧠 "AI가 실전 경험에서 스스로 배우는 시대가 온다"

Online Experiential Learning for Language Models
🏛️ 소속: Microsoft Research
🏷️ 핵심 키워드: Online Learning, Experience Distillation, Context Distillation

💭 이런 질문을 해본 적 있나요?

  • LLM이 배포 후에도 계속 발전할 수는 없을까?

  • 실제 사용자와의 상호작용 데이터를 학습에 활용할 방법은?

  • 오프라인 훈련의 한계를 어떻게 넘어설 수 있을까?

운전면허를 딸 때, 이론 시험과 실제 도로 주행 경험은 차원이 다릅니다. 지금까지의 LLM은 '면허 시험'까지만 준비된 상태였죠. Microsoft Research가 제안한 OEL 프레임워크는 실제 배포 환경에서 축적된 경험을 추출하고, 이를 on-policy context distillation으로 모델에 통합합니다. 사용자 환경에 접근하지 않고도 지속적 개선이 가능한 것이 핵심입니다.

특히 주목할 점:

  • 반복 라운드마다 작업 정확도와 토큰 효율성 모두 일관적으로 향상

  • 원시 trajectory 대비 추출된 경험 지식이 현저히 더 효과적

  • 비정형(OOD) 환경 성능도 유지되어 일반화 능력 보존

🎯 왜 이것이 게임 체인저인가? : 오프라인 정적 학습 → 배포 후에도 자기 경험으로 진화하는 온라인 학습 루프

🎮 "카메라 포즈 하나로 게임 월드의 3D 일관성을 잡다"

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation
🏛️ 소속: KAIST
🏷️ 핵심 키워드: World Model, Camera Pose, 3D Consistency

💭 이런 질문을 해본 적 있나요?

  • AI가 생성한 게임 월드를 자유롭게 탐험할 수 있을까?

  • 이전에 방문한 장소를 다시 갔을 때 똑같이 보일까?

  • 사용자의 정밀한 액션 컨트롤이 가능할까?

VR 게임에서 뒤돌아봤더니 방금 본 건물이 사라져 있다면? 기존 월드 모델들은 사용자 액션을 추상적 신호로 처리해 이런 문제가 빈번했습니다. KAIST 연구진은 카메라 포즈를 기하학적 통합 표현으로 설정하여 즉각적 액션 제어와 장기적 3D 일관성을 동시에 해결했습니다. 6-DoF 카메라 포즈를 리 대수(Lie algebra)로 표현하고, 글로벌 포즈를 공간 인덱스로 활용하여 과거 관측을 기하학적으로 일관되게 재방문합니다.

특히 주목할 점:

  • 3,000분 분량의 실제 게임플레이 데이터셋 구축 (카메라 궤적 + 텍스트 어노테이션)

  • 액션 제어 가능성, 장기 시각 품질, 3D 공간 일관성 모두에서 SOTA 대비 크게 우수

  • 물리 기반 연속 액션 공간으로 정밀한 6-DoF 제어 구현

🎯 왜 이것이 게임 체인저인가? : 추상적 액션 신호 기반 월드 모델 → 카메라 포즈 기반의 기하학적으로 정확한 인터랙티브 3D 월드

🗺️ "3D 패치를 모자이크처럼 붙여 월드 시뮬레이터의 기억력을 완성하다"

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models
🏛️ 소속: Georgia Tech
🏷️ 핵심 키워드: Spatial Memory, Video World Model, Hybrid 3D Memory

💭 이런 질문을 해본 적 있나요?

  • 비디오 월드 모델이 카메라를 돌려도 장면을 기억할 수 있을까?

  • 명시적 3D와 암묵적 메모리의 장단점을 동시에 가져올 방법은?

  • 분 단위의 긴 탐색에서도 일관성을 유지할 수 있을까?

퍼즐 조각을 맞추듯, MosaicMem은 영상 패치를 3D로 들어올려 정확한 위치 추적과 타겟 검색을 수행하면서도, 모델 고유의 컨디셔닝을 활용해 프롬프트 따르기 능력을 보존합니다. 쿼리된 뷰에서 공간 정렬된 패치를 합성하고, 변해야 할 부분은 모델이 인페인팅하는 patch-and-compose 방식이 핵심입니다.

특히 주목할 점:

  • 암묵적 메모리 대비 포즈 준수력 향상, 명시적 베이스라인 대비 동적 모델링 강화

  • 분 단위 내비게이션, 메모리 기반 씬 편집, 오토리그레시브 롤아웃까지 지원

  • PRoPE 카메라 컨디셔닝과 2가지 새로운 메모리 정렬 기법 도입

🎯 왜 이것이 게임 체인저인가? : 명시적 3D vs 암묵적 메모리 택일 → 하이브리드 공간 메모리로 두 가지 장점을 동시 확보

🤖 "말만 하면 스스로 진화하는 AI 에이전트"

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild
🏛️ 소속: UCSC, UNC
🏷️ 핵심 키워드: Meta-Learning, Continual Learning, LLM Agent

💭 이런 질문을 해본 적 있나요?

  • 배포된 AI 에이전트가 사용자 니즈 변화에 스스로 적응할 수 있을까?

  • 다운타임 없이 에이전트 능력을 업그레이드할 방법은?

  • 스킬 라이브러리와 기본 정책을 동시에 진화시킬 수 있을까?

자동차의 소프트웨어 업데이트가 주행 중에 이루어진다고 상상해보세요. MetaClaw가 바로 그 개념입니다. 실패 경험에서 새로운 스킬을 합성하여 즉각적 개선(다운타임 제로)을 달성하고, 사용자 비활성 시간에 RL-PRM 기반 정책 최적화를 수행합니다. 두 메커니즘이 상호 강화되어 에이전트가 지속적으로 발전합니다.

특히 주목할 점:

  • 스킬 기반 빠른 적응으로 정확도 최대 32% 상대 향상

  • Kimi-K2.5 정확도 21.4% → 40.6%로 개선, 복합 강건성 18.3% 증가

  • 프록시 기반 아키텍처로 로컬 GPU 없이도 대형 LLM 스케일링 가능

🎯 왜 이것이 게임 체인저인가? : 정적으로 배포되는 에이전트 → 실전에서 스킬과 정책이 공진화하는 메타러닝 에이전트

⚡ "키프레임 몇 장이면 영상 전체가 고화질로 — Google의 인터랙티브 초해상도"

SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation
🏛️ 소속: Google
🏷️ 핵심 키워드: Video Super-Resolution, Keyframe Propagation, Interactive Editing

💭 이런 질문을 해본 적 있나요?

  • 영상 초해상도에서 원치 않는 아티팩트를 사용자가 직접 수정할 수 있을까?

  • 모든 프레임이 아닌 핵심 프레임만 처리해도 될까?

  • 옛날 영화 복원이나 스타일 변환에도 같은 모델을 쓸 수 있을까?

사진 편집에서 '포인트' 몇 개만 찍으면 전체 이미지가 변하는 것처럼, SparkVSR은 소수의 키프레임만 초해상도로 처리한 뒤 그 정보를 전체 영상에 전파합니다. 기존 VSR이 블랙박스처럼 결과를 받아들여야 했다면, 이 시스템은 키프레임 선택과 가이던스 조절을 통해 사용자 제어를 가능하게 합니다.

특히 주목할 점:

  • CLIP-IQA 24.6%, DOVER 21.8%, MUSIQ 5.6% 베이스라인 대비 향상

  • 레퍼런스 키프레임이 없거나 불완전해도 강건하게 작동하는 가이던스 메커니즘

  • 학습 없이 old-film restoration, video style transfer에 즉시 적용 가능

🎯 왜 이것이 게임 체인저인가? : 블랙박스 VSR → 키프레임 기반 인터랙티브 제어로 사용자가 결과를 주도하는 초해상도

👁️ "스테레오 비디오를 한 번에 생성 — Tencent의 VR 렌더링 혁명"

Stereo World Model: Camera-Guided Stereo Video Generation
🏛️ 소속: Tencent, Meituan, HKU
🏷️ 핵심 키워드: Stereo Video, Binocular Generation, VR Rendering

💭 이런 질문을 해본 적 있나요?

  • VR 콘텐츠를 위해 양안 스테레오 영상을 자동 생성할 수 있을까?

  • 모노 RGB 영상에서 깊이 추정 없이 3D를 만들 수 있을까?

  • 기존 단안 모델 파이프라인의 속도 병목을 깰 수 있을까?

3D 영화를 만들려면 보통 한쪽 눈 영상을 먼저 만든 뒤 깊이 추정→인페인팅으로 다른 쪽을 합성합니다. StereoWorld는 이 번거로운 과정을 건너뛰고, 양안 영상을 End-to-End로 동시에 생성합니다. 카메라 인식 RoPE와 에피폴라 prior를 활용한 스테레오 어텐션 분해가 핵심 설계입니다.

특히 주목할 점:

  • 기존 단안→변환 파이프라인 대비 3배 빠른 생성 속도

  • 뷰포인트 일관성 5% 추가 향상

  • 별도 깊이 추정이나 인페인팅 없이 End-to-End VR 렌더링 가능

🎯 왜 이것이 게임 체인저인가? : 단안 생성 → 깊이 추정 → 인페인팅의 다단계 파이프라인 → 양안 동시 생성으로 단일 스텝 VR 영상 제작

🧩 "뇌과학에서 힌트를 얻다 — Alibaba의 경험 기반 강화학습"

Complementary Reinforcement Learning
🏛️ 소속: Alibaba
🏷️ 핵심 키워드: Reinforcement Learning, Experience Learning, Complementary Learning Systems

💭 이런 질문을 해본 적 있나요?

  • RL 에이전트의 낮은 샘플 효율성을 어떻게 해결할 수 있을까?

  • 과거 에피소드 경험을 현재 학습에 효과적으로 반영하는 방법은?

  • 경험과 정책이 서로 따로 놀지 않게 할 수 있을까?

인간의 뇌에는 해마(빠른 학습)와 신피질(느린 통합)이 상보적으로 작동하는 학습 시스템이 있습니다. Alibaba의 Complementary RL은 이 원리를 차용해 경험 추출기와 정책 액터가 RL 루프 안에서 함께 진화합니다. 추출된 경험이 액터의 성공에 기여하는지 여부에 따라 경험 관리 전략 자체가 최적화됩니다.

특히 주목할 점:

  • 단일 작업 시나리오에서 경험 미활용 RL 대비 10% 성능 향상

  • 멀티태스크 환경에서도 강건한 확장성 확인

  • 경험 추출기-액터 공진화로 '경험-정책 불일치' 문제 근본 해결

🎯 왜 이것이 게임 체인저인가? : 정적 경험 저장 or 정책과 무관한 경험 → 경험과 정책이 실시간으로 공진화하는 상보적 학습

🌐 "1,600개 언어를 번역하다 — Meta의 초다국어 기계번역"

Omnilingual MT: Machine Translation for 1,600 Languages
🏛️ 소속: Meta
🏷️ 핵심 키워드: Machine Translation, Multilingual, Low-Resource Languages

💭 이런 질문을 해본 적 있나요?

  • 세계 7,000개 언어 중 AI가 번역할 수 있는 건 얼마나 될까?

  • 데이터가 거의 없는 언어도 고품질 번역이 가능할까?

  • 70B 모델 없이도 강력한 다국어 번역을 할 수 있을까?

바벨탑 이후 인류의 숙원이었던 보편 번역. Meta가 그 꿈에 한 발 더 다가갔습니다. Omnilingual MT는 최초로 1,600개 이상 언어를 지원하는 번역 시스템입니다. 대규모 공개 코퍼스와 수작업 큐레이션된 MeDLEY 병렬 텍스트를 통합하고, LLM을 디코더 전용(OMT-LLaMA) 또는 인코더-디코더(OMT-NLLB) 방식으로 특화시켰습니다.

특히 주목할 점:

  • 1B~8B 파라미터 모델이 70B LLM 베이스라인과 동등하거나 상회하는 번역 품질

  • 기존 모델이 '이해'는 하지만 '생성'에 실패하던 저자원 언어에서 일관된 생성 달성

  • BOUQuET, Met-BOUQuET 등 인간 생성 평가 데이터셋 공개

🎯 왜 이것이 게임 체인저인가? : ~200개 언어 타겟 번역의 한계 → 1,600개 언어로 확장, 저자원 언어의 '생성 장벽' 돌파

💬 "AI가 당신을 진짜로 기억하는 대화 — Tencent × 칭화의 적응형 메모리"

AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents
🏛️ 소속: Tencent, Tsinghua
🏷️ 핵심 키워드: Dialogue Memory, User Modeling, Adaptive Retrieval

💭 이런 질문을 해본 적 있나요?

  • AI 챗봇이 한 달 전 대화 내용을 정확히 기억할 수 있을까?

  • 의미적 유사성만으로 충분한 정보를 검색할 수 있을까?

  • 사용자의 성격과 습관까지 파악하는 메모리 시스템이 가능할까?

오래된 친구와 대화할 때 우리는 최근 이야기, 과거 에피소드, 상대의 성격을 자연스럽게 오가며 기억을 활용합니다. AdaMem은 이 인간적 기억 구조를 작업 메모리, 에피소드 메모리, 페르소나 메모리, 그래프 메모리의 4가지로 체계화했습니다. 질문에 따라 의미 검색과 관계 인식 그래프 확장을 동적으로 조합하는 적응형 검색 라우팅이 핵심입니다.

특히 주목할 점:

  • LoCoMo 및 PERSONAMEM 벤치마크 모두에서 SOTA 달성

  • 역할 전문화 파이프라인으로 증거 합성과 응답 생성을 분리

  • 정적 메모리 세분화가 아닌 질문 조건부 적응형 검색 경로 구축

🎯 왜 이것이 게임 체인저인가? : 의미 유사성 기반 단일 메모리 → 4가지 메모리 + 질문 맞춤형 적응적 검색으로 진정한 사용자 이해

매일 목요일 오전 8시,
바쁜 당신을 기술 발전에 뒤쳐지지 않게 만들어줄
최신 AI 트렌드 요약본이 전달됩니다! 🚀

Keep Reading