📑 IBM: “에이전트 워크플로우, 아직도 감으로 짜고 계신가요?”

금주 캐치페이퍼는 Alibaba, IBM Research, Meta, Huawei, NVIDIA, Samsung Research, Qualcomm과 함께합니다. 3분만 투자해 쓱 둘러보고, 빠르게 바뀌는 기술의 방향성을 놓치지 마세요!

📈 최신 AI 트렌드 3줄 요약

🌟 형식 증명(Formal Reasoning)과 강화학습의 결합이 이번 주의 핵심 키워드입니다

🔥 디퓨전 모델이 텍스트 생성과 문서 OCR까지 영역을 확장하며 새로운 패러다임을 제시하고 있습니다

🚀 코드 기반 로봇 제어부터 게임 월드 모델링까지, AI가 물리 세계와 만나는 접점이 급격히 넓어지고 있습니다

🔭 “560B 오픈소스가 대학원 수학 41.5%를 풀어버렸다”

LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning

🏛️ 소속: Alibaba

🏷️ 핵심 키워드: Formal Reasoning, Mixture-of-Experts, Lean4

💭 이런 질문을 해본 적 있나요?

AI가 수학 정리를 형식적으로 증명할 수 있을까?
560B 파라미터 오픈소스 모델이 클로즈드 모델을 이길 수 있을까?
강화학습으로 수학적 추론 능력을 끌어올리는 게 가능할까?

수학 올림피아드에서 문제를 풀 때, 최고의 선수들은 문제를 분해하고 도구를 활용하며 단계적으로 접근합니다. Alibaba의 LongCat-Flash-Prover가 바로 그 전략을 AI로 구현했습니다. 560B 파라미터의 MoE 모델이 Lean4에서 자동 형식화(auto-formalization), 스케치(sketching), 증명(proving)의 세 가지 능력을 분리 학습합니다. HisPO라는 계층적 중요도 샘플링 알고리즘이 이 거대 모델의 장기 추론 학습을 안정화시키는 핵심 열쇠입니다.

특히 주목할 점:

MiniF2F-Test에서 문제당 72번 시도만으로 97.1% pass rate 달성 — 오픈 모델 최고 기록
PutnamBench(대학원 수준)에서 220번 시도로 41.5% 해결, 기존 오픈 베이스라인 대폭 상회
보상 해킹 방지를 위한 정리 일관성 및 합법성 검증 메커니즘 도입

🎯 왜 이것이 게임 체인저인가? : 형식 증명은 클로즈드 모델의 영역 → 560B 오픈소스 MoE가 에이전틱 RL로 SOTA 달성, 오픈 연구 가속화

🔗 https://arxiv.org/abs/2603.21065

🕵️ “2시간 영상, 전부 안 봐도 답이 나옵니다”

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

🏛️ 소속: CAS/NLPR

🏷️ 핵심 키워드: Long Video Understanding, Visual-Temporal Graph, Clue Localization

💭 이런 질문을 해본 적 있나요?

2시간짜리 영상에서 핵심 장면만 정확히 찾아낼 수 있을까?
질문과 무관해 보이는 장면도 답변에 중요한 단서가 될 수 있지 않을까?
영상 전체를 보지 않고도 정확한 답을 내릴 수 있을까?

추리 소설의 탐정이 현장에서 단서를 수집하는 방식을 떠올려보세요. 좋은 탐정은 질문(용의자)만 보는 게 아니라, 증거들 사이의 연결고리도 함께 살펴봅니다. VideoDetective가 바로 이 접근입니다. 영상을 세그먼트로 나누고 시각-시간적 친밀도 그래프를 구축한 뒤, 가설-검증-정제(Hypothesis-Verification-Refinement) 루프로 관찰된 세그먼트의 관련성을 추정하고 미관찰 세그먼트로 전파합니다.

특히 주목할 점:

VideoMME-long 벤치마크에서 정확도 최대 7.5% 향상
다양한 주류 MLLM에 플러그인 방식으로 적용 가능한 범용 프레임워크
질문 기반 + 영상 내재적 구조 기반의 이중 관련성 추정으로 희소 관찰만으로도 정확한 답변

🎯 왜 이것이 게임 체인저인가? : 질문-세그먼트 매칭에만 의존하는 단방향 검색 → 영상 내부 구조까지 활용하는 양방향 단서 사냥

🔗 https://arxiv.org/abs/2603.22285

🧩 “에이전트 워크플로우, 아직도 감으로 짜고 계신가요?”

From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

🏛️ 소속: IBM Research, Rensselaer Polytechnic Institute

🏷️ 핵심 키워드: Agentic Workflow, Computation Graphs, Dynamic Optimization

💭 이런 질문을 해본 적 있나요?

LLM 에이전트의 워크플로우를 자동으로 최적화할 수 있을까?
정적 템플릿과 동적 그래프 중 어느 것이 더 효과적일까?
에이전트 시스템의 성능을 ‘구조’ 관점에서 평가할 수 있을까?

건축가가 설계도를 그릴 때, 처음부터 완벽한 도면을 그리는 방법과 시공 중에 현장에 맞게 수정하는 방법이 있습니다. LLM 에이전트의 워크플로우도 마찬가지입니다. IBM Research의 Pin-Yu Chen 등이 주도한 이 서베이는 에이전트 워크플로우를 ’에이전틱 연산 그래프(ACG)’로 통합 정의하고, 구조가 결정되는 시점(정적 vs 동적), 최적화 대상, 평가 신호의 세 축으로 기존 문헌을 체계화합니다.

특히 주목할 점:

재사용 가능 템플릿, 실행별 실현 그래프, 실행 트레이스의 3단계 구분 체계 제안
태스크 메트릭 외에 그래프 속성, 실행 비용, 강건성까지 포괄하는 구조 인식 평가 관점 제시
정적/동적 워크플로우 설계의 트레이드오프를 명확히 정리한 통합 프레임워크

🎯 왜 이것이 게임 체인저인가? : 에이전트 워크플로우를 직관에 의존해 설계 → 체계적 분류법과 구조 인식 평가로 과학적 최적화의 토대 마련

🔗 https://arxiv.org/abs/2603.22386

⚡ “RLVR의 비밀은 ’크기’가 아니라 ’방향’이었다”

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

🏛️ 소속: Alibaba, USTC

🏷️ 핵심 키워드: RLVR, Token-Level Analysis, Reasoning Enhancement

💭 이런 질문을 해본 적 있나요?

강화학습이 LLM의 추론 능력을 실제로 어떻게 바꾸는 걸까?
변화의 ’크기’보다 ’방향’이 더 중요할 수 있을까?
추가 학습 없이 추론 성능을 끌어올리는 방법은?

나침반을 생각해보세요. 목적지에 도달하려면 얼마나 빨리 가느냐(크기)보다 어느 방향으로 가느냐가 훨씬 중요합니다. 이 연구는 RLVR이 LLM을 변화시키는 메커니즘에서 기존의 ‘크기(magnitude)’ 중심 분석을 뒤집고, 토큰별 로그 확률 차이(Δlog p)의 ’방향’이 추론에 핵심적인 업데이트를 더 정확히 포착한다는 것을 증명합니다.

특히 주목할 점:

테스트 타임에 학습된 Δlog p 방향으로 외삽하는 것만으로 추론 정확도 향상 (추가 학습 불필요)
학습 시 저확률 토큰(높은 Δlog p)에 가중치를 주는 리웨이팅 전략으로 다양한 모델과 벤치마크에서 일관된 성능 개선
토큰 교체 실험으로 방향 기반 지표가 크기 기반 지표보다 추론 핵심 업데이트를 더 잘 식별함을 검증

🎯 왜 이것이 게임 체인저인가? : RLVR 효과를 ’얼마나 변했나’로 분석 → ’어떤 방향으로 변했나’로 전환, 학습 없는 추론 향상까지 가능

🔗 https://arxiv.org/abs/2603.22117

🎮 “몬헌에서 1억 프레임을 뽑으면 월드 모델이 됩니다”

WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

🏛️ 소속: Independent

🏷️ 핵심 키워드: World Model, Action-Conditioned Generation, Game Dataset

💭 이런 질문을 해본 적 있나요?

AI가 AAA급 게임 수준의 월드를 시뮬레이션할 수 있을까?
기존 데이터셋의 ’액션’이 너무 단순해서 월드 모델이 한계에 부딪히는 건 아닐까?
게임 엔진에서 자동으로 고품질 학습 데이터를 뽑아낼 수 있을까?

레이싱 게임에서 ’좌회전’과 ’우회전’만 있는 것과, 드리프트, 기어 체인지, 핸드브레이크까지 있는 것은 전혀 다른 세상입니다. 기존 월드 모델 데이터셋은 전자에 가까웠습니다. WildWorld는 몬스터 헌터: 와일드에서 1억 800만 프레임을 자동 수집하여, 450종 이상의 의미 있는 액션(이동, 공격, 스킬 시전)과 함께 스켈레톤, 월드 스테이트, 카메라 포즈, 뎁스 맵까지 동기화된 어노테이션을 제공합니다.

특히 주목할 점:

1억 800만 프레임, 450+ 액션 종류의 대규모 액션-조건부 월드 모델링 데이터셋
Action Following과 State Alignment을 평가하는 WildBench 벤치마크 함께 공개
의미적으로 풍부한 액션 모델링과 장기 상태 일관성 유지의 구체적 도전 과제 규명

🎯 왜 이것이 게임 체인저인가? : 단순 액션 + 픽셀 변화에 의존하던 월드 모델 학습 → 상태 인식 기반의 풍부한 액션 공간에서의 동적 세계 모델링

🔗 https://arxiv.org/abs/2603.23497

🧠 “V-JEPA2는 잘 보는데 생각을 못 합니다”

ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

🏛️ 소속: Meta, Northeastern University

🏷️ 핵심 키워드: Latent World Model, VLM Guidance, JEPA

💭 이런 질문을 해본 적 있나요?

잠재 월드 모델이 장기적 의미까지 이해할 수 있을까?
비전-언어 모델의 추론 능력을 월드 모델에 주입할 수 있을까?
V-JEPA2의 한계를 VLM으로 보완하는 방법은?

카메라만 달린 자율주행차가 표지판은 잘 읽지만 전체 교통 상황을 이해하지 못한다면? 그 차에 경험 많은 조수석 운전자(VLM)를 태우는 것이 ThinkJEPA의 아이디어입니다. 밀집 프레임을 처리하는 JEPA 브랜치와 넓은 시간 범위를 추론하는 VLM ‘thinker’ 브랜치의 듀얼 경로 구조를 통해, 세밀한 동작 모델링과 장기 의미 이해를 동시에 달성합니다.

특히 주목할 점:

핸드 매니퓰레이션 궤적 예측에서 VLM 단독 및 JEPA 단독 베이스라인 모두 상회
다층 VLM 표현을 피라미드 구조로 추출하는 계층적 가이던스 모듈 도입
장기 롤아웃에서 더 강건한 행동 예측 — 실제 로봇 조작 시나리오에 적합

🎯 왜 이것이 게임 체인저인가? : 밀집 프레임 모델링 OR 의미적 추론 중 택일 → 듀얼 경로로 세밀함과 의미 이해를 동시 확보하는 월드 모델

🔗 https://arxiv.org/abs/2603.22281

📄 “OCR에서 ’왼쪽부터 읽기’를 버렸더니 3.2배 빨라졌다”

MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

🏛️ 소속: Shanghai AI Lab

🏷️ 핵심 키워드: Document OCR, Diffusion Decoding, Parallel Generation

💭 이런 질문을 해본 적 있나요?

문서 OCR이 왜 꼭 왼쪽에서 오른쪽으로 읽어야 할까?
긴 문서에서 오류가 누적되는 문제를 근본적으로 해결할 수 있을까?
디퓨전 모델이 이미지 생성 외에 텍스트 인식에도 쓸 수 있을까?

사진을 찍는 것(렌더링)의 반대 과정으로 문서를 이해한다면? MinerU-Diffusion은 기존 OCR의 ‘순차적으로 읽기’ 패러다임을 ’병렬 디퓨전 디노이징’으로 대체합니다. 문서를 이미지에서 텍스트로 역렌더링하는 관점에서 접근하여, 블록 단위 디퓨전 디코더와 불확실성 기반 커리큘럼 학습으로 긴 문서도 안정적이고 빠르게 파싱합니다.

특히 주목할 점:

자기회귀 베이스라인 대비 최대 3.2배 빠른 디코딩 속도
레이아웃, 테이블, 수식이 포함된 구조화된 문서 파싱에서 일관된 강건성 향상
Semantic Shuffle 벤치마크에서 언어적 사전지식 의존도 감소 — 순수 시각 OCR 능력 입증

🎯 왜 이것이 게임 체인저인가? : 순차적 자기회귀 디코딩의 오류 누적과 속도 병목 → 병렬 디퓨전으로 속도와 강건성을 동시에 잡는 문서 OCR

🔗 https://arxiv.org/abs/2603.22458

💡 “디퓨전 언어 모델, 학습할 때랑 추론할 때가 왜 다를까?”

MemDLM: Memory-Enhanced DLM Training

🏛️ 소속: Huawei, CUHK, NTU

🏷️ 핵심 키워드: Diffusion Language Model, Parametric Memory, Train-Inference Gap

💭 이런 질문을 해본 적 있나요?

디퓨전 언어 모델이 자기회귀 모델을 대체할 수 있을까?
학습과 추론 사이의 불일치를 어떻게 해결할 수 있을까?
모델에 ’작업 기억’을 심어줄 수 있을까?

시험 공부를 할 때 교과서만 읽는 것과, 실전 모의고사를 풀면서 공부하는 것은 결과가 다릅니다. 디퓨전 언어 모델(DLM)은 정적 마스크 예측으로 훈련하지만, 실제로는 다단계 디노이징으로 추론합니다. MemDLM은 이 격차를 메우기 위해 이중 수준 최적화를 도입합니다. 내부 루프가 각 샘플의 디노이징 궤적 경험을 빠른 가중치(Parametric Memory)로 축적하고, 외부 루프가 이 기억을 조건으로 기본 모델을 업데이트합니다.

특히 주목할 점:

학습 수렴 속도와 손실 모두 기존 DLM 대비 개선
Needle-in-a-Haystack 검색 태스크에서 창발적 인-웨이트 검색 메커니즘 발현
추론 시 내부 루프를 재활성화하면 긴 컨텍스트 이해에서 추가 성능 향상

🎯 왜 이것이 게임 체인저인가? : 정적 훈련 목표와 동적 추론의 불일치 → 파라메트릭 메모리로 훈련 중에 추론 경험을 시뮬레이션하여 격차 해소

🔗 https://arxiv.org/abs/2603.22241

🤖 “코드만으로 로봇을 조종할 수 있을까?”

CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation

🏛️ 소속: NVIDIA, Stanford, UC Berkeley, UT Austin

🏷️ 핵심 키워드: Code-as-Policy, Robot Manipulation, Agentic Test-Time Compute

💭 이런 질문을 해본 적 있나요?

LLM이 작성한 코드로 로봇을 직접 조종할 수 있을까?
VLA(비전-언어-액션) 모델 없이도 로봇 매니퓰레이션이 가능할까?
코드 기반 제어에서 인간이 설계한 추상화 없이도 잘 작동할까?

레고 설명서 없이 복잡한 세트를 조립하는 것과, 설명서를 보고 조립하는 것의 차이를 생각해보세요. 기존 Code-as-Policy 연구는 ’설명서(인간이 설계한 추상화)’에 크게 의존했습니다. Fei-Fei Li, Ken Goldberg, Jim Fan 등이 참여한 CaP-X는 이 의존성을 체계적으로 분석하고, 에이전틱 테스트 타임 컴퓨트(다중 턴 상호작용, 시각 차이 비교, 자동 스킬 합성)로 이 격차를 메울 수 있음을 보여줍니다.

특히 주목할 점:

12개 프론티어 모델 평가: 인간 설계 추상화 제거 시 성능 저하 패턴을 체계적으로 규명
CaP-Agent0: 학습 없이 시뮬레이션과 실제 로봇 모두에서 인간 수준의 신뢰성 달성
CaP-RL: 검증 가능한 보상 기반 강화학습으로 sim2real 전이 시 최소 갭

🎯 왜 이것이 게임 체인저인가? : 인간 설계 추상화에 의존하는 Code-as-Policy → 에이전틱 컴퓨트 스케일링으로 저수준 제어에서도 강건한 코딩 에이전트

🔗 https://arxiv.org/abs/2603.22435

🔍 “CCTV 수백 시간, 사진 한 장이면 범인을 찾습니다”

ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

🏛️ 소속: Samsung Research, Qualcomm

🏷️ 핵심 키워드: Video Forensics, Multimodal Query, Temporal Grounding

💭 이런 질문을 해본 적 있나요?

“이 사람이 싸움에 합류하는 시점은?”이라는 질문에 AI가 답할 수 있을까?
이미지와 텍스트를 동시에 던지는 멀티모달 검색이 CCTV에서 가능할까?
기존 영상 검색 시스템이 시간 추론에 왜 이렇게 약한 걸까?

범죄 수사에서 수백 시간의 CCTV 영상을 수동으로 검토하는 건 바다에서 바늘 찾기입니다. 기존 영상 검색은 텍스트만 또는 이미지만 지원하거나, 시간 추론에 실패했습니다. Samsung Research와 Qualcomm이 함께 만든 ForeSea는 이미지+텍스트 멀티모달 쿼리를 지원하는 3단계 파이프라인(트래킹 → 멀티모달 인덱싱 → VideoLLM 추론)으로 포렌식 검색을 혁신합니다.

특히 주목할 점:

ForeSeaQA: 멀티모달 쿼리 + 시간 그라운딩을 동시에 평가하는 최초의 벤치마크
기존 VideoRAG 대비 정확도 3.5% 향상, 시간 IoU 11.0 향상
플러그 앤 플레이 설계로 다양한 VideoLLM과 조합 가능

🎯 왜 이것이 게임 체인저인가? : 단일 모달 + 수동 필터링 기반 CCTV 검색 → 이미지+텍스트 멀티모달 쿼리와 시간 추론을 결합한 AI 포렌식

🔗 https://arxiv.org/abs/2603.22872

매일 목요일 오전 8시,
바쁜 당신을 기술 발전에 뒤쳐지지 않게 만들어줄
최신 AI 트렌드 요약본이 전달됩니다!

📑 IBM: “에이전트 워크플로우, 아직도 감으로 짜고 계신가요?”

📈 최신 AI 트렌드 3줄 요약

🔭 “560B 오픈소스가 대학원 수학 41.5%를 풀어버렸다”

🕵️ “2시간 영상, 전부 안 봐도 답이 나옵니다”

🧩 “에이전트 워크플로우, 아직도 감으로 짜고 계신가요?”

⚡ “RLVR의 비밀은 ’크기’가 아니라 ’방향’이었다”

🎮 “몬헌에서 1억 프레임을 뽑으면 월드 모델이 됩니다”

🧠 “V-JEPA2는 잘 보는데 생각을 못 합니다”

📄 “OCR에서 ’왼쪽부터 읽기’를 버렸더니 3.2배 빨라졌다”

💡 “디퓨전 언어 모델, 학습할 때랑 추론할 때가 왜 다를까?”

🤖 “코드만으로 로봇을 조종할 수 있을까?”

🔍 “CCTV 수백 시간, 사진 한 장이면 범인을 찾습니다”

Keep Reading

Subscribe Now!