๊ธ์ฃผ ์บ์นํ์ดํผ๋ Alibaba, IBM Research, Meta, Huawei, NVIDIA, Samsung Research, Qualcomm๊ณผ ํจ๊ปํฉ๋๋ค. 3๋ถ๋ง ํฌ์ํด ์ฑ ๋๋ฌ๋ณด๊ณ , ๋น ๋ฅด๊ฒ ๋ฐ๋๋ ๊ธฐ์ ์ ๋ฐฉํฅ์ฑ์ ๋์น์ง ๋ง์ธ์!
๐ ์ต์ AI ํธ๋ ๋ 3์ค ์์ฝ
๐ ํ์ ์ฆ๋ช (Formal Reasoning)๊ณผ ๊ฐํํ์ต์ ๊ฒฐํฉ์ด ์ด๋ฒ ์ฃผ์ ํต์ฌ ํค์๋์ ๋๋ค
๐ฅ ๋ํจ์ ๋ชจ๋ธ์ด ํ ์คํธ ์์ฑ๊ณผ ๋ฌธ์ OCR๊น์ง ์์ญ์ ํ์ฅํ๋ฉฐ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๊ณ ์์ต๋๋ค
๐ ์ฝ๋ ๊ธฐ๋ฐ ๋ก๋ด ์ ์ด๋ถํฐ ๊ฒ์ ์๋ ๋ชจ๋ธ๋ง๊น์ง, AI๊ฐ ๋ฌผ๋ฆฌ ์ธ๊ณ์ ๋ง๋๋ ์ ์ ์ด ๊ธ๊ฒฉํ ๋์ด์ง๊ณ ์์ต๋๋ค
๐ญ โ560B ์คํ์์ค๊ฐ ๋ํ์ ์ํ 41.5%๋ฅผ ํ์ด๋ฒ๋ ธ๋คโ
LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning
๐๏ธ ์์: Alibaba
๐ท๏ธ ํต์ฌ ํค์๋: Formal Reasoning, Mixture-of-Experts, Lean4
๐ญ ์ด๋ฐ ์ง๋ฌธ์ ํด๋ณธ ์ ์๋์?
AI๊ฐ ์ํ ์ ๋ฆฌ๋ฅผ ํ์์ ์ผ๋ก ์ฆ๋ช ํ ์ ์์๊น?
560B ํ๋ผ๋ฏธํฐ ์คํ์์ค ๋ชจ๋ธ์ด ํด๋ก์ฆ๋ ๋ชจ๋ธ์ ์ด๊ธธ ์ ์์๊น?
๊ฐํํ์ต์ผ๋ก ์ํ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋์ด์ฌ๋ฆฌ๋ ๊ฒ ๊ฐ๋ฅํ ๊น?
์ํ ์ฌ๋ฆผํผ์๋์์ ๋ฌธ์ ๋ฅผ ํ ๋, ์ต๊ณ ์ ์ ์๋ค์ ๋ฌธ์ ๋ฅผ ๋ถํดํ๊ณ ๋๊ตฌ๋ฅผ ํ์ฉํ๋ฉฐ ๋จ๊ณ์ ์ผ๋ก ์ ๊ทผํฉ๋๋ค. Alibaba์ LongCat-Flash-Prover๊ฐ ๋ฐ๋ก ๊ทธ ์ ๋ต์ AI๋ก ๊ตฌํํ์ต๋๋ค. 560B ํ๋ผ๋ฏธํฐ์ MoE ๋ชจ๋ธ์ด Lean4์์ ์๋ ํ์ํ(auto-formalization), ์ค์ผ์น(sketching), ์ฆ๋ช (proving)์ ์ธ ๊ฐ์ง ๋ฅ๋ ฅ์ ๋ถ๋ฆฌ ํ์ตํฉ๋๋ค. HisPO๋ผ๋ ๊ณ์ธต์ ์ค์๋ ์ํ๋ง ์๊ณ ๋ฆฌ์ฆ์ด ์ด ๊ฑฐ๋ ๋ชจ๋ธ์ ์ฅ๊ธฐ ์ถ๋ก ํ์ต์ ์์ ํ์ํค๋ ํต์ฌ ์ด์ ์ ๋๋ค.
ํนํ ์ฃผ๋ชฉํ ์ :
MiniF2F-Test์์ ๋ฌธ์ ๋น 72๋ฒ ์๋๋ง์ผ๋ก 97.1% pass rate ๋ฌ์ฑ โ ์คํ ๋ชจ๋ธ ์ต๊ณ ๊ธฐ๋ก
PutnamBench(๋ํ์ ์์ค)์์ 220๋ฒ ์๋๋ก 41.5% ํด๊ฒฐ, ๊ธฐ์กด ์คํ ๋ฒ ์ด์ค๋ผ์ธ ๋ํญ ์ํ
๋ณด์ ํดํน ๋ฐฉ์ง๋ฅผ ์ํ ์ ๋ฆฌ ์ผ๊ด์ฑ ๋ฐ ํฉ๋ฒ์ฑ ๊ฒ์ฆ ๋ฉ์ปค๋์ฆ ๋์
๐ฏ ์ ์ด๊ฒ์ด ๊ฒ์ ์ฒด์ธ์ ์ธ๊ฐ? : ํ์ ์ฆ๋ช ์ ํด๋ก์ฆ๋ ๋ชจ๋ธ์ ์์ญ โ 560B ์คํ์์ค MoE๊ฐ ์์ด์ ํฑ RL๋ก SOTA ๋ฌ์ฑ, ์คํ ์ฐ๊ตฌ ๊ฐ์ํ
๐ต๏ธ โ2์๊ฐ ์์, ์ ๋ถ ์ ๋ด๋ ๋ต์ด ๋์ต๋๋คโ
VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding
๐๏ธ ์์: CAS/NLPR
๐ท๏ธ ํต์ฌ ํค์๋: Long Video Understanding, Visual-Temporal Graph, Clue Localization
๐ญ ์ด๋ฐ ์ง๋ฌธ์ ํด๋ณธ ์ ์๋์?
2์๊ฐ์ง๋ฆฌ ์์์์ ํต์ฌ ์ฅ๋ฉด๋ง ์ ํํ ์ฐพ์๋ผ ์ ์์๊น?
์ง๋ฌธ๊ณผ ๋ฌด๊ดํด ๋ณด์ด๋ ์ฅ๋ฉด๋ ๋ต๋ณ์ ์ค์ํ ๋จ์๊ฐ ๋ ์ ์์ง ์์๊น?
์์ ์ ์ฒด๋ฅผ ๋ณด์ง ์๊ณ ๋ ์ ํํ ๋ต์ ๋ด๋ฆด ์ ์์๊น?
์ถ๋ฆฌ ์์ค์ ํ์ ์ด ํ์ฅ์์ ๋จ์๋ฅผ ์์งํ๋ ๋ฐฉ์์ ๋ ์ฌ๋ ค๋ณด์ธ์. ์ข์ ํ์ ์ ์ง๋ฌธ(์ฉ์์)๋ง ๋ณด๋ ๊ฒ ์๋๋ผ, ์ฆ๊ฑฐ๋ค ์ฌ์ด์ ์ฐ๊ฒฐ๊ณ ๋ฆฌ๋ ํจ๊ป ์ดํด๋ด ๋๋ค. VideoDetective๊ฐ ๋ฐ๋ก ์ด ์ ๊ทผ์ ๋๋ค. ์์์ ์ธ๊ทธ๋จผํธ๋ก ๋๋๊ณ ์๊ฐ-์๊ฐ์ ์น๋ฐ๋ ๊ทธ๋ํ๋ฅผ ๊ตฌ์ถํ ๋ค, ๊ฐ์ค-๊ฒ์ฆ-์ ์ (Hypothesis-Verification-Refinement) ๋ฃจํ๋ก ๊ด์ฐฐ๋ ์ธ๊ทธ๋จผํธ์ ๊ด๋ จ์ฑ์ ์ถ์ ํ๊ณ ๋ฏธ๊ด์ฐฐ ์ธ๊ทธ๋จผํธ๋ก ์ ํํฉ๋๋ค.
ํนํ ์ฃผ๋ชฉํ ์ :
VideoMME-long ๋ฒค์น๋งํฌ์์ ์ ํ๋ ์ต๋ 7.5% ํฅ์
๋ค์ํ ์ฃผ๋ฅ MLLM์ ํ๋ฌ๊ทธ์ธ ๋ฐฉ์์ผ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ฒ์ฉ ํ๋ ์์ํฌ
์ง๋ฌธ ๊ธฐ๋ฐ + ์์ ๋ด์ฌ์ ๊ตฌ์กฐ ๊ธฐ๋ฐ์ ์ด์ค ๊ด๋ จ์ฑ ์ถ์ ์ผ๋ก ํฌ์ ๊ด์ฐฐ๋ง์ผ๋ก๋ ์ ํํ ๋ต๋ณ
๐ฏ ์ ์ด๊ฒ์ด ๊ฒ์ ์ฒด์ธ์ ์ธ๊ฐ? : ์ง๋ฌธ-์ธ๊ทธ๋จผํธ ๋งค์นญ์๋ง ์์กดํ๋ ๋จ๋ฐฉํฅ ๊ฒ์ โ ์์ ๋ด๋ถ ๊ตฌ์กฐ๊น์ง ํ์ฉํ๋ ์๋ฐฉํฅ ๋จ์ ์ฌ๋ฅ
๐งฉ โ์์ด์ ํธ ์ํฌํ๋ก์ฐ, ์์ง๋ ๊ฐ์ผ๋ก ์ง๊ณ ๊ณ์ ๊ฐ์?โ
From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents
๐๏ธ ์์: IBM Research, Rensselaer Polytechnic Institute
๐ท๏ธ ํต์ฌ ํค์๋: Agentic Workflow, Computation Graphs, Dynamic Optimization
๐ญ ์ด๋ฐ ์ง๋ฌธ์ ํด๋ณธ ์ ์๋์?
LLM ์์ด์ ํธ์ ์ํฌํ๋ก์ฐ๋ฅผ ์๋์ผ๋ก ์ต์ ํํ ์ ์์๊น?
์ ์ ํ ํ๋ฆฟ๊ณผ ๋์ ๊ทธ๋ํ ์ค ์ด๋ ๊ฒ์ด ๋ ํจ๊ณผ์ ์ผ๊น?
์์ด์ ํธ ์์คํ ์ ์ฑ๋ฅ์ โ๊ตฌ์กฐโ ๊ด์ ์์ ํ๊ฐํ ์ ์์๊น?
๊ฑด์ถ๊ฐ๊ฐ ์ค๊ณ๋๋ฅผ ๊ทธ๋ฆด ๋, ์ฒ์๋ถํฐ ์๋ฒฝํ ๋๋ฉด์ ๊ทธ๋ฆฌ๋ ๋ฐฉ๋ฒ๊ณผ ์๊ณต ์ค์ ํ์ฅ์ ๋ง๊ฒ ์์ ํ๋ ๋ฐฉ๋ฒ์ด ์์ต๋๋ค. LLM ์์ด์ ํธ์ ์ํฌํ๋ก์ฐ๋ ๋ง์ฐฌ๊ฐ์ง์ ๋๋ค. IBM Research์ Pin-Yu Chen ๋ฑ์ด ์ฃผ๋ํ ์ด ์๋ฒ ์ด๋ ์์ด์ ํธ ์ํฌํ๋ก์ฐ๋ฅผ โ์์ด์ ํฑ ์ฐ์ฐ ๊ทธ๋ํ(ACG)โ๋ก ํตํฉ ์ ์ํ๊ณ , ๊ตฌ์กฐ๊ฐ ๊ฒฐ์ ๋๋ ์์ (์ ์ vs ๋์ ), ์ต์ ํ ๋์, ํ๊ฐ ์ ํธ์ ์ธ ์ถ์ผ๋ก ๊ธฐ์กด ๋ฌธํ์ ์ฒด๊ณํํฉ๋๋ค.
ํนํ ์ฃผ๋ชฉํ ์ :
์ฌ์ฌ์ฉ ๊ฐ๋ฅ ํ ํ๋ฆฟ, ์คํ๋ณ ์คํ ๊ทธ๋ํ, ์คํ ํธ๋ ์ด์ค์ 3๋จ๊ณ ๊ตฌ๋ถ ์ฒด๊ณ ์ ์
ํ์คํฌ ๋ฉํธ๋ฆญ ์ธ์ ๊ทธ๋ํ ์์ฑ, ์คํ ๋น์ฉ, ๊ฐ๊ฑด์ฑ๊น์ง ํฌ๊ดํ๋ ๊ตฌ์กฐ ์ธ์ ํ๊ฐ ๊ด์ ์ ์
์ ์ /๋์ ์ํฌํ๋ก์ฐ ์ค๊ณ์ ํธ๋ ์ด๋์คํ๋ฅผ ๋ช ํํ ์ ๋ฆฌํ ํตํฉ ํ๋ ์์ํฌ
๐ฏ ์ ์ด๊ฒ์ด ๊ฒ์ ์ฒด์ธ์ ์ธ๊ฐ? : ์์ด์ ํธ ์ํฌํ๋ก์ฐ๋ฅผ ์ง๊ด์ ์์กดํด ์ค๊ณ โ ์ฒด๊ณ์ ๋ถ๋ฅ๋ฒ๊ณผ ๊ตฌ์กฐ ์ธ์ ํ๊ฐ๋ก ๊ณผํ์ ์ต์ ํ์ ํ ๋ ๋ง๋ จ
โก โRLVR์ ๋น๋ฐ์ โํฌ๊ธฐโ๊ฐ ์๋๋ผ โ๋ฐฉํฅโ์ด์๋คโ
On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation
๐๏ธ ์์: Alibaba, USTC
๐ท๏ธ ํต์ฌ ํค์๋: RLVR, Token-Level Analysis, Reasoning Enhancement
๐ญ ์ด๋ฐ ์ง๋ฌธ์ ํด๋ณธ ์ ์๋์?
๊ฐํํ์ต์ด LLM์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ค์ ๋ก ์ด๋ป๊ฒ ๋ฐ๊พธ๋ ๊ฑธ๊น?
๋ณํ์ โํฌ๊ธฐโ๋ณด๋ค โ๋ฐฉํฅโ์ด ๋ ์ค์ํ ์ ์์๊น?
์ถ๊ฐ ํ์ต ์์ด ์ถ๋ก ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๋ ๋ฐฉ๋ฒ์?
๋์นจ๋ฐ์ ์๊ฐํด๋ณด์ธ์. ๋ชฉ์ ์ง์ ๋๋ฌํ๋ ค๋ฉด ์ผ๋ง๋ ๋นจ๋ฆฌ ๊ฐ๋๋(ํฌ๊ธฐ)๋ณด๋ค ์ด๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ๋๋๊ฐ ํจ์ฌ ์ค์ํฉ๋๋ค. ์ด ์ฐ๊ตฌ๋ RLVR์ด LLM์ ๋ณํ์ํค๋ ๋ฉ์ปค๋์ฆ์์ ๊ธฐ์กด์ โํฌ๊ธฐ(magnitude)โ ์ค์ฌ ๋ถ์์ ๋ค์ง๊ณ , ํ ํฐ๋ณ ๋ก๊ทธ ํ๋ฅ ์ฐจ์ด(ฮlog p)์ โ๋ฐฉํฅโ์ด ์ถ๋ก ์ ํต์ฌ์ ์ธ ์ ๋ฐ์ดํธ๋ฅผ ๋ ์ ํํ ํฌ์ฐฉํ๋ค๋ ๊ฒ์ ์ฆ๋ช ํฉ๋๋ค.
ํนํ ์ฃผ๋ชฉํ ์ :
ํ ์คํธ ํ์์ ํ์ต๋ ฮlog p ๋ฐฉํฅ์ผ๋ก ์ธ์ฝํ๋ ๊ฒ๋ง์ผ๋ก ์ถ๋ก ์ ํ๋ ํฅ์ (์ถ๊ฐ ํ์ต ๋ถํ์)
ํ์ต ์ ์ ํ๋ฅ ํ ํฐ(๋์ ฮlog p)์ ๊ฐ์ค์น๋ฅผ ์ฃผ๋ ๋ฆฌ์จ์ดํ ์ ๋ต์ผ๋ก ๋ค์ํ ๋ชจ๋ธ๊ณผ ๋ฒค์น๋งํฌ์์ ์ผ๊ด๋ ์ฑ๋ฅ ๊ฐ์
ํ ํฐ ๊ต์ฒด ์คํ์ผ๋ก ๋ฐฉํฅ ๊ธฐ๋ฐ ์งํ๊ฐ ํฌ๊ธฐ ๊ธฐ๋ฐ ์งํ๋ณด๋ค ์ถ๋ก ํต์ฌ ์ ๋ฐ์ดํธ๋ฅผ ๋ ์ ์๋ณํจ์ ๊ฒ์ฆ
๐ฏ ์ ์ด๊ฒ์ด ๊ฒ์ ์ฒด์ธ์ ์ธ๊ฐ? : RLVR ํจ๊ณผ๋ฅผ โ์ผ๋ง๋ ๋ณํ๋โ๋ก ๋ถ์ โ โ์ด๋ค ๋ฐฉํฅ์ผ๋ก ๋ณํ๋โ๋ก ์ ํ, ํ์ต ์๋ ์ถ๋ก ํฅ์๊น์ง ๊ฐ๋ฅ
๐ฎ โ๋ชฌํ์์ 1์ต ํ๋ ์์ ๋ฝ์ผ๋ฉด ์๋ ๋ชจ๋ธ์ด ๋ฉ๋๋คโ
WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG
๐๏ธ ์์: Independent
๐ท๏ธ ํต์ฌ ํค์๋: World Model, Action-Conditioned Generation, Game Dataset
๐ญ ์ด๋ฐ ์ง๋ฌธ์ ํด๋ณธ ์ ์๋์?
AI๊ฐ AAA๊ธ ๊ฒ์ ์์ค์ ์๋๋ฅผ ์๋ฎฌ๋ ์ด์ ํ ์ ์์๊น?
๊ธฐ์กด ๋ฐ์ดํฐ์ ์ โ์ก์ โ์ด ๋๋ฌด ๋จ์ํด์ ์๋ ๋ชจ๋ธ์ด ํ๊ณ์ ๋ถ๋ชํ๋ ๊ฑด ์๋๊น?
๊ฒ์ ์์ง์์ ์๋์ผ๋ก ๊ณ ํ์ง ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ฝ์๋ผ ์ ์์๊น?
๋ ์ด์ฑ ๊ฒ์์์ โ์ขํ์ โ๊ณผ โ์ฐํ์ โ๋ง ์๋ ๊ฒ๊ณผ, ๋๋ฆฌํํธ, ๊ธฐ์ด ์ฒด์ธ์ง, ํธ๋๋ธ๋ ์ดํฌ๊น์ง ์๋ ๊ฒ์ ์ ํ ๋ค๋ฅธ ์ธ์์ ๋๋ค. ๊ธฐ์กด ์๋ ๋ชจ๋ธ ๋ฐ์ดํฐ์ ์ ์ ์์ ๊ฐ๊น์ ์ต๋๋ค. WildWorld๋ ๋ชฌ์คํฐ ํํฐ: ์์ผ๋์์ 1์ต 800๋ง ํ๋ ์์ ์๋ ์์งํ์ฌ, 450์ข ์ด์์ ์๋ฏธ ์๋ ์ก์ (์ด๋, ๊ณต๊ฒฉ, ์คํฌ ์์ )๊ณผ ํจ๊ป ์ค์ผ๋ ํค, ์๋ ์คํ ์ดํธ, ์นด๋ฉ๋ผ ํฌ์ฆ, ๋์ค ๋งต๊น์ง ๋๊ธฐํ๋ ์ด๋ ธํ ์ด์ ์ ์ ๊ณตํฉ๋๋ค.
ํนํ ์ฃผ๋ชฉํ ์ :
1์ต 800๋ง ํ๋ ์, 450+ ์ก์ ์ข ๋ฅ์ ๋๊ท๋ชจ ์ก์ -์กฐ๊ฑด๋ถ ์๋ ๋ชจ๋ธ๋ง ๋ฐ์ดํฐ์
Action Following๊ณผ State Alignment์ ํ๊ฐํ๋ WildBench ๋ฒค์น๋งํฌ ํจ๊ป ๊ณต๊ฐ
์๋ฏธ์ ์ผ๋ก ํ๋ถํ ์ก์ ๋ชจ๋ธ๋ง๊ณผ ์ฅ๊ธฐ ์ํ ์ผ๊ด์ฑ ์ ์ง์ ๊ตฌ์ฒด์ ๋์ ๊ณผ์ ๊ท๋ช
๐ฏ ์ ์ด๊ฒ์ด ๊ฒ์ ์ฒด์ธ์ ์ธ๊ฐ? : ๋จ์ ์ก์ + ํฝ์ ๋ณํ์ ์์กดํ๋ ์๋ ๋ชจ๋ธ ํ์ต โ ์ํ ์ธ์ ๊ธฐ๋ฐ์ ํ๋ถํ ์ก์ ๊ณต๊ฐ์์์ ๋์ ์ธ๊ณ ๋ชจ๋ธ๋ง
๐ง โV-JEPA2๋ ์ ๋ณด๋๋ฐ ์๊ฐ์ ๋ชป ํฉ๋๋คโ
ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model
๐๏ธ ์์: Meta, Northeastern University
๐ท๏ธ ํต์ฌ ํค์๋: Latent World Model, VLM Guidance, JEPA
๐ญ ์ด๋ฐ ์ง๋ฌธ์ ํด๋ณธ ์ ์๋์?
์ ์ฌ ์๋ ๋ชจ๋ธ์ด ์ฅ๊ธฐ์ ์๋ฏธ๊น์ง ์ดํดํ ์ ์์๊น?
๋น์ -์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ์๋ ๋ชจ๋ธ์ ์ฃผ์ ํ ์ ์์๊น?
V-JEPA2์ ํ๊ณ๋ฅผ VLM์ผ๋ก ๋ณด์ํ๋ ๋ฐฉ๋ฒ์?
์นด๋ฉ๋ผ๋ง ๋ฌ๋ฆฐ ์์จ์ฃผํ์ฐจ๊ฐ ํ์งํ์ ์ ์ฝ์ง๋ง ์ ์ฒด ๊ตํต ์ํฉ์ ์ดํดํ์ง ๋ชปํ๋ค๋ฉด? ๊ทธ ์ฐจ์ ๊ฒฝํ ๋ง์ ์กฐ์์ ์ด์ ์(VLM)๋ฅผ ํ์ฐ๋ ๊ฒ์ด ThinkJEPA์ ์์ด๋์ด์ ๋๋ค. ๋ฐ์ง ํ๋ ์์ ์ฒ๋ฆฌํ๋ JEPA ๋ธ๋์น์ ๋์ ์๊ฐ ๋ฒ์๋ฅผ ์ถ๋ก ํ๋ VLM โthinkerโ ๋ธ๋์น์ ๋์ผ ๊ฒฝ๋ก ๊ตฌ์กฐ๋ฅผ ํตํด, ์ธ๋ฐํ ๋์ ๋ชจ๋ธ๋ง๊ณผ ์ฅ๊ธฐ ์๋ฏธ ์ดํด๋ฅผ ๋์์ ๋ฌ์ฑํฉ๋๋ค.
ํนํ ์ฃผ๋ชฉํ ์ :
ํธ๋ ๋งค๋ํฐ๋ ์ด์ ๊ถค์ ์์ธก์์ VLM ๋จ๋ ๋ฐ JEPA ๋จ๋ ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ ์ํ
๋ค์ธต VLM ํํ์ ํผ๋ผ๋ฏธ๋ ๊ตฌ์กฐ๋ก ์ถ์ถํ๋ ๊ณ์ธต์ ๊ฐ์ด๋์ค ๋ชจ๋ ๋์
์ฅ๊ธฐ ๋กค์์์์ ๋ ๊ฐ๊ฑดํ ํ๋ ์์ธก โ ์ค์ ๋ก๋ด ์กฐ์ ์๋๋ฆฌ์ค์ ์ ํฉ
๐ฏ ์ ์ด๊ฒ์ด ๊ฒ์ ์ฒด์ธ์ ์ธ๊ฐ? : ๋ฐ์ง ํ๋ ์ ๋ชจ๋ธ๋ง OR ์๋ฏธ์ ์ถ๋ก ์ค ํ์ผ โ ๋์ผ ๊ฒฝ๋ก๋ก ์ธ๋ฐํจ๊ณผ ์๋ฏธ ์ดํด๋ฅผ ๋์ ํ๋ณดํ๋ ์๋ ๋ชจ๋ธ
๐ โOCR์์ โ์ผ์ชฝ๋ถํฐ ์ฝ๊ธฐโ๋ฅผ ๋ฒ๋ ธ๋๋ 3.2๋ฐฐ ๋นจ๋ผ์ก๋คโ
MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding
๐๏ธ ์์: Shanghai AI Lab
๐ท๏ธ ํต์ฌ ํค์๋: Document OCR, Diffusion Decoding, Parallel Generation
๐ญ ์ด๋ฐ ์ง๋ฌธ์ ํด๋ณธ ์ ์๋์?
๋ฌธ์ OCR์ด ์ ๊ผญ ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก ์ฝ์ด์ผ ํ ๊น?
๊ธด ๋ฌธ์์์ ์ค๋ฅ๊ฐ ๋์ ๋๋ ๋ฌธ์ ๋ฅผ ๊ทผ๋ณธ์ ์ผ๋ก ํด๊ฒฐํ ์ ์์๊น?
๋ํจ์ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง ์์ฑ ์ธ์ ํ ์คํธ ์ธ์์๋ ์ธ ์ ์์๊น?
์ฌ์ง์ ์ฐ๋ ๊ฒ(๋ ๋๋ง)์ ๋ฐ๋ ๊ณผ์ ์ผ๋ก ๋ฌธ์๋ฅผ ์ดํดํ๋ค๋ฉด? MinerU-Diffusion์ ๊ธฐ์กด OCR์ โ์์ฐจ์ ์ผ๋ก ์ฝ๊ธฐโ ํจ๋ฌ๋ค์์ โ๋ณ๋ ฌ ๋ํจ์ ๋๋ ธ์ด์งโ์ผ๋ก ๋์ฒดํฉ๋๋ค. ๋ฌธ์๋ฅผ ์ด๋ฏธ์ง์์ ํ ์คํธ๋ก ์ญ๋ ๋๋งํ๋ ๊ด์ ์์ ์ ๊ทผํ์ฌ, ๋ธ๋ก ๋จ์ ๋ํจ์ ๋์ฝ๋์ ๋ถํ์ค์ฑ ๊ธฐ๋ฐ ์ปค๋ฆฌํ๋ผ ํ์ต์ผ๋ก ๊ธด ๋ฌธ์๋ ์์ ์ ์ด๊ณ ๋น ๋ฅด๊ฒ ํ์ฑํฉ๋๋ค.
ํนํ ์ฃผ๋ชฉํ ์ :
์๊ธฐํ๊ท ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ์ต๋ 3.2๋ฐฐ ๋น ๋ฅธ ๋์ฝ๋ฉ ์๋
๋ ์ด์์, ํ ์ด๋ธ, ์์์ด ํฌํจ๋ ๊ตฌ์กฐํ๋ ๋ฌธ์ ํ์ฑ์์ ์ผ๊ด๋ ๊ฐ๊ฑด์ฑ ํฅ์
Semantic Shuffle ๋ฒค์น๋งํฌ์์ ์ธ์ด์ ์ฌ์ ์ง์ ์์กด๋ ๊ฐ์ โ ์์ ์๊ฐ OCR ๋ฅ๋ ฅ ์ ์ฆ
๐ฏ ์ ์ด๊ฒ์ด ๊ฒ์ ์ฒด์ธ์ ์ธ๊ฐ? : ์์ฐจ์ ์๊ธฐํ๊ท ๋์ฝ๋ฉ์ ์ค๋ฅ ๋์ ๊ณผ ์๋ ๋ณ๋ชฉ โ ๋ณ๋ ฌ ๋ํจ์ ์ผ๋ก ์๋์ ๊ฐ๊ฑด์ฑ์ ๋์์ ์ก๋ ๋ฌธ์ OCR
๐ก โ๋ํจ์ ์ธ์ด ๋ชจ๋ธ, ํ์ตํ ๋๋ ์ถ๋ก ํ ๋๊ฐ ์ ๋ค๋ฅผ๊น?โ
MemDLM: Memory-Enhanced DLM Training
๐๏ธ ์์: Huawei, CUHK, NTU
๐ท๏ธ ํต์ฌ ํค์๋: Diffusion Language Model, Parametric Memory, Train-Inference Gap
๐ญ ์ด๋ฐ ์ง๋ฌธ์ ํด๋ณธ ์ ์๋์?
๋ํจ์ ์ธ์ด ๋ชจ๋ธ์ด ์๊ธฐํ๊ท ๋ชจ๋ธ์ ๋์ฒดํ ์ ์์๊น?
ํ์ต๊ณผ ์ถ๋ก ์ฌ์ด์ ๋ถ์ผ์น๋ฅผ ์ด๋ป๊ฒ ํด๊ฒฐํ ์ ์์๊น?
๋ชจ๋ธ์ โ์์ ๊ธฐ์ตโ์ ์ฌ์ด์ค ์ ์์๊น?
์ํ ๊ณต๋ถ๋ฅผ ํ ๋ ๊ต๊ณผ์๋ง ์ฝ๋ ๊ฒ๊ณผ, ์ค์ ๋ชจ์๊ณ ์ฌ๋ฅผ ํ๋ฉด์ ๊ณต๋ถํ๋ ๊ฒ์ ๊ฒฐ๊ณผ๊ฐ ๋ค๋ฆ ๋๋ค. ๋ํจ์ ์ธ์ด ๋ชจ๋ธ(DLM)์ ์ ์ ๋ง์คํฌ ์์ธก์ผ๋ก ํ๋ จํ์ง๋ง, ์ค์ ๋ก๋ ๋ค๋จ๊ณ ๋๋ ธ์ด์ง์ผ๋ก ์ถ๋ก ํฉ๋๋ค. MemDLM์ ์ด ๊ฒฉ์ฐจ๋ฅผ ๋ฉ์ฐ๊ธฐ ์ํด ์ด์ค ์์ค ์ต์ ํ๋ฅผ ๋์ ํฉ๋๋ค. ๋ด๋ถ ๋ฃจํ๊ฐ ๊ฐ ์ํ์ ๋๋ ธ์ด์ง ๊ถค์ ๊ฒฝํ์ ๋น ๋ฅธ ๊ฐ์ค์น(Parametric Memory)๋ก ์ถ์ ํ๊ณ , ์ธ๋ถ ๋ฃจํ๊ฐ ์ด ๊ธฐ์ต์ ์กฐ๊ฑด์ผ๋ก ๊ธฐ๋ณธ ๋ชจ๋ธ์ ์ ๋ฐ์ดํธํฉ๋๋ค.
ํนํ ์ฃผ๋ชฉํ ์ :
ํ์ต ์๋ ด ์๋์ ์์ค ๋ชจ๋ ๊ธฐ์กด DLM ๋๋น ๊ฐ์
Needle-in-a-Haystack ๊ฒ์ ํ์คํฌ์์ ์ฐฝ๋ฐ์ ์ธ-์จ์ดํธ ๊ฒ์ ๋ฉ์ปค๋์ฆ ๋ฐํ
์ถ๋ก ์ ๋ด๋ถ ๋ฃจํ๋ฅผ ์ฌํ์ฑํํ๋ฉด ๊ธด ์ปจํ ์คํธ ์ดํด์์ ์ถ๊ฐ ์ฑ๋ฅ ํฅ์
๐ฏ ์ ์ด๊ฒ์ด ๊ฒ์ ์ฒด์ธ์ ์ธ๊ฐ? : ์ ์ ํ๋ จ ๋ชฉํ์ ๋์ ์ถ๋ก ์ ๋ถ์ผ์น โ ํ๋ผ๋ฉํธ๋ฆญ ๋ฉ๋ชจ๋ฆฌ๋ก ํ๋ จ ์ค์ ์ถ๋ก ๊ฒฝํ์ ์๋ฎฌ๋ ์ด์ ํ์ฌ ๊ฒฉ์ฐจ ํด์
๐ค โ์ฝ๋๋ง์ผ๋ก ๋ก๋ด์ ์กฐ์ข ํ ์ ์์๊น?โ
CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation
๐๏ธ ์์: NVIDIA, Stanford, UC Berkeley, UT Austin
๐ท๏ธ ํต์ฌ ํค์๋: Code-as-Policy, Robot Manipulation, Agentic Test-Time Compute
๐ญ ์ด๋ฐ ์ง๋ฌธ์ ํด๋ณธ ์ ์๋์?
LLM์ด ์์ฑํ ์ฝ๋๋ก ๋ก๋ด์ ์ง์ ์กฐ์ข ํ ์ ์์๊น?
VLA(๋น์ -์ธ์ด-์ก์ ) ๋ชจ๋ธ ์์ด๋ ๋ก๋ด ๋งค๋ํฐ๋ ์ด์ ์ด ๊ฐ๋ฅํ ๊น?
์ฝ๋ ๊ธฐ๋ฐ ์ ์ด์์ ์ธ๊ฐ์ด ์ค๊ณํ ์ถ์ํ ์์ด๋ ์ ์๋ํ ๊น?
๋ ๊ณ ์ค๋ช ์ ์์ด ๋ณต์กํ ์ธํธ๋ฅผ ์กฐ๋ฆฝํ๋ ๊ฒ๊ณผ, ์ค๋ช ์๋ฅผ ๋ณด๊ณ ์กฐ๋ฆฝํ๋ ๊ฒ์ ์ฐจ์ด๋ฅผ ์๊ฐํด๋ณด์ธ์. ๊ธฐ์กด Code-as-Policy ์ฐ๊ตฌ๋ โ์ค๋ช ์(์ธ๊ฐ์ด ์ค๊ณํ ์ถ์ํ)โ์ ํฌ๊ฒ ์์กดํ์ต๋๋ค. Fei-Fei Li, Ken Goldberg, Jim Fan ๋ฑ์ด ์ฐธ์ฌํ CaP-X๋ ์ด ์์กด์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๊ณ , ์์ด์ ํฑ ํ ์คํธ ํ์ ์ปดํจํธ(๋ค์ค ํด ์ํธ์์ฉ, ์๊ฐ ์ฐจ์ด ๋น๊ต, ์๋ ์คํฌ ํฉ์ฑ)๋ก ์ด ๊ฒฉ์ฐจ๋ฅผ ๋ฉ์ธ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
ํนํ ์ฃผ๋ชฉํ ์ :
12๊ฐ ํ๋ก ํฐ์ด ๋ชจ๋ธ ํ๊ฐ: ์ธ๊ฐ ์ค๊ณ ์ถ์ํ ์ ๊ฑฐ ์ ์ฑ๋ฅ ์ ํ ํจํด์ ์ฒด๊ณ์ ์ผ๋ก ๊ท๋ช
CaP-Agent0: ํ์ต ์์ด ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๋ก๋ด ๋ชจ๋์์ ์ธ๊ฐ ์์ค์ ์ ๋ขฐ์ฑ ๋ฌ์ฑ
CaP-RL: ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์ ๊ธฐ๋ฐ ๊ฐํํ์ต์ผ๋ก sim2real ์ ์ด ์ ์ต์ ๊ฐญ
๐ฏ ์ ์ด๊ฒ์ด ๊ฒ์ ์ฒด์ธ์ ์ธ๊ฐ? : ์ธ๊ฐ ์ค๊ณ ์ถ์ํ์ ์์กดํ๋ Code-as-Policy โ ์์ด์ ํฑ ์ปดํจํธ ์ค์ผ์ผ๋ง์ผ๋ก ์ ์์ค ์ ์ด์์๋ ๊ฐ๊ฑดํ ์ฝ๋ฉ ์์ด์ ํธ
๐ โCCTV ์๋ฐฑ ์๊ฐ, ์ฌ์ง ํ ์ฅ์ด๋ฉด ๋ฒ์ธ์ ์ฐพ์ต๋๋คโ
ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance
๐๏ธ ์์: Samsung Research, Qualcomm
๐ท๏ธ ํต์ฌ ํค์๋: Video Forensics, Multimodal Query, Temporal Grounding
๐ญ ์ด๋ฐ ์ง๋ฌธ์ ํด๋ณธ ์ ์๋์?
โ์ด ์ฌ๋์ด ์ธ์์ ํฉ๋ฅํ๋ ์์ ์?โ์ด๋ผ๋ ์ง๋ฌธ์ AI๊ฐ ๋ตํ ์ ์์๊น?
์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋์์ ๋์ง๋ ๋ฉํฐ๋ชจ๋ฌ ๊ฒ์์ด CCTV์์ ๊ฐ๋ฅํ ๊น?
๊ธฐ์กด ์์ ๊ฒ์ ์์คํ ์ด ์๊ฐ ์ถ๋ก ์ ์ ์ด๋ ๊ฒ ์ฝํ ๊ฑธ๊น?
๋ฒ์ฃ ์์ฌ์์ ์๋ฐฑ ์๊ฐ์ CCTV ์์์ ์๋์ผ๋ก ๊ฒํ ํ๋ ๊ฑด ๋ฐ๋ค์์ ๋ฐ๋ ์ฐพ๊ธฐ์ ๋๋ค. ๊ธฐ์กด ์์ ๊ฒ์์ ํ ์คํธ๋ง ๋๋ ์ด๋ฏธ์ง๋ง ์ง์ํ๊ฑฐ๋, ์๊ฐ ์ถ๋ก ์ ์คํจํ์ต๋๋ค. Samsung Research์ Qualcomm์ด ํจ๊ป ๋ง๋ ForeSea๋ ์ด๋ฏธ์ง+ํ ์คํธ ๋ฉํฐ๋ชจ๋ฌ ์ฟผ๋ฆฌ๋ฅผ ์ง์ํ๋ 3๋จ๊ณ ํ์ดํ๋ผ์ธ(ํธ๋ํน โ ๋ฉํฐ๋ชจ๋ฌ ์ธ๋ฑ์ฑ โ VideoLLM ์ถ๋ก )์ผ๋ก ํฌ๋ ์ ๊ฒ์์ ํ์ ํฉ๋๋ค.
ํนํ ์ฃผ๋ชฉํ ์ :
ForeSeaQA: ๋ฉํฐ๋ชจ๋ฌ ์ฟผ๋ฆฌ + ์๊ฐ ๊ทธ๋ผ์ด๋ฉ์ ๋์์ ํ๊ฐํ๋ ์ต์ด์ ๋ฒค์น๋งํฌ
๊ธฐ์กด VideoRAG ๋๋น ์ ํ๋ 3.5% ํฅ์, ์๊ฐ IoU 11.0 ํฅ์
ํ๋ฌ๊ทธ ์ค ํ๋ ์ด ์ค๊ณ๋ก ๋ค์ํ VideoLLM๊ณผ ์กฐํฉ ๊ฐ๋ฅ
๐ฏ ์ ์ด๊ฒ์ด ๊ฒ์ ์ฒด์ธ์ ์ธ๊ฐ? : ๋จ์ผ ๋ชจ๋ฌ + ์๋ ํํฐ๋ง ๊ธฐ๋ฐ CCTV ๊ฒ์ โ ์ด๋ฏธ์ง+ํ ์คํธ ๋ฉํฐ๋ชจ๋ฌ ์ฟผ๋ฆฌ์ ์๊ฐ ์ถ๋ก ์ ๊ฒฐํฉํ AI ํฌ๋ ์
๋งค์ผ ๋ชฉ์์ผ ์ค์ 8์,
๋ฐ์ ๋น์ ์ ๊ธฐ์ ๋ฐ์ ์ ๋ค์ณ์ง์ง ์๊ฒ ๋ง๋ค์ด์ค
์ต์ AI ํธ๋ ๋ ์์ฝ๋ณธ์ด ์ ๋ฌ๋ฉ๋๋ค!

