๊ธˆ์ฃผ ์บ์น˜ํŽ˜์ดํผ๋Š” Alibaba, IBM Research, Meta, Huawei, NVIDIA, Samsung Research, Qualcomm๊ณผ ํ•จ๊ป˜ํ•ฉ๋‹ˆ๋‹ค. 3๋ถ„๋งŒ ํˆฌ์žํ•ด ์“ฑ ๋‘˜๋Ÿฌ๋ณด๊ณ , ๋น ๋ฅด๊ฒŒ ๋ฐ”๋€Œ๋Š” ๊ธฐ์ˆ ์˜ ๋ฐฉํ–ฅ์„ฑ์„ ๋†“์น˜์ง€ ๋งˆ์„ธ์š”!

๐Ÿ“ˆ ์ตœ์‹  AI ํŠธ๋ Œ๋“œ 3์ค„ ์š”์•ฝ

๐ŸŒŸ ํ˜•์‹ ์ฆ๋ช…(Formal Reasoning)๊ณผ ๊ฐ•ํ™”ํ•™์Šต์˜ ๊ฒฐํ•ฉ์ด ์ด๋ฒˆ ์ฃผ์˜ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ์ž…๋‹ˆ๋‹ค

๐Ÿ”ฅ ๋””ํ“จ์ „ ๋ชจ๋ธ์ด ํ…์ŠคํŠธ ์ƒ์„ฑ๊ณผ ๋ฌธ์„œ OCR๊นŒ์ง€ ์˜์—ญ์„ ํ™•์žฅํ•˜๋ฉฐ ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค

๐Ÿš€ ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ๋กœ๋ด‡ ์ œ์–ด๋ถ€ํ„ฐ ๊ฒŒ์ž„ ์›”๋“œ ๋ชจ๋ธ๋ง๊นŒ์ง€, AI๊ฐ€ ๋ฌผ๋ฆฌ ์„ธ๊ณ„์™€ ๋งŒ๋‚˜๋Š” ์ ‘์ ์ด ๊ธ‰๊ฒฉํžˆ ๋„“์–ด์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค

๐Ÿ”ญ โ€œ560B ์˜คํ”ˆ์†Œ์Šค๊ฐ€ ๋Œ€ํ•™์› ์ˆ˜ํ•™ 41.5%๋ฅผ ํ’€์–ด๋ฒ„๋ ธ๋‹คโ€

LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning

๐Ÿ›๏ธ ์†Œ์†: Alibaba

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: Formal Reasoning, Mixture-of-Experts, Lean4

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • AI๊ฐ€ ์ˆ˜ํ•™ ์ •๋ฆฌ๋ฅผ ํ˜•์‹์ ์œผ๋กœ ์ฆ๋ช…ํ•  ์ˆ˜ ์žˆ์„๊นŒ?

  • 560B ํŒŒ๋ผ๋ฏธํ„ฐ ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ์ด ํด๋กœ์ฆˆ๋“œ ๋ชจ๋ธ์„ ์ด๊ธธ ์ˆ˜ ์žˆ์„๊นŒ?

  • ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ์ˆ˜ํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ๊ฒŒ ๊ฐ€๋Šฅํ• ๊นŒ?

์ˆ˜ํ•™ ์˜ฌ๋ฆผํ”ผ์•„๋“œ์—์„œ ๋ฌธ์ œ๋ฅผ ํ’€ ๋•Œ, ์ตœ๊ณ ์˜ ์„ ์ˆ˜๋“ค์€ ๋ฌธ์ œ๋ฅผ ๋ถ„ํ•ดํ•˜๊ณ  ๋„๊ตฌ๋ฅผ ํ™œ์šฉํ•˜๋ฉฐ ๋‹จ๊ณ„์ ์œผ๋กœ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค. Alibaba์˜ LongCat-Flash-Prover๊ฐ€ ๋ฐ”๋กœ ๊ทธ ์ „๋žต์„ AI๋กœ ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค. 560B ํŒŒ๋ผ๋ฏธํ„ฐ์˜ MoE ๋ชจ๋ธ์ด Lean4์—์„œ ์ž๋™ ํ˜•์‹ํ™”(auto-formalization), ์Šค์ผ€์น˜(sketching), ์ฆ๋ช…(proving)์˜ ์„ธ ๊ฐ€์ง€ ๋Šฅ๋ ฅ์„ ๋ถ„๋ฆฌ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. HisPO๋ผ๋Š” ๊ณ„์ธต์  ์ค‘์š”๋„ ์ƒ˜ํ”Œ๋ง ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์ด ๊ฑฐ๋Œ€ ๋ชจ๋ธ์˜ ์žฅ๊ธฐ ์ถ”๋ก  ํ•™์Šต์„ ์•ˆ์ •ํ™”์‹œํ‚ค๋Š” ํ•ต์‹ฌ ์—ด์‡ ์ž…๋‹ˆ๋‹ค.

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • MiniF2F-Test์—์„œ ๋ฌธ์ œ๋‹น 72๋ฒˆ ์‹œ๋„๋งŒ์œผ๋กœ 97.1% pass rate ๋‹ฌ์„ฑ โ€” ์˜คํ”ˆ ๋ชจ๋ธ ์ตœ๊ณ  ๊ธฐ๋ก

  • PutnamBench(๋Œ€ํ•™์› ์ˆ˜์ค€)์—์„œ 220๋ฒˆ ์‹œ๋„๋กœ 41.5% ํ•ด๊ฒฐ, ๊ธฐ์กด ์˜คํ”ˆ ๋ฒ ์ด์Šค๋ผ์ธ ๋Œ€ํญ ์ƒํšŒ

  • ๋ณด์ƒ ํ•ดํ‚น ๋ฐฉ์ง€๋ฅผ ์œ„ํ•œ ์ •๋ฆฌ ์ผ๊ด€์„ฑ ๋ฐ ํ•ฉ๋ฒ•์„ฑ ๊ฒ€์ฆ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋„์ž…

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? : ํ˜•์‹ ์ฆ๋ช…์€ ํด๋กœ์ฆˆ๋“œ ๋ชจ๋ธ์˜ ์˜์—ญ โ†’ 560B ์˜คํ”ˆ์†Œ์Šค MoE๊ฐ€ ์—์ด์ „ํ‹ฑ RL๋กœ SOTA ๋‹ฌ์„ฑ, ์˜คํ”ˆ ์—ฐ๊ตฌ ๊ฐ€์†ํ™”

๐Ÿ•ต๏ธ โ€œ2์‹œ๊ฐ„ ์˜์ƒ, ์ „๋ถ€ ์•ˆ ๋ด๋„ ๋‹ต์ด ๋‚˜์˜ต๋‹ˆ๋‹คโ€

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

๐Ÿ›๏ธ ์†Œ์†: CAS/NLPR

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: Long Video Understanding, Visual-Temporal Graph, Clue Localization

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • 2์‹œ๊ฐ„์งœ๋ฆฌ ์˜์ƒ์—์„œ ํ•ต์‹ฌ ์žฅ๋ฉด๋งŒ ์ •ํ™•ํžˆ ์ฐพ์•„๋‚ผ ์ˆ˜ ์žˆ์„๊นŒ?

  • ์งˆ๋ฌธ๊ณผ ๋ฌด๊ด€ํ•ด ๋ณด์ด๋Š” ์žฅ๋ฉด๋„ ๋‹ต๋ณ€์— ์ค‘์š”ํ•œ ๋‹จ์„œ๊ฐ€ ๋  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?

  • ์˜์ƒ ์ „์ฒด๋ฅผ ๋ณด์ง€ ์•Š๊ณ ๋„ ์ •ํ™•ํ•œ ๋‹ต์„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ์„๊นŒ?

์ถ”๋ฆฌ ์†Œ์„ค์˜ ํƒ์ •์ด ํ˜„์žฅ์—์„œ ๋‹จ์„œ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๋ฐฉ์‹์„ ๋– ์˜ฌ๋ ค๋ณด์„ธ์š”. ์ข‹์€ ํƒ์ •์€ ์งˆ๋ฌธ(์šฉ์˜์ž)๋งŒ ๋ณด๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, ์ฆ๊ฑฐ๋“ค ์‚ฌ์ด์˜ ์—ฐ๊ฒฐ๊ณ ๋ฆฌ๋„ ํ•จ๊ป˜ ์‚ดํŽด๋ด…๋‹ˆ๋‹ค. VideoDetective๊ฐ€ ๋ฐ”๋กœ ์ด ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค. ์˜์ƒ์„ ์„ธ๊ทธ๋จผํŠธ๋กœ ๋‚˜๋ˆ„๊ณ  ์‹œ๊ฐ-์‹œ๊ฐ„์  ์นœ๋ฐ€๋„ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ตฌ์ถ•ํ•œ ๋’ค, ๊ฐ€์„ค-๊ฒ€์ฆ-์ •์ œ(Hypothesis-Verification-Refinement) ๋ฃจํ”„๋กœ ๊ด€์ฐฐ๋œ ์„ธ๊ทธ๋จผํŠธ์˜ ๊ด€๋ จ์„ฑ์„ ์ถ”์ •ํ•˜๊ณ  ๋ฏธ๊ด€์ฐฐ ์„ธ๊ทธ๋จผํŠธ๋กœ ์ „ํŒŒํ•ฉ๋‹ˆ๋‹ค.

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • VideoMME-long ๋ฒค์น˜๋งˆํฌ์—์„œ ์ •ํ™•๋„ ์ตœ๋Œ€ 7.5% ํ–ฅ์ƒ

  • ๋‹ค์–‘ํ•œ ์ฃผ๋ฅ˜ MLLM์— ํ”Œ๋Ÿฌ๊ทธ์ธ ๋ฐฉ์‹์œผ๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ฒ”์šฉ ํ”„๋ ˆ์ž„์›Œํฌ

  • ์งˆ๋ฌธ ๊ธฐ๋ฐ˜ + ์˜์ƒ ๋‚ด์žฌ์  ๊ตฌ์กฐ ๊ธฐ๋ฐ˜์˜ ์ด์ค‘ ๊ด€๋ จ์„ฑ ์ถ”์ •์œผ๋กœ ํฌ์†Œ ๊ด€์ฐฐ๋งŒ์œผ๋กœ๋„ ์ •ํ™•ํ•œ ๋‹ต๋ณ€

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? : ์งˆ๋ฌธ-์„ธ๊ทธ๋จผํŠธ ๋งค์นญ์—๋งŒ ์˜์กดํ•˜๋Š” ๋‹จ๋ฐฉํ–ฅ ๊ฒ€์ƒ‰ โ†’ ์˜์ƒ ๋‚ด๋ถ€ ๊ตฌ์กฐ๊นŒ์ง€ ํ™œ์šฉํ•˜๋Š” ์–‘๋ฐฉํ–ฅ ๋‹จ์„œ ์‚ฌ๋ƒฅ

๐Ÿงฉ โ€œ์—์ด์ „ํŠธ ์›Œํฌํ”Œ๋กœ์šฐ, ์•„์ง๋„ ๊ฐ์œผ๋กœ ์งœ๊ณ  ๊ณ„์‹ ๊ฐ€์š”?โ€

From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

๐Ÿ›๏ธ ์†Œ์†: IBM Research, Rensselaer Polytechnic Institute

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: Agentic Workflow, Computation Graphs, Dynamic Optimization

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • LLM ์—์ด์ „ํŠธ์˜ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์ž๋™์œผ๋กœ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ์„๊นŒ?

  • ์ •์  ํ…œํ”Œ๋ฆฟ๊ณผ ๋™์  ๊ทธ๋ž˜ํ”„ ์ค‘ ์–ด๋А ๊ฒƒ์ด ๋” ํšจ๊ณผ์ ์ผ๊นŒ?

  • ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ์„ โ€˜๊ตฌ์กฐโ€™ ๊ด€์ ์—์„œ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์„๊นŒ?

๊ฑด์ถ•๊ฐ€๊ฐ€ ์„ค๊ณ„๋„๋ฅผ ๊ทธ๋ฆด ๋•Œ, ์ฒ˜์Œ๋ถ€ํ„ฐ ์™„๋ฒฝํ•œ ๋„๋ฉด์„ ๊ทธ๋ฆฌ๋Š” ๋ฐฉ๋ฒ•๊ณผ ์‹œ๊ณต ์ค‘์— ํ˜„์žฅ์— ๋งž๊ฒŒ ์ˆ˜์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ์Šต๋‹ˆ๋‹ค. LLM ์—์ด์ „ํŠธ์˜ ์›Œํฌํ”Œ๋กœ์šฐ๋„ ๋งˆ์ฐฌ๊ฐ€์ง€์ž…๋‹ˆ๋‹ค. IBM Research์˜ Pin-Yu Chen ๋“ฑ์ด ์ฃผ๋„ํ•œ ์ด ์„œ๋ฒ ์ด๋Š” ์—์ด์ „ํŠธ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ โ€™์—์ด์ „ํ‹ฑ ์—ฐ์‚ฐ ๊ทธ๋ž˜ํ”„(ACG)โ€™๋กœ ํ†ตํ•ฉ ์ •์˜ํ•˜๊ณ , ๊ตฌ์กฐ๊ฐ€ ๊ฒฐ์ •๋˜๋Š” ์‹œ์ (์ •์  vs ๋™์ ), ์ตœ์ ํ™” ๋Œ€์ƒ, ํ‰๊ฐ€ ์‹ ํ˜ธ์˜ ์„ธ ์ถ•์œผ๋กœ ๊ธฐ์กด ๋ฌธํ—Œ์„ ์ฒด๊ณ„ํ™”ํ•ฉ๋‹ˆ๋‹ค.

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • ์žฌ์‚ฌ์šฉ ๊ฐ€๋Šฅ ํ…œํ”Œ๋ฆฟ, ์‹คํ–‰๋ณ„ ์‹คํ˜„ ๊ทธ๋ž˜ํ”„, ์‹คํ–‰ ํŠธ๋ ˆ์ด์Šค์˜ 3๋‹จ๊ณ„ ๊ตฌ๋ถ„ ์ฒด๊ณ„ ์ œ์•ˆ

  • ํƒœ์Šคํฌ ๋ฉ”ํŠธ๋ฆญ ์™ธ์— ๊ทธ๋ž˜ํ”„ ์†์„ฑ, ์‹คํ–‰ ๋น„์šฉ, ๊ฐ•๊ฑด์„ฑ๊นŒ์ง€ ํฌ๊ด„ํ•˜๋Š” ๊ตฌ์กฐ ์ธ์‹ ํ‰๊ฐ€ ๊ด€์  ์ œ์‹œ

  • ์ •์ /๋™์  ์›Œํฌํ”Œ๋กœ์šฐ ์„ค๊ณ„์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ๋ช…ํ™•ํžˆ ์ •๋ฆฌํ•œ ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? : ์—์ด์ „ํŠธ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์ง๊ด€์— ์˜์กดํ•ด ์„ค๊ณ„ โ†’ ์ฒด๊ณ„์  ๋ถ„๋ฅ˜๋ฒ•๊ณผ ๊ตฌ์กฐ ์ธ์‹ ํ‰๊ฐ€๋กœ ๊ณผํ•™์  ์ตœ์ ํ™”์˜ ํ† ๋Œ€ ๋งˆ๋ จ

โšก โ€œRLVR์˜ ๋น„๋ฐ€์€ โ€™ํฌ๊ธฐโ€™๊ฐ€ ์•„๋‹ˆ๋ผ โ€™๋ฐฉํ–ฅโ€™์ด์—ˆ๋‹คโ€

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

๐Ÿ›๏ธ ์†Œ์†: Alibaba, USTC

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: RLVR, Token-Level Analysis, Reasoning Enhancement

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • ๊ฐ•ํ™”ํ•™์Šต์ด LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ๋ฐ”๊พธ๋Š” ๊ฑธ๊นŒ?

  • ๋ณ€ํ™”์˜ โ€™ํฌ๊ธฐโ€™๋ณด๋‹ค โ€™๋ฐฉํ–ฅโ€™์ด ๋” ์ค‘์š”ํ•  ์ˆ˜ ์žˆ์„๊นŒ?

  • ์ถ”๊ฐ€ ํ•™์Šต ์—†์ด ์ถ”๋ก  ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ๋ฐฉ๋ฒ•์€?

๋‚˜์นจ๋ฐ˜์„ ์ƒ๊ฐํ•ด๋ณด์„ธ์š”. ๋ชฉ์ ์ง€์— ๋„๋‹ฌํ•˜๋ ค๋ฉด ์–ผ๋งˆ๋‚˜ ๋นจ๋ฆฌ ๊ฐ€๋А๋ƒ(ํฌ๊ธฐ)๋ณด๋‹ค ์–ด๋А ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€๋А๋ƒ๊ฐ€ ํ›จ์”ฌ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” RLVR์ด LLM์„ ๋ณ€ํ™”์‹œํ‚ค๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์—์„œ ๊ธฐ์กด์˜ โ€˜ํฌ๊ธฐ(magnitude)โ€™ ์ค‘์‹ฌ ๋ถ„์„์„ ๋’ค์ง‘๊ณ , ํ† ํฐ๋ณ„ ๋กœ๊ทธ ํ™•๋ฅ  ์ฐจ์ด(ฮ”log p)์˜ โ€™๋ฐฉํ–ฅโ€™์ด ์ถ”๋ก ์— ํ•ต์‹ฌ์ ์ธ ์—…๋ฐ์ดํŠธ๋ฅผ ๋” ์ •ํ™•ํžˆ ํฌ์ฐฉํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ•ฉ๋‹ˆ๋‹ค.

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • ํ…Œ์ŠคํŠธ ํƒ€์ž„์— ํ•™์Šต๋œ ฮ”log p ๋ฐฉํ–ฅ์œผ๋กœ ์™ธ์‚ฝํ•˜๋Š” ๊ฒƒ๋งŒ์œผ๋กœ ์ถ”๋ก  ์ •ํ™•๋„ ํ–ฅ์ƒ (์ถ”๊ฐ€ ํ•™์Šต ๋ถˆํ•„์š”)

  • ํ•™์Šต ์‹œ ์ €ํ™•๋ฅ  ํ† ํฐ(๋†’์€ ฮ”log p)์— ๊ฐ€์ค‘์น˜๋ฅผ ์ฃผ๋Š” ๋ฆฌ์›จ์ดํŒ… ์ „๋žต์œผ๋กœ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ๊ณผ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ๊ฐœ์„ 

  • ํ† ํฐ ๊ต์ฒด ์‹คํ—˜์œผ๋กœ ๋ฐฉํ–ฅ ๊ธฐ๋ฐ˜ ์ง€ํ‘œ๊ฐ€ ํฌ๊ธฐ ๊ธฐ๋ฐ˜ ์ง€ํ‘œ๋ณด๋‹ค ์ถ”๋ก  ํ•ต์‹ฌ ์—…๋ฐ์ดํŠธ๋ฅผ ๋” ์ž˜ ์‹๋ณ„ํ•จ์„ ๊ฒ€์ฆ

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? : RLVR ํšจ๊ณผ๋ฅผ โ€™์–ผ๋งˆ๋‚˜ ๋ณ€ํ–ˆ๋‚˜โ€™๋กœ ๋ถ„์„ โ†’ โ€™์–ด๋–ค ๋ฐฉํ–ฅ์œผ๋กœ ๋ณ€ํ–ˆ๋‚˜โ€™๋กœ ์ „ํ™˜, ํ•™์Šต ์—†๋Š” ์ถ”๋ก  ํ–ฅ์ƒ๊นŒ์ง€ ๊ฐ€๋Šฅ

๐ŸŽฎ โ€œ๋ชฌํ—Œ์—์„œ 1์–ต ํ”„๋ ˆ์ž„์„ ๋ฝ‘์œผ๋ฉด ์›”๋“œ ๋ชจ๋ธ์ด ๋ฉ๋‹ˆ๋‹คโ€

WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

๐Ÿ›๏ธ ์†Œ์†: Independent

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: World Model, Action-Conditioned Generation, Game Dataset

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • AI๊ฐ€ AAA๊ธ‰ ๊ฒŒ์ž„ ์ˆ˜์ค€์˜ ์›”๋“œ๋ฅผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•  ์ˆ˜ ์žˆ์„๊นŒ?

  • ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹์˜ โ€™์•ก์…˜โ€™์ด ๋„ˆ๋ฌด ๋‹จ์ˆœํ•ด์„œ ์›”๋“œ ๋ชจ๋ธ์ด ํ•œ๊ณ„์— ๋ถ€๋”ชํžˆ๋Š” ๊ฑด ์•„๋‹๊นŒ?

  • ๊ฒŒ์ž„ ์—”์ง„์—์„œ ์ž๋™์œผ๋กœ ๊ณ ํ’ˆ์งˆ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋ฝ‘์•„๋‚ผ ์ˆ˜ ์žˆ์„๊นŒ?

๋ ˆ์ด์‹ฑ ๊ฒŒ์ž„์—์„œ โ€™์ขŒํšŒ์ „โ€™๊ณผ โ€™์šฐํšŒ์ „โ€™๋งŒ ์žˆ๋Š” ๊ฒƒ๊ณผ, ๋“œ๋ฆฌํ”„ํŠธ, ๊ธฐ์–ด ์ฒด์ธ์ง€, ํ•ธ๋“œ๋ธŒ๋ ˆ์ดํฌ๊นŒ์ง€ ์žˆ๋Š” ๊ฒƒ์€ ์ „ํ˜€ ๋‹ค๋ฅธ ์„ธ์ƒ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ์›”๋“œ ๋ชจ๋ธ ๋ฐ์ดํ„ฐ์…‹์€ ์ „์ž์— ๊ฐ€๊นŒ์› ์Šต๋‹ˆ๋‹ค. WildWorld๋Š” ๋ชฌ์Šคํ„ฐ ํ—Œํ„ฐ: ์™€์ผ๋“œ์—์„œ 1์–ต 800๋งŒ ํ”„๋ ˆ์ž„์„ ์ž๋™ ์ˆ˜์ง‘ํ•˜์—ฌ, 450์ข… ์ด์ƒ์˜ ์˜๋ฏธ ์žˆ๋Š” ์•ก์…˜(์ด๋™, ๊ณต๊ฒฉ, ์Šคํ‚ฌ ์‹œ์ „)๊ณผ ํ•จ๊ป˜ ์Šค์ผˆ๋ ˆํ†ค, ์›”๋“œ ์Šคํ…Œ์ดํŠธ, ์นด๋ฉ”๋ผ ํฌ์ฆˆ, ๋ށ์Šค ๋งต๊นŒ์ง€ ๋™๊ธฐํ™”๋œ ์–ด๋…ธํ…Œ์ด์…˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • 1์–ต 800๋งŒ ํ”„๋ ˆ์ž„, 450+ ์•ก์…˜ ์ข…๋ฅ˜์˜ ๋Œ€๊ทœ๋ชจ ์•ก์…˜-์กฐ๊ฑด๋ถ€ ์›”๋“œ ๋ชจ๋ธ๋ง ๋ฐ์ดํ„ฐ์…‹

  • Action Following๊ณผ State Alignment์„ ํ‰๊ฐ€ํ•˜๋Š” WildBench ๋ฒค์น˜๋งˆํฌ ํ•จ๊ป˜ ๊ณต๊ฐœ

  • ์˜๋ฏธ์ ์œผ๋กœ ํ’๋ถ€ํ•œ ์•ก์…˜ ๋ชจ๋ธ๋ง๊ณผ ์žฅ๊ธฐ ์ƒํƒœ ์ผ๊ด€์„ฑ ์œ ์ง€์˜ ๊ตฌ์ฒด์  ๋„์ „ ๊ณผ์ œ ๊ทœ๋ช…

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? : ๋‹จ์ˆœ ์•ก์…˜ + ํ”ฝ์…€ ๋ณ€ํ™”์— ์˜์กดํ•˜๋˜ ์›”๋“œ ๋ชจ๋ธ ํ•™์Šต โ†’ ์ƒํƒœ ์ธ์‹ ๊ธฐ๋ฐ˜์˜ ํ’๋ถ€ํ•œ ์•ก์…˜ ๊ณต๊ฐ„์—์„œ์˜ ๋™์  ์„ธ๊ณ„ ๋ชจ๋ธ๋ง

๐Ÿง  โ€œV-JEPA2๋Š” ์ž˜ ๋ณด๋Š”๋ฐ ์ƒ๊ฐ์„ ๋ชป ํ•ฉ๋‹ˆ๋‹คโ€

ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

๐Ÿ›๏ธ ์†Œ์†: Meta, Northeastern University

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: Latent World Model, VLM Guidance, JEPA

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • ์ž ์žฌ ์›”๋“œ ๋ชจ๋ธ์ด ์žฅ๊ธฐ์  ์˜๋ฏธ๊นŒ์ง€ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์„๊นŒ?

  • ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์›”๋“œ ๋ชจ๋ธ์— ์ฃผ์ž…ํ•  ์ˆ˜ ์žˆ์„๊นŒ?

  • V-JEPA2์˜ ํ•œ๊ณ„๋ฅผ VLM์œผ๋กœ ๋ณด์™„ํ•˜๋Š” ๋ฐฉ๋ฒ•์€?

์นด๋ฉ”๋ผ๋งŒ ๋‹ฌ๋ฆฐ ์ž์œจ์ฃผํ–‰์ฐจ๊ฐ€ ํ‘œ์ง€ํŒ์€ ์ž˜ ์ฝ์ง€๋งŒ ์ „์ฒด ๊ตํ†ต ์ƒํ™ฉ์„ ์ดํ•ดํ•˜์ง€ ๋ชปํ•œ๋‹ค๋ฉด? ๊ทธ ์ฐจ์— ๊ฒฝํ—˜ ๋งŽ์€ ์กฐ์ˆ˜์„ ์šด์ „์ž(VLM)๋ฅผ ํƒœ์šฐ๋Š” ๊ฒƒ์ด ThinkJEPA์˜ ์•„์ด๋””์–ด์ž…๋‹ˆ๋‹ค. ๋ฐ€์ง‘ ํ”„๋ ˆ์ž„์„ ์ฒ˜๋ฆฌํ•˜๋Š” JEPA ๋ธŒ๋žœ์น˜์™€ ๋„“์€ ์‹œ๊ฐ„ ๋ฒ”์œ„๋ฅผ ์ถ”๋ก ํ•˜๋Š” VLM โ€˜thinkerโ€™ ๋ธŒ๋žœ์น˜์˜ ๋“€์–ผ ๊ฒฝ๋กœ ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด, ์„ธ๋ฐ€ํ•œ ๋™์ž‘ ๋ชจ๋ธ๋ง๊ณผ ์žฅ๊ธฐ ์˜๋ฏธ ์ดํ•ด๋ฅผ ๋™์‹œ์— ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • ํ•ธ๋“œ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ๊ถค์  ์˜ˆ์ธก์—์„œ VLM ๋‹จ๋… ๋ฐ JEPA ๋‹จ๋… ๋ฒ ์ด์Šค๋ผ์ธ ๋ชจ๋‘ ์ƒํšŒ

  • ๋‹ค์ธต VLM ํ‘œํ˜„์„ ํ”ผ๋ผ๋ฏธ๋“œ ๊ตฌ์กฐ๋กœ ์ถ”์ถœํ•˜๋Š” ๊ณ„์ธต์  ๊ฐ€์ด๋˜์Šค ๋ชจ๋“ˆ ๋„์ž…

  • ์žฅ๊ธฐ ๋กค์•„์›ƒ์—์„œ ๋” ๊ฐ•๊ฑดํ•œ ํ–‰๋™ ์˜ˆ์ธก โ€” ์‹ค์ œ ๋กœ๋ด‡ ์กฐ์ž‘ ์‹œ๋‚˜๋ฆฌ์˜ค์— ์ ํ•ฉ

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? : ๋ฐ€์ง‘ ํ”„๋ ˆ์ž„ ๋ชจ๋ธ๋ง OR ์˜๋ฏธ์  ์ถ”๋ก  ์ค‘ ํƒ์ผ โ†’ ๋“€์–ผ ๊ฒฝ๋กœ๋กœ ์„ธ๋ฐ€ํ•จ๊ณผ ์˜๋ฏธ ์ดํ•ด๋ฅผ ๋™์‹œ ํ™•๋ณดํ•˜๋Š” ์›”๋“œ ๋ชจ๋ธ

๐Ÿ“„ โ€œOCR์—์„œ โ€™์™ผ์ชฝ๋ถ€ํ„ฐ ์ฝ๊ธฐโ€™๋ฅผ ๋ฒ„๋ ธ๋”๋‹ˆ 3.2๋ฐฐ ๋นจ๋ผ์กŒ๋‹คโ€

MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

๐Ÿ›๏ธ ์†Œ์†: Shanghai AI Lab

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: Document OCR, Diffusion Decoding, Parallel Generation

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • ๋ฌธ์„œ OCR์ด ์™œ ๊ผญ ์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ์ฝ์–ด์•ผ ํ• ๊นŒ?

  • ๊ธด ๋ฌธ์„œ์—์„œ ์˜ค๋ฅ˜๊ฐ€ ๋ˆ„์ ๋˜๋Š” ๋ฌธ์ œ๋ฅผ ๊ทผ๋ณธ์ ์œผ๋กœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์„๊นŒ?

  • ๋””ํ“จ์ „ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง€ ์ƒ์„ฑ ์™ธ์— ํ…์ŠคํŠธ ์ธ์‹์—๋„ ์“ธ ์ˆ˜ ์žˆ์„๊นŒ?

์‚ฌ์ง„์„ ์ฐ๋Š” ๊ฒƒ(๋ Œ๋”๋ง)์˜ ๋ฐ˜๋Œ€ ๊ณผ์ •์œผ๋กœ ๋ฌธ์„œ๋ฅผ ์ดํ•ดํ•œ๋‹ค๋ฉด? MinerU-Diffusion์€ ๊ธฐ์กด OCR์˜ โ€˜์ˆœ์ฐจ์ ์œผ๋กœ ์ฝ๊ธฐโ€™ ํŒจ๋Ÿฌ๋‹ค์ž„์„ โ€™๋ณ‘๋ ฌ ๋””ํ“จ์ „ ๋””๋…ธ์ด์ง•โ€™์œผ๋กœ ๋Œ€์ฒดํ•ฉ๋‹ˆ๋‹ค. ๋ฌธ์„œ๋ฅผ ์ด๋ฏธ์ง€์—์„œ ํ…์ŠคํŠธ๋กœ ์—ญ๋ Œ๋”๋งํ•˜๋Š” ๊ด€์ ์—์„œ ์ ‘๊ทผํ•˜์—ฌ, ๋ธ”๋ก ๋‹จ์œ„ ๋””ํ“จ์ „ ๋””์ฝ”๋”์™€ ๋ถˆํ™•์‹ค์„ฑ ๊ธฐ๋ฐ˜ ์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต์œผ๋กœ ๊ธด ๋ฌธ์„œ๋„ ์•ˆ์ •์ ์ด๊ณ  ๋น ๋ฅด๊ฒŒ ํŒŒ์‹ฑํ•ฉ๋‹ˆ๋‹ค.

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • ์ž๊ธฐํšŒ๊ท€ ๋ฒ ์ด์Šค๋ผ์ธ ๋Œ€๋น„ ์ตœ๋Œ€ 3.2๋ฐฐ ๋น ๋ฅธ ๋””์ฝ”๋”ฉ ์†๋„

  • ๋ ˆ์ด์•„์›ƒ, ํ…Œ์ด๋ธ”, ์ˆ˜์‹์ด ํฌํ•จ๋œ ๊ตฌ์กฐํ™”๋œ ๋ฌธ์„œ ํŒŒ์‹ฑ์—์„œ ์ผ๊ด€๋œ ๊ฐ•๊ฑด์„ฑ ํ–ฅ์ƒ

  • Semantic Shuffle ๋ฒค์น˜๋งˆํฌ์—์„œ ์–ธ์–ด์  ์‚ฌ์ „์ง€์‹ ์˜์กด๋„ ๊ฐ์†Œ โ€” ์ˆœ์ˆ˜ ์‹œ๊ฐ OCR ๋Šฅ๋ ฅ ์ž…์ฆ

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? : ์ˆœ์ฐจ์  ์ž๊ธฐํšŒ๊ท€ ๋””์ฝ”๋”ฉ์˜ ์˜ค๋ฅ˜ ๋ˆ„์ ๊ณผ ์†๋„ ๋ณ‘๋ชฉ โ†’ ๋ณ‘๋ ฌ ๋””ํ“จ์ „์œผ๋กœ ์†๋„์™€ ๊ฐ•๊ฑด์„ฑ์„ ๋™์‹œ์— ์žก๋Š” ๋ฌธ์„œ OCR

๐Ÿ’ก โ€œ๋””ํ“จ์ „ ์–ธ์–ด ๋ชจ๋ธ, ํ•™์Šตํ•  ๋•Œ๋ž‘ ์ถ”๋ก ํ•  ๋•Œ๊ฐ€ ์™œ ๋‹ค๋ฅผ๊นŒ?โ€

MemDLM: Memory-Enhanced DLM Training

๐Ÿ›๏ธ ์†Œ์†: Huawei, CUHK, NTU

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: Diffusion Language Model, Parametric Memory, Train-Inference Gap

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • ๋””ํ“จ์ „ ์–ธ์–ด ๋ชจ๋ธ์ด ์ž๊ธฐํšŒ๊ท€ ๋ชจ๋ธ์„ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ์„๊นŒ?

  • ํ•™์Šต๊ณผ ์ถ”๋ก  ์‚ฌ์ด์˜ ๋ถˆ์ผ์น˜๋ฅผ ์–ด๋–ป๊ฒŒ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์„๊นŒ?

  • ๋ชจ๋ธ์— โ€™์ž‘์—… ๊ธฐ์–ตโ€™์„ ์‹ฌ์–ด์ค„ ์ˆ˜ ์žˆ์„๊นŒ?

์‹œํ—˜ ๊ณต๋ถ€๋ฅผ ํ•  ๋•Œ ๊ต๊ณผ์„œ๋งŒ ์ฝ๋Š” ๊ฒƒ๊ณผ, ์‹ค์ „ ๋ชจ์˜๊ณ ์‚ฌ๋ฅผ ํ’€๋ฉด์„œ ๊ณต๋ถ€ํ•˜๋Š” ๊ฒƒ์€ ๊ฒฐ๊ณผ๊ฐ€ ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ๋””ํ“จ์ „ ์–ธ์–ด ๋ชจ๋ธ(DLM)์€ ์ •์  ๋งˆ์Šคํฌ ์˜ˆ์ธก์œผ๋กœ ํ›ˆ๋ จํ•˜์ง€๋งŒ, ์‹ค์ œ๋กœ๋Š” ๋‹ค๋‹จ๊ณ„ ๋””๋…ธ์ด์ง•์œผ๋กœ ์ถ”๋ก ํ•ฉ๋‹ˆ๋‹ค. MemDLM์€ ์ด ๊ฒฉ์ฐจ๋ฅผ ๋ฉ”์šฐ๊ธฐ ์œ„ํ•ด ์ด์ค‘ ์ˆ˜์ค€ ์ตœ์ ํ™”๋ฅผ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค. ๋‚ด๋ถ€ ๋ฃจํ”„๊ฐ€ ๊ฐ ์ƒ˜ํ”Œ์˜ ๋””๋…ธ์ด์ง• ๊ถค์  ๊ฒฝํ—˜์„ ๋น ๋ฅธ ๊ฐ€์ค‘์น˜(Parametric Memory)๋กœ ์ถ•์ ํ•˜๊ณ , ์™ธ๋ถ€ ๋ฃจํ”„๊ฐ€ ์ด ๊ธฐ์–ต์„ ์กฐ๊ฑด์œผ๋กœ ๊ธฐ๋ณธ ๋ชจ๋ธ์„ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • ํ•™์Šต ์ˆ˜๋ ด ์†๋„์™€ ์†์‹ค ๋ชจ๋‘ ๊ธฐ์กด DLM ๋Œ€๋น„ ๊ฐœ์„ 

  • Needle-in-a-Haystack ๊ฒ€์ƒ‰ ํƒœ์Šคํฌ์—์„œ ์ฐฝ๋ฐœ์  ์ธ-์›จ์ดํŠธ ๊ฒ€์ƒ‰ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ฐœํ˜„

  • ์ถ”๋ก  ์‹œ ๋‚ด๋ถ€ ๋ฃจํ”„๋ฅผ ์žฌํ™œ์„ฑํ™”ํ•˜๋ฉด ๊ธด ์ปจํ…์ŠคํŠธ ์ดํ•ด์—์„œ ์ถ”๊ฐ€ ์„ฑ๋Šฅ ํ–ฅ์ƒ

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? : ์ •์  ํ›ˆ๋ จ ๋ชฉํ‘œ์™€ ๋™์  ์ถ”๋ก ์˜ ๋ถˆ์ผ์น˜ โ†’ ํŒŒ๋ผ๋ฉ”ํŠธ๋ฆญ ๋ฉ”๋ชจ๋ฆฌ๋กœ ํ›ˆ๋ จ ์ค‘์— ์ถ”๋ก  ๊ฒฝํ—˜์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜์—ฌ ๊ฒฉ์ฐจ ํ•ด์†Œ

๐Ÿค– โ€œ์ฝ”๋“œ๋งŒ์œผ๋กœ ๋กœ๋ด‡์„ ์กฐ์ข…ํ•  ์ˆ˜ ์žˆ์„๊นŒ?โ€

CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation

๐Ÿ›๏ธ ์†Œ์†: NVIDIA, Stanford, UC Berkeley, UT Austin

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: Code-as-Policy, Robot Manipulation, Agentic Test-Time Compute

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • LLM์ด ์ž‘์„ฑํ•œ ์ฝ”๋“œ๋กœ ๋กœ๋ด‡์„ ์ง์ ‘ ์กฐ์ข…ํ•  ์ˆ˜ ์žˆ์„๊นŒ?

  • VLA(๋น„์ „-์–ธ์–ด-์•ก์…˜) ๋ชจ๋ธ ์—†์ด๋„ ๋กœ๋ด‡ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜์ด ๊ฐ€๋Šฅํ• ๊นŒ?

  • ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ์ œ์–ด์—์„œ ์ธ๊ฐ„์ด ์„ค๊ณ„ํ•œ ์ถ”์ƒํ™” ์—†์ด๋„ ์ž˜ ์ž‘๋™ํ• ๊นŒ?

๋ ˆ๊ณ  ์„ค๋ช…์„œ ์—†์ด ๋ณต์žกํ•œ ์„ธํŠธ๋ฅผ ์กฐ๋ฆฝํ•˜๋Š” ๊ฒƒ๊ณผ, ์„ค๋ช…์„œ๋ฅผ ๋ณด๊ณ  ์กฐ๋ฆฝํ•˜๋Š” ๊ฒƒ์˜ ์ฐจ์ด๋ฅผ ์ƒ๊ฐํ•ด๋ณด์„ธ์š”. ๊ธฐ์กด Code-as-Policy ์—ฐ๊ตฌ๋Š” โ€™์„ค๋ช…์„œ(์ธ๊ฐ„์ด ์„ค๊ณ„ํ•œ ์ถ”์ƒํ™”)โ€™์— ํฌ๊ฒŒ ์˜์กดํ–ˆ์Šต๋‹ˆ๋‹ค. Fei-Fei Li, Ken Goldberg, Jim Fan ๋“ฑ์ด ์ฐธ์—ฌํ•œ CaP-X๋Š” ์ด ์˜์กด์„ฑ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ณ , ์—์ด์ „ํ‹ฑ ํ…Œ์ŠคํŠธ ํƒ€์ž„ ์ปดํ“จํŠธ(๋‹ค์ค‘ ํ„ด ์ƒํ˜ธ์ž‘์šฉ, ์‹œ๊ฐ ์ฐจ์ด ๋น„๊ต, ์ž๋™ ์Šคํ‚ฌ ํ•ฉ์„ฑ)๋กœ ์ด ๊ฒฉ์ฐจ๋ฅผ ๋ฉ”์šธ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • 12๊ฐœ ํ”„๋ก ํ‹ฐ์–ด ๋ชจ๋ธ ํ‰๊ฐ€: ์ธ๊ฐ„ ์„ค๊ณ„ ์ถ”์ƒํ™” ์ œ๊ฑฐ ์‹œ ์„ฑ๋Šฅ ์ €ํ•˜ ํŒจํ„ด์„ ์ฒด๊ณ„์ ์œผ๋กœ ๊ทœ๋ช…

  • CaP-Agent0: ํ•™์Šต ์—†์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ์‹ค์ œ ๋กœ๋ด‡ ๋ชจ๋‘์—์„œ ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์‹ ๋ขฐ์„ฑ ๋‹ฌ์„ฑ

  • CaP-RL: ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ sim2real ์ „์ด ์‹œ ์ตœ์†Œ ๊ฐญ

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? : ์ธ๊ฐ„ ์„ค๊ณ„ ์ถ”์ƒํ™”์— ์˜์กดํ•˜๋Š” Code-as-Policy โ†’ ์—์ด์ „ํ‹ฑ ์ปดํ“จํŠธ ์Šค์ผ€์ผ๋ง์œผ๋กœ ์ €์ˆ˜์ค€ ์ œ์–ด์—์„œ๋„ ๊ฐ•๊ฑดํ•œ ์ฝ”๋”ฉ ์—์ด์ „ํŠธ

๐Ÿ” โ€œCCTV ์ˆ˜๋ฐฑ ์‹œ๊ฐ„, ์‚ฌ์ง„ ํ•œ ์žฅ์ด๋ฉด ๋ฒ”์ธ์„ ์ฐพ์Šต๋‹ˆ๋‹คโ€

ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

๐Ÿ›๏ธ ์†Œ์†: Samsung Research, Qualcomm

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: Video Forensics, Multimodal Query, Temporal Grounding

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • โ€œ์ด ์‚ฌ๋žŒ์ด ์‹ธ์›€์— ํ•ฉ๋ฅ˜ํ•˜๋Š” ์‹œ์ ์€?โ€์ด๋ผ๋Š” ์งˆ๋ฌธ์— AI๊ฐ€ ๋‹ตํ•  ์ˆ˜ ์žˆ์„๊นŒ?

  • ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ๋™์‹œ์— ๋˜์ง€๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ฒ€์ƒ‰์ด CCTV์—์„œ ๊ฐ€๋Šฅํ• ๊นŒ?

  • ๊ธฐ์กด ์˜์ƒ ๊ฒ€์ƒ‰ ์‹œ์Šคํ…œ์ด ์‹œ๊ฐ„ ์ถ”๋ก ์— ์™œ ์ด๋ ‡๊ฒŒ ์•ฝํ•œ ๊ฑธ๊นŒ?

๋ฒ”์ฃ„ ์ˆ˜์‚ฌ์—์„œ ์ˆ˜๋ฐฑ ์‹œ๊ฐ„์˜ CCTV ์˜์ƒ์„ ์ˆ˜๋™์œผ๋กœ ๊ฒ€ํ† ํ•˜๋Š” ๊ฑด ๋ฐ”๋‹ค์—์„œ ๋ฐ”๋Š˜ ์ฐพ๊ธฐ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ์˜์ƒ ๊ฒ€์ƒ‰์€ ํ…์ŠคํŠธ๋งŒ ๋˜๋Š” ์ด๋ฏธ์ง€๋งŒ ์ง€์›ํ•˜๊ฑฐ๋‚˜, ์‹œ๊ฐ„ ์ถ”๋ก ์— ์‹คํŒจํ–ˆ์Šต๋‹ˆ๋‹ค. Samsung Research์™€ Qualcomm์ด ํ•จ๊ป˜ ๋งŒ๋“  ForeSea๋Š” ์ด๋ฏธ์ง€+ํ…์ŠคํŠธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฟผ๋ฆฌ๋ฅผ ์ง€์›ํ•˜๋Š” 3๋‹จ๊ณ„ ํŒŒ์ดํ”„๋ผ์ธ(ํŠธ๋ž˜ํ‚น โ†’ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ๋ฑ์‹ฑ โ†’ VideoLLM ์ถ”๋ก )์œผ๋กœ ํฌ๋ Œ์‹ ๊ฒ€์ƒ‰์„ ํ˜์‹ ํ•ฉ๋‹ˆ๋‹ค.

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • ForeSeaQA: ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฟผ๋ฆฌ + ์‹œ๊ฐ„ ๊ทธ๋ผ์šด๋”ฉ์„ ๋™์‹œ์— ํ‰๊ฐ€ํ•˜๋Š” ์ตœ์ดˆ์˜ ๋ฒค์น˜๋งˆํฌ

  • ๊ธฐ์กด VideoRAG ๋Œ€๋น„ ์ •ํ™•๋„ 3.5% ํ–ฅ์ƒ, ์‹œ๊ฐ„ IoU 11.0 ํ–ฅ์ƒ

  • ํ”Œ๋Ÿฌ๊ทธ ์•ค ํ”Œ๋ ˆ์ด ์„ค๊ณ„๋กœ ๋‹ค์–‘ํ•œ VideoLLM๊ณผ ์กฐํ•ฉ ๊ฐ€๋Šฅ

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? : ๋‹จ์ผ ๋ชจ๋‹ฌ + ์ˆ˜๋™ ํ•„ํ„ฐ๋ง ๊ธฐ๋ฐ˜ CCTV ๊ฒ€์ƒ‰ โ†’ ์ด๋ฏธ์ง€+ํ…์ŠคํŠธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฟผ๋ฆฌ์™€ ์‹œ๊ฐ„ ์ถ”๋ก ์„ ๊ฒฐํ•ฉํ•œ AI ํฌ๋ Œ์‹

๋งค์ผ ๋ชฉ์š”์ผ ์˜ค์ „ 8์‹œ,
๋ฐ”์œ ๋‹น์‹ ์„ ๊ธฐ์ˆ  ๋ฐœ์ „์— ๋’ค์ณ์ง€์ง€ ์•Š๊ฒŒ ๋งŒ๋“ค์–ด์ค„
์ตœ์‹  AI ํŠธ๋ Œ๋“œ ์š”์•ฝ๋ณธ์ด ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค!

Keep Reading