📑DeepSeek: "GPT-5? 우리도 이긴다" - 오픈 LLM의 반란

금주 캐치페이퍼는 Google DeepMind, DeepSeek, Meta, ByteDance, Alibaba, Stanford, NVIDIA 와 함께합니다. 3분만 투자해 쓱 둘러보고, 빠르게 바뀌는 기술의 방향성을 놓치지 마세요!

📈 최신 AI 트렌드 2줄 요약

🌟 오픈소스 LLM이 국제 수학·정보 올림피아드 금메달 수준의 추론 능력을 달성하며, 기존 대기업들이 공개한 폐쇄형 모델과의 격차를 급격히 좁히고 있습니다.

🚀 3D 가상 세계에서 자율적으로 학습하는 범용 에이전트, 멀티모달 이해·생성 통합 모델, 그리고 강화학습 안정화 기법 등 차세대 AI 인프라 연구가 활발히 진행되고 있습니다.

❝

🎮 게임 속에서 스스로 배우고 진화하는 AI가 온다.

SIMA 2: A Generalist Embodied Agent for Virtual Worlds

🏛️ 소속: Google DeepMind

🏷️ 핵심 키워드: Embodied Agent, Gemini, Self-Improvement, Virtual Worlds

💭 이런 질문을 해본 적 있나요?

"AI가 인간처럼 3D 세계를 이해하고 행동할 수 있을까?"
"단순한 명령 수행을 넘어, AI가 스스로 목표를 설정하고 학습할 수 있을까?"
"한 게임에서 배운 기술을 다른 게임에서도 활용할 수 있을까?"

숙련된 게이머가 새로운 게임에서도 빠르게 적응하듯, SIMA 2는 다양한 3D 가상 세계에서 목표를 이해하고 자율적으로 행동합니다. Gemini 모델을 기반으로 전작 대비 작업 성공률을 2배로 끌어올렸으며, 스스로 과제를 생성하고 보상을 부여하는 자기 개선 메커니즘까지 갖췄습니다. 특히 주목할 점:

SIMA 1의 31% 성공률에서 62%로 도약, 인간 수준(71%)에 근접
이모지, 음성, 스케치 등 다양한 입력 방식으로 명령 수행 가능
No Man's Sky, Goat Simulator 3 등 상용 게임과 Genie 3 생성 환경까지 일반화

🎯 왜 이것이 게임 체인저인가? : 단순 명령 수행 에이전트 → 자율 학습하는 범용 체화 에이전트의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

🥇 오픈소스 LLM이 드디어 IMO 금메달을 땄다.

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

🏛️ 소속: DeepSeek

🏷️ 핵심 키워드: Open LLM, Sparse Attention, IMO Gold Medal, Reinforcement Learning

💭 이런 질문을 해본 적 있나요?

"오픈소스 모델도 GPT-5와 경쟁할 수 있을까?"
"국제 수학 올림피아드 문제를 AI가 풀 수 있을까?"
"효율성과 추론 능력을 동시에 잡을 수 있을까?"

올림픽 금메달리스트가 특정 종목이 아닌 전 종목에서 빛나듯, DeepSeek-V3.2는 수학, 코딩, 에이전트 작업 모두에서 최정상급 성능을 보여줍니다. 특히 Speciale 변형은 2025년 IMO와 IOI에서 금메달 수준의 성적을 달성했습니다. 특히 주목할 점:

DeepSeek Sparse Attention(DSA)으로 O(L²)에서 O(Lk)로 연산 복잡도 대폭 감소
GPT-5와 동등, Gemini-3.0-Pro 수준의 추론 능력
1,827개 환경, 85,000개 복잡 프롬프트로 에이전트 능력 강화

🎯 왜 이것이 게임 체인저인가? : 폐쇄형 모델 독점의 추론 영역 → 오픈소스의 금메달 진입 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

🖼️ 이미지가 뒤집히면 못 알아본다고?

Thinking with Programming Vision (CodeVision)

🏛️ 소속: Zhejiang University, ByteDance

🏷️ 핵심 키워드: Code-as-Tool, MLLM Robustness, Image Manipulation, Tool Use

💭 이런 질문을 해본 적 있나요?

"GPT-5도 90도 회전된 이미지를 인식하지 못한다면?"
"AI가 도구를 사용해 이미지를 직접 조작할 수 있을까?"
"더 유연하고 확장 가능한 도구 사용 프레임워크는 없을까?"

스위스 아미 나이프처럼 다양한 도구를 상황에 맞게 꺼내 쓰듯, CodeVision은 코드 생성을 통해 어떤 이미지 연산이든 호출할 수 있는 범용 도구 인터페이스를 제공합니다. 단순 회전이나 뒤집기에도 성능이 80%까지 떨어지는 최신 모델의 취약점을 극복합니다. 특히 주목할 점:

고정된 도구 세트 대신 코드로 무한 확장 가능한 도구 호출
에러 복구, 도구 체이닝 등 창발적 능력 발현
Qwen2.5-VL, Qwen3-VL 시리즈에서 성능 대폭 향상 검증

🎯 왜 이것이 게임 체인저인가? : 제한된 도구 세트 → 코드 기반 범용 도구 인터페이스의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

🧠 LLM의 추론 과정을 수학적으로 형식화할 수 있다면?

Algorithmic Thinking Theory

🏛️ 소속: Google, NYU, ETH Zurich, Stanford

🏷️ 핵심 키워드: Reasoning Algorithm, Probabilistic Oracle, Iterative Improvement, Branching

💭 이런 질문을 해본 적 있나요?

"왜 같은 모델도 여러 번 시도하면 더 좋은 답을 낼까?"
"Chain-of-Thought나 Tree-of-Thought가 왜 효과적인지 이론적으로 설명할 수 있을까?"
"최적의 추론 알고리즘을 설계하는 원리는 무엇일까?"

오케스트라 지휘자가 각 악기의 특성을 이해하고 최적의 하모니를 만들듯, 이 연구는 LLM을 확률적 오라클로 모델링하고 반복 추론 알고리즘을 수학적으로 분석합니다. 분기 알고리즘과 유전 알고리즘이 최적 성공 확률을 달성할 수 있음을 증명했습니다. 특히 주목할 점:

경험적 관찰을 넘어 이론적 기반 제공
모델 아키텍처에 독립적인 범용 프레임워크
"overthinking" 현상 등 실제 관찰되는 현상까지 설명

🎯 왜 이것이 게임 체인저인가? : 경험적 추론 기법 → 수학적으로 검증된 추론 알고리즘 설계 원리의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

🎬 언어로 생각하고, 픽셀로 행동한다.

TV2TV: A Unified Framework for Interleaved Language and Video Generation

🏛️ 소속: Meta FAIR

🏷️ 핵심 키워드: Interleaved Generation, Video-Text Omni Model, Flow Matching, Controllability

💭 이런 질문을 해본 적 있나요?

"비디오 생성 중간에 '다음에 무엇을 할지' 언어로 계획할 수 있을까?"
"복잡한 시나리오의 장편 비디오를 일관성 있게 생성할 수 있을까?"
"생성 도중에 사용자가 개입해 방향을 바꿀 수 있을까?"

영화 감독이 대본을 읽고 장면을 연출하듯, TV2TV는 텍스트와 비디오 생성을 교차하며 진행합니다. 먼저 "말로 생각"한 뒤 "픽셀로 행동"하는 방식으로, 복잡한 비디오도 논리적 일관성을 유지합니다. 특히 주목할 점:

단순 T2V 대비 92%의 시각 품질 선호도 획득
Think2V 방식 대비 세밀한 명령 준수율 19포인트 향상
게임 데이터(CS:GO)와 스포츠 비디오까지 확장 검증

🎯 왜 이것이 게임 체인저인가? : 일방향 비디오 생성 → 언어 추론과 비디오 생성의 인터리빙 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

⚖️ MoE 모델의 강화학습, 왜 불안정할까?

Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

🏛️ 소속: Alibaba Qwen Team

🏷️ 핵심 키워드: MoE LLM, RL Stability, Token-level Optimization, Routing Replay

💭 이런 질문을 해본 적 있나요?

"시퀀스 수준 보상을 토큰 수준으로 최적화해도 괜찮을까?"
"왜 MoE 모델의 RL 훈련은 유독 불안정할까?"
"훈련-추론 간 불일치를 어떻게 해결할 수 있을까?"

정교한 시계의 톱니바퀴들이 완벽히 맞물려야 하듯, 이 연구는 LLM 강화학습의 토큰 수준 최적화가 1차 근사로서 타당함을 이론적으로 증명합니다. 훈련-추론 불일치와 정책 노후화를 최소화하면 안정적인 RL이 가능합니다. 특히 주목할 점:

토큰 수준 최적화의 이론적 정당성 최초 제시
MoE 특화 Routing Replay 기법으로 안정성 대폭 향상
수십만 GPU 시간의 대규모 실험으로 검증

🎯 왜 이것이 게임 체인저인가? : 경험적 RL 레시피 → 이론적으로 검증된 안정화 프레임워크의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

🎨 확산 모델 RL의 리워드 해킹, 어떻게 막을 수 있을까?

DDRL: Data-regularized Reinforcement Learning for Diffusion Models at Scale

🏛️ 소속: Stanford University, NVIDIA, Tsinghua University

🏷️ 핵심 키워드: Diffusion RL, Reward Hacking, Forward KL Divergence, Off-policy Regularization

💭 이런 질문을 해본 적 있나요?

"왜 RL로 학습한 이미지 생성 모델은 품질이 떨어지거나 과도하게 스타일화될까?"
"리워드 해킹 없이 인간 선호도에 맞추는 방법은 없을까?"
"SFT와 RL을 하나의 프레임워크로 통합할 수 있을까?"

항해사가 나침반과 별자리를 함께 참조하듯, DDRL은 Forward KL 발산으로 오프폴리시 데이터에 앵커링하며 보상을 최대화합니다. 백만 GPU 시간의 실험과 만 건의 이중맹검 인간 평가로 효과를 검증했습니다. 특히 주목할 점:

On-policy 정규화의 한계를 Off-policy 데이터 앵커링으로 극복
DanceGRPO 등 기존 방식과 달리 파레토 개선 달성
대규모 비디오·이미지 생성에서 최고 인간 선호도 달성

🎯 왜 이것이 게임 체인저인가? : 리워드 해킹에 취약한 확산 RL → 데이터 기반 강건한 정규화의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

🐟 하나의 모델로 이해하고 생성하고 편집까지.

Tuna: Taming Unified Visual Representations for Native Unified Multimodal Models

🏛️ 소속: Meta BizAI, University of Waterloo, University of Hong Kong, KAUST

🏷️ 핵심 키워드: Unified Multimodal Model, Cascaded VAE, Visual Understanding, Image Generation

💭 이런 질문을 해본 적 있나요?

"이미지 이해와 생성을 하나의 모델로 할 수 있을까?"
"분리된 인코더가 만드는 표현 불일치 문제를 해결할 수 있을까?"
"더 작은 모델로 더 큰 성능을 낼 수 있을까?"

만능 요리사가 모든 재료를 하나의 주방에서 다루듯, Tuna는 VAE 인코더와 표현 인코더를 계단식으로 연결해 이해·생성·편집을 단일 연속 표현 공간에서 수행합니다. 특히 주목할 점:

분리된 표현으로 인한 포맷 불일치 문제 해결
4B 파라미터로 BAGEL-7B 등 대형 모델 능가
이미지·비디오 이해, 생성, 편집 벤치마크에서 SOTA

🎯 왜 이것이 게임 체인저인가? : 분리된 이해-생성 모델 → 통합 연속 표현 기반 네이티브 멀티모달의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

🔺 삼각형 메시로 3D 렌더링의 새 지평을 열다.

Radiance Meshes for Volumetric Reconstruction

🏛️ 소속: Google, UC San Diego

🏷️ 핵심 키워드: Delaunay Tetrahedralization, Volume Rendering, Rasterization, 3D Gaussian Splatting

💭 이런 질문을 해본 적 있나요?

"3D Gaussian Splatting보다 빠르고 정확한 렌더링이 가능할까?"
"GPU 하드웨어에 네이티브로 최적화된 방사장 표현은 없을까?"
"시점 변화에 따른 팝핑 아티팩트를 완전히 제거할 수 있을까?"

레고 블록처럼 기본 단위를 조합해 복잡한 구조를 만들듯, Radiance Meshes는 Delaunay 사면체로 공간을 분할하고 각 셀에 밀도와 색상을 부여합니다. GPU가 기본 지원하는 삼각형을 활용해 정확하고 빠른 볼륨 렌더링을 구현합니다. 특히 주목할 점:

볼륨 렌더링 방정식을 근사 없이 정확히 계산
동일 조건에서 3DGS보다 32% 빠른 렌더링
래스터화와 레이트레이싱 모두 지원, 물리 시뮬레이션과 직접 통합 가능

🎯 왜 이것이 게임 체인저인가? : 근사 기반 스플래팅 → 정확한 볼륨 렌더링의 메시 기반 패러다임 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

🧠 AI 에이전트가 평생 학습하려면 무엇이 필요할까?

MemVerse: Multimodal Memory for Lifelong Learning Agents

🏛️ 소속: Shanghai Artificial Intelligence Laboratory

🏷️ 핵심 키워드: Lifelong Learning, Knowledge Graph, Parametric Memory, Memory Distillation

💭 이런 질문을 해본 적 있나요?

"AI 에이전트가 과거 경험을 기억하고 활용할 수 있을까?"
"지식 그래프와 신경망 메모리를 통합할 수 있을까?"
"치명적 망각 없이 지속적으로 학습하는 방법은?"

인간이 장기 기억과 단기 기억을 조화롭게 활용하듯, MemVerse는 명시적 지식 그래프와 빠른 파라메트릭 메모리를 통합합니다. 주기적 증류로 중요 지식을 모델 가중치에 압축해 빠른 회상과 구조화된 저장을 동시에 달성합니다. 특히 주목할 점:

ScienceQA에서 GPT-4o-mini 대비 9%p 향상(85.48% 달성)
MSR-VTT 텍스트-비디오 검색 R@1에서 RAG 대비 60%p 이상 향상
지식 회상 속도 89% 가속, 모델 불문 플러그앤플레이 적용

🎯 왜 이것이 게임 체인저인가? : 단발성 컨텍스트 학습 → 평생 학습하는 멀티모달 에이전트 메모리의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

매일 화요일 오전 8시,
바쁜 당신을 기술 발전에 뒤쳐지지 않게 만들어줄
최신 AI 트렌드가 요약 정리본으로 전달됩니다!

📑DeepSeek: "GPT-5? 우리도 이긴다" - 오픈 LLM의 반란

📈 최신 AI 트렌드 2줄 요약

SIMA 2: A Generalist Embodied Agent for Virtual Worlds

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

Thinking with Programming Vision (CodeVision)

Algorithmic Thinking Theory

TV2TV: A Unified Framework for Interleaved Language and Video Generation

Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

DDRL: Data-regularized Reinforcement Learning for Diffusion Models at Scale

Tuna: Taming Unified Visual Representations for Native Unified Multimodal Models

Radiance Meshes for Volumetric Reconstruction

🏛️ 소속: Google, UC San Diego

MemVerse: Multimodal Memory for Lifelong Learning Agents

Keep Reading

Subscribe Now!