📑Meta&NVIDIA: "우리 같이 어텐션의 새 기준을 만들자!"

금주 캐치페이퍼는 Meta, NVIDIA, NYU, Alibaba, Stanford, Princeton, Tsinghua, DeepSeek, ByteDance, Google DeepMind와 함께합니다. 3분만 투자해 쓱 둘러보고, 빠르게 바뀌는 기술의 방향성을 놓치지 마세요!

📈 최신 AI 트렌드 3줄 요약

🌟 이번 주 AI 연구의 핵심 키워드는 "속도와 효율의 재정의"입니다.

🔥 GPU 연산 최적화, LLM 추론 가속, 멀티모달 통합 프레임워크까지 — 모델을 더 크게 만드는 것이 아니라 더 빠르고 더 영리하게 쓰는 방법을 찾는 연구들이 쏟아졌습니다.

🚀 에이전트의 코드 유지보수 능력 평가, 강화학습 기반 툴 사용, 정규화 레이어 제거 등 AI 인프라의 기초 체력을 바꾸는 연구들이 본격화되고 있습니다.

❝

⚡ "Blackwell GPU의 잠재력을 71%까지 끌어냈다 — 어텐션의 새 기준"

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design

🏛️ 소속: Meta, NVIDIA

🏷️ 핵심 키워드: Attention Mechanism, GPU Optimization, Blackwell

💭 이런 질문을 해본 적 있나요?

"최신 GPU를 사도 실제 활용률이 50%도 안 된다면 어떻게 해야 할까요?"
"어텐션 연산 속도가 LLM 전체 성능의 병목이 되는 게 맞을까요?"
"알고리즘과 하드웨어를 동시에 설계하면 얼마나 달라질까요?"

레이싱카의 엔진과 차체를 함께 설계하듯, FlashAttention-4는 NVIDIA Blackwell GPU의 비대칭 하드웨어 구조에 맞춰 알고리즘과 커널을 공동 설계했습니다. 이론 최대치의 71%인 1613 TFLOPs/s를 달성하며 cuDNN 대비 최대 1.3배 속도 향상을 이끌어냈습니다. 특히 주목할 점:

이론 최대 성능의 71% 달성 (1613 TFLOPs/s)
cuDNN 대비 forward pass 최대 1.3x 속도 향상
효율적인 결정론적 backward pass 구현

🎯 왜 이것이 게임 체인저인가? : 범용 최적화 → 하드웨어 구조에 공동 설계된 어텐션으로 GPU 활용의 새 기준 수립

🔗 https://arxiv.org/abs/2603.05451

❝

🌐 "처음부터 함께 학습한 멀티모달 모델이 결국 이긴다"

Scaling Laws for Native Multimodal Models

🏛️ 소속: Apple, Sorbonne University

🏷️ 핵심 키워드: Multimodal Scaling, Early Fusion, Mixture of Experts

💭 이런 질문을 해본 적 있나요?

"이미지와 텍스트를 따로 학습한 모델을 합치는 게 나을까요, 처음부터 같이 학습하는 게 나을까요?"
"멀티모달 모델에도 언어 모델과 같은 스케일링 법칙이 적용될까요?"
"MoE 구조가 멀티모달 환경에서도 효과적일까요?"

악단원들이 처음부터 함께 연습할수록 호흡이 맞듯, Apple 연구진은 Early Fusion 아키텍처가 Late Fusion 방식과 동등한 성능을 훨씬 낮은 학습 비용으로 달성함을 증명했습니다. 여기에 MoE를 결합하면 모달리티별 암묵적 전문화까지 창발합니다. 특히 주목할 점:

Early Fusion이 Late Fusion 대비 훈련 효율 및 배포 비용 우위
MoE 통합으로 성능 추가 향상 및 모달리티 전문화 창발
멀티모달 모델에 대한 체계적 스케일링 법칙 확립

🎯 왜 이것이 게임 체인저인가? : 사후 결합 방식 → 처음부터 통합 설계하는 Native Multimodal이 새 표준으로

🔗 https://arxiv.org/abs/2504.07951

❝

🔭 "하나의 Transformer로 이미지 이해·생성·세계 모델링을 동시에"

Beyond Language Modeling: Transfusion

🏛️ 소속: Meta FAIR, NYU

🏷️ 핵심 키워드: Unified Autoregressive Transformer, Multimodal Pretraining, RAE

💭 이런 질문을 해본 적 있나요?

"언어 모델과 이미지 생성 모델을 하나의 아키텍처로 통합할 수 있을까요?"
"처음부터 멀티모달로 학습하면 세계 모델링 능력이 자연스럽게 생겨날까요?"
"Representation Autoencoder가 왜 핵심일까요?"

스위스 군용 칼처럼 하나로 모든 것을 해결하는 모델, Transfusion이 등장했습니다. RAE(Representation Autoencoder)를 통해 시각적 이해와 생성을 통합하고, 일반 데이터로부터 세계 모델링 능력이 자연스럽게 창발하며, MoE 구조와도 효율적으로 결합됩니다. 특히 주목할 점:

RAE로 시각적 이해·생성 통합 프레임워크 구현
일반 데이터에서 세계 모델링 능력 자연 창발
MoE와의 결합으로 확장성 확보

🎯 왜 이것이 게임 체인저인가? : 언어 / 비전 모델 분리 구조 → 단일 통합 Transformer로 모든 모달리티를 처리하는 시대로

🔗 https://arxiv.org/abs/2603.03276

❝

🧪 "벤치마크 1등 AI, 코드 유지보수는 왜 못할까?"

SWE-CI: Evaluating Agent Capabilities via Continuous Integration

🏛️ 소속: Alibaba Group, Sun Yat-Sen University

🏷️ 핵심 키워드: Code Maintenance, CI Benchmark, Agent Evaluation

💭 이런 질문을 해본 적 있나요?

"AI가 코드를 처음 짜는 것과 지속적으로 유지보수하는 것은 얼마나 다를까요?"

"현재 최고 수준의 LLM이 실제 소프트웨어 개발 환경에서 얼마나 신뢰할 수 있을까요?"

"한 번 맞히는 것과 반복해서 오류 없이 유지하는 것, 어느 쪽이 더 어려울까요?"

시험 한 번 잘 보는 것과 매일 꾸준히 성적을 유지하는 것은 다릅니다. SWE-CI는 AI 에이전트가 CI 환경에서 장기적으로 코드베이스를 유지보수할 수 있는지를 평가하는 새 벤치마크로, 18개 모델 실험에서 대부분이 zero-regression rate 0.25 미만이라는 충격적인 결과를 보였습니다. 특히 주목할 점:

일회성 기능 정확도를 넘어 장기 코드 유지보수 능력 측정
18개 모델 테스트, Claude Opus가 선두 — 하지만 전반적으로 낮은 수준
반복적 변경 중 결함 방지 능력의 현주소를 실증적으로 폭로

🎯 왜 이것이 게임 체인저인가? : 일회성 코드 생성 평가 → 지속적 통합 환경의 유지보수 능력 평가라는 새 기준 제시

🔗 https://arxiv.org/abs/2603.03823

❝

🚀 "초안 잡기와 검증을 동시에 — LLM 추론 속도 5배 돌파"

Speculative Speculative Decoding (SSD)

🏛️ 소속: Stanford University, Princeton University

🏷️ 핵심 키워드: Speculative Decoding, Inference Acceleration, LLM Throughput

💭 이런 질문을 해본 적 있나요?

"LLM의 추론 속도를 높이는 데 병렬화가 얼마나 효과적일까요?"
"드래프팅과 검증을 순차 처리하지 않아도 될까요?"
"표준 자기회귀 디코딩이 왜 느릴 수밖에 없는지 아시나요?"

공장에서 검사와 생산을 동시에 돌리듯, SSD는 드래프팅과 검증 단계를 병렬화해 기존 Speculative Decoding 대비 최대 2배, 표준 자기회귀 디코딩 대비 최대 5배 속도 향상을 달성했습니다. 특히 주목할 점:

드래프팅·검증 단계 완전 병렬화로 지연 시간 획기적 단축
기존 Speculative Decoding 대비 최대 2x 추가 가속
표준 자기회귀 대비 최대 5x 처리량 향상

🎯 왜 이것이 게임 체인저인가? : 순차적 추론 구조의 한계 → 병렬 파이프라인으로 LLM 추론 비용 구조를 바꾸는 전환점

🔗 https://arxiv.org/abs/2603.03251

🗺️ "수백 장의 이미지를 선형 시간으로 — 실시간 3D 재구성의 새 지평"

ZipMap: Linear-Time Stateful 3D Reconstruction

🏛️ 소속: Google DeepMind, Cornell University

🏷️ 핵심 키워드: 3D Reconstruction, Feed-forward Architecture, Novel View Synthesis

💭 이런 질문을 해본 적 있나요?

"이미지가 많아질수록 기하급수적으로 느려지는 3D 재구성, 해결책이 있을까요?"
"실시간으로 새로운 시점을 합성하면서 정확도도 유지할 수 있을까요?"
"선형 시간 처리가 실제 재구성 품질에 영향을 미치지 않는 게 가능할까요?"

GPS가 실시간으로 지도를 업데이트하듯, ZipMap은 이미지 시퀀스를 뷰 수에 비례한 선형 시간으로 처리하면서도 기존 이차 시간 방법 수준의 정확도를 유지합니다. 실시간 novel view synthesis까지 지원합니다. 특히 주목할 점:

이미지 수에 대해 선형 복잡도로 3D 재구성 처리
기존 SOTA 이차 시간 방법과 동등하거나 우수한 정확도
암묵적 씬 표현의 실시간 쿼리 지원

🎯 왜 이것이 게임 체인저인가? : 이미지 증가 = 처리 시간 폭증 구조 → 선형 확장으로 실시간 3D 재구성 가능한 시대로

🔗 https://arxiv.org/abs/2603.04385

❝

🏆 "추론 시간을 늘리면 작은 모델도 큰 모델을 이긴다"

Inference-Time Scaling for Generalist Reward Modeling (DeepSeek-GRM)

🏛️ 소속: DeepSeek, Tsinghua University

🏷️ 핵심 키워드: Reward Modeling, SPCT, Inference-Time Scaling

💭 이런 질문을 해본 적 있나요?

"보상 모델도 추론 시간을 더 쓰면 성능이 좋아질까요?"
"LLM 정렬에서 범용 리워드 모델링이 왜 중요할까요?"
"더 큰 모델 없이도 성능을 높이는 방법이 있을까요?"

올림픽 심판이 더 오래 고민할수록 더 공정한 판정을 내리듯, DeepSeek-GRM은 SPCT(Self-Principled Critique Tuning)로 추론 시 컴퓨팅을 늘려 소형 모델이 훨씬 큰 모델의 성능을 뛰어넘는 것을 가능하게 합니다. 특히 주목할 점:

추론 시간 확장으로 소형 모델이 대형 모델 성능 초과
범용 리워드 벤치마크에서 SOTA 달성
LLM 정렬 파이프라인에 직접 활용 가능

🎯 왜 이것이 게임 체인저인가? : 더 큰 모델 = 더 좋은 리워드 판단 공식 → 추론 컴퓨팅 확장으로 소형 모델이 역전하는 시대로

🔗 https://arxiv.org/abs/2504.02495

❝

🛠️ "합성 데이터 + 다단계 RL로 복잡한 툴 사용 능력을 키운다"

SWiRL: Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use

🏛️ 소속: Google DeepMind, Stanford University

🏷️ 핵심 키워드: Multi-step RL, Tool Use, Synthetic Data

💭 이런 질문을 해본 적 있나요?

"LLM이 툴을 '아는' 것과 '잘 쓰는' 것은 얼마나 다를까요?"
"합성 데이터로 실제 복잡한 추론 능력까지 기를 수 있을까요?"
"단계별 최적화가 전체 결과 최적화보다 왜 효과적일까요?"

요리사가 각 단계마다 맛을 보며 조리하듯, SWiRL은 프로세스 기반 필터링으로 합성 데이터를 단계별로 최적화해 복잡한 태스크에서 큰 성능 향상과 강력한 크로스 도메인 일반화를 달성했습니다. 특히 주목할 점:

합성 데이터에 프로세스 기반 필터링 적용으로 품질 향상
복잡한 추론 및 툴 사용 태스크에서 실질적 성능 향상
다양한 도메인으로의 강력한 일반화 능력 입증

🎯 왜 이것이 게임 체인저인가? : 단순 모방 학습 → 단계별 강화 최적화로 진짜 툴 사용 능력을 기르는 방법론으로 전환

🔗 https://arxiv.org/abs/2504.04736

❝

🧮 "코드 인터프리터를 전략적으로 쓰는 AI — AIME 2024에서 67% 돌파"

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

🏛️ 소속: ByteDance Seed

🏷️ 핵심 키워드: RL, Code Interpreter, Strategic Tool Use

💭 이런 질문을 해본 적 있나요?

"LLM이 계산기를 언제 꺼내야 하는지 스스로 판단할 수 있을까요?"
"텍스트 기반 추론과 코드 실행을 전략적으로 섞으면 얼마나 강력해질까요?"
"수학 문제에서 자기교정이 자연스럽게 창발할 수 있을까요?"

숙련된 엔지니어가 손계산과 CAD 툴을 상황에 맞게 번갈아 쓰듯, ReTool은 RL로 코드 인터프리터 사용 전략 자체를 학습시켜 AIME 2024에서 67.0%를 달성하며 텍스트 기반 추론 모델을 크게 앞질렀습니다. 코드 자기수정 능력도 창발했습니다. 특히 주목할 점:

AIME 2024 기준 67.0% 정확도로 텍스트 추론 대비 압도적 향상
코드 생성에서 자기수정(self-correction) 능력 창발
복잡한 수학·논리 문제에 코드 툴을 전략적으로 활용

🎯 왜 이것이 게임 체인저인가? : 툴을 주는 것 → 툴을 언제·어떻게 쓸지 스스로 결정하는 전략적 에이전트로 진화

🔗 https://arxiv.org/abs/2504.11536

❝

🧬 "Transformer에서 정규화 레이어를 없앴더니 오히려 더 잘 됐다"

Transformers without Normalization (DyT)

🏛️ 소속: Meta, NYU

🏷️ 핵심 키워드: Dynamic Tanh, Normalization-Free, Transformer

💭 이런 질문을 해본 적 있나요?

"BatchNorm, LayerNorm 없이 Transformer가 제대로 학습될 수 있을까요?"
"정규화 레이어가 정말 꼭 필요한 것인지 의심해본 적 있나요?"
"단순한 함수 하나가 복잡한 레이어를 대체할 수 있을까요?"

엔진 오일 없이도 달리는 차처럼, Dynamic Tanh(DyT) — 단 하나의 원소별 함수 — 가 모든 정규화 레이어를 대체하면서도 비전, LLM, 음성 처리 전 영역에서 동등하거나 더 나은 성능을 보여줬습니다. 하이퍼파라미터 튜닝도 거의 필요 없습니다. 특히 주목할 점:

LayerNorm·BatchNorm을 단일 원소별 함수로 완전 대체
비전·LLM·음성 등 광범위한 태스크에서 동등 또는 향상된 성능
하이퍼파라미터 튜닝 부담 없이 기존 아키텍처에 즉시 적용 가능

🎯 왜 이것이 게임 체인저인가? : 정규화 = Transformer 필수 요소라는 10년의 상식 → DyT 하나로 깔끔하게 대체하는 새 설계 철학으로

🔗 https://arxiv.org/abs/2503.10622

매일 화요일 오전 8시,
바쁜 당신을 기술 발전에 뒤쳐지지 않게 만들어줄
최신 AI 트렌드 요약본이 전달됩니다! 🚀

📑Meta&NVIDIA: "우리 같이 어텐션의 새 기준을 만들자!"

📈 최신 AI 트렌드 3줄 요약

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design

Scaling Laws for Native Multimodal Models

Beyond Language Modeling: Transfusion

SWE-CI: Evaluating Agent Capabilities via Continuous Integration

Speculative Speculative Decoding (SSD)

🗺️ "수백 장의 이미지를 선형 시간으로 — 실시간 3D 재구성의 새 지평"

ZipMap: Linear-Time Stateful 3D Reconstruction

Inference-Time Scaling for Generalist Reward Modeling (DeepSeek-GRM)

SWiRL: Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

Transformers without Normalization (DyT)

Keep Reading

Subscribe Now!