금주 캐치페이퍼는 NVIDIA, Apple, Google, Meta, Tencent와 함께합니다. 3분만 투자해 쓱 둘러보고, 빠르게 바뀌는 기술의 방향성을 놓치지 마세요!
📈 최신 AI 트렌드 3줄 요약
🌟 MoE + Mamba 하이브리드가 대세 — NVIDIA가 120B 모델을 12B 비용으로 굴린다
🔥 물리 시뮬레이터로 훈련한 LLM이 국제물리올림피아드 문제를 풀기 시작했다
🚀 GUI 에이전트, RL + 프로세스 보상으로 2B 파라미터에서도 실용 수준 돌파
🤖 “120B 모델의 성능을 원하는데, 비용은 12B만 쓰고 싶다면?”
Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
🏛️ 소속: NVIDIA
🏷️ 핵심 키워드: MoE, Mamba-Transformer Hybrid, Inference Efficiency
💭 이런 질문을 해본 적 있나요?
120B 모델의 성능을 원하는데, 비용은 12B만 쓰고 싶다면?
Transformer만으로는 긴 문맥을 효율적으로 처리할 수 없는 걸까?
오픈소스 모델이 상용 모델 수준의 에이전틱 추론을 할 수 있을까?
대형 레스토랑에 547명의 셰프가 있지만 한 접시에 12명만 투입됩니다. NVIDIA가 전사적으로 만든 Nemotron 3 Super는 120B 파라미터 중 12B만 활성화하는 MoE 구조에, Mamba와 Attention을 결합한 하이브리드 아키텍처입니다. 25조 토큰으로 사전훈련하고, SFT와 RL로 후훈련한 이 모델은 100만 토큰 문맥을 지원하면서도 기존 동급 모델을 처리량에서 압도합니다.
특히 주목할 점:
GPT-OSS-120B 대비 2.2배, Qwen3.5-122B 대비 7.5배 높은 추론 처리량
NVFP4로 사전훈련한 최초의 모델 — 양자화가 후처리가 아닌 출발점
LatentMoE: FLOP당 정확도와 파라미터당 정확도를 동시에 최적화하는 새 MoE 아키텍처
🎯 왜 이것이 게임 체인저인가? : “큰 모델은 비싸고 느리다” → “큰 모델의 지식, 작은 모델의 비용”
🖱️ “2B 에이전트가 스마트폰을 조작합니다”
ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
🏛️ 소속: Zhejiang University
🏷️ 핵심 키워드: GUI Agent, Reinforcement Learning, Process Reward Model
💭 이런 질문을 해본 적 있나요?
AI가 앱 화면을 보고 직접 탭하고 스와이프할 수 있을까?
2B 파라미터로 실제 스마트폰을 조작하는 에이전트를 만들 수 있을까?
왜 GUI 에이전트 연구들은 벤치마크 재현이 안 될까?
리모컨 없이 TV를 조작해 본 적 있나요? AI가 앱을 “눈으로 보고” 조작하는 건 그보다 훨씬 어렵습니다. ClawGUI는 훈련(RL)·평가·배포를 하나로 통합한 오픈소스 프레임워크입니다. GiGPO 알고리즘과 프로세스 보상 모델로 단계별 피드백을 주고, 6개 벤치마크에서 공식 결과의 95.8%를 재현하는 표준화된 평가를 제공합니다.
특히 주목할 점:
ClawGUI-2B가 MobileWorld GUI-Only에서 17.1% 성공률 — 동급 MAI-UI-2B를 6.0%p 초과
Android, HarmonyOS, iOS 세 플랫폼에서 실제 배포 가능
12개 이상 채팅 플랫폼에서 하이브리드 CLI-GUI 컨트롤 지원
🎯 왜 이것이 게임 체인저인가? : “GUI 에이전트는 연구 단계” → “오픈소스로 훈련하고 실제 폰에 배포”
🎬 “상품 시연 영상을 텍스트 한 줄로 자동 생성할 수 있을까?”
OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation
🏛️ 소속: Zhejiang University, CUHK
🏷️ 핵심 키워드: Video Generation, Human-Object Interaction, Multimodal Conditioning
💭 이런 질문을 해본 적 있나요?
상품 시연 영상을 텍스트 한 줄로 자동 생성할 수 있을까?
사람이 물건을 자연스럽게 다루는 영상을 AI가 만들 수 있을까?
텍스트·이미지·오디오·포즈를 한꺼번에 조건으로 줄 수 있을까?
쇼핑몰에 올릴 시연 영상을 모델 섭외 없이 만들 수 있다면? OmniShow는 텍스트, 참조 이미지, 오디오, 포즈를 모두 조건으로 받아 사람-물건 상호작용 영상을 생성하는 프레임워크입니다. 서로 다른 조건을 다루는 이종 데이터셋을 분리 훈련 후 모델 병합하는 전략으로 데이터 부족 문제를 해결했습니다.
특히 주목할 점:
Unified Channel-wise Conditioning으로 이미지·포즈 주입의 품질-제어 트레이드오프 극복
Gated Local-Context Attention으로 오디오-비주얼 동기화 정밀도 확보
HOIVG-Bench: 이 분야 최초의 전용 벤치마크 제안
🎯 왜 이것이 게임 체인저인가? : “조건별로 따로 모델” → “모든 멀티모달 조건을 하나의 프레임워크로”
🔬 “시뮬레이터로 훈련했더니 물리 올림피아드를 풉니다”
Solving Physics Olympiad via Reinforcement Learning on Physics Simulators
🏛️ 소속: CMU
🏷️ 핵심 키워드: Physics Reasoning, RL on Simulators, Sim-to-Real Transfer
💭 이런 질문을 해본 적 있나요?
LLM에게 물리를 가르치려면 문제집이 꼭 필요할까?
물리 시뮬레이터에서 얻은 경험이 실제 물리 문제 풀이로 전이될까?
수학 외 과학 분야에서도 RLVR가 통할까?
수학은 인터넷에 문제가 넘치지만 물리는 그렇지 않습니다. CMU 팀은 발상을 바꿨습니다 — 물리 엔진에서 랜덤 장면을 만들고, 시뮬레이션 결과로 QA를 생성해서 RL로 훈련합니다. 가상 세계에서만 훈련한 모델이 실제 국제물리올림피아드(IPhO) 문제에서 제로샷으로 성능 향상을 보여줍니다.
특히 주목할 점:
합성 시뮬레이션 데이터만으로 IPhO 성능 5~10%p 향상
모델 크기에 관계없이 일관된 개선 — 스케일링 가능성 입증
인터넷 QA 데이터 없이도 물리 추론 능력 습득 가능
🎯 왜 이것이 게임 체인저인가? : “QA 데이터셋으로 추론 훈련” → “시뮬레이터가 무한한 훈련 데이터를 생성”
🧭 “검색 에이전트를 훈련하려면 항상 정답이 필요할까?”
Cycle-Consistent Search: Question Reconstructability as a Proxy Reward for Search Agent Training
🏛️ 소속: Meta, UCLA
🏷️ 핵심 키워드: Search Agent, Cycle Consistency, Unsupervised RL
💭 이런 질문을 해본 적 있나요?
검색 에이전트를 훈련하려면 항상 정답이 필요할까?
좋은 검색 결과인지 아닌지를 정답 없이 판단할 수 있을까?
비지도 기계번역의 cycle consistency가 검색에도 통할까?
좋은 검색은 질문을 복원할 수 있어야 합니다. Meta 팀은 비지도 번역의 cycle consistency를 검색에 적용했습니다. “검색 결과에서 원래 질문을 재구성할 수 있으면 좋은 검색이다”라는 가설로 보상 신호를 만듭니다. 고유명사 마스킹과 정보 병목으로 표면적 단서 의존을 차단해 진짜 검색 품질을 측정합니다.
특히 주목할 점:
정답 레이블 없이 지도학습 베이스라인과 동등한 성능 달성
고유명사(NER) 마스킹으로 언어적 단서 유출 방지
기존 비지도 방법 대비 일관된 성능 우위
🎯 왜 이것이 게임 체인저인가? : “정답 라벨로 검색 에이전트 훈련” → “정답 없이도 자기 검증으로 학습”
🍎 “영상의 “움직임”만 따로 생성할 수 있을까?”
Learning Long-term Motion Embeddings for Efficient Kinematics Generation
🏛️ 소속: Apple
🏷️ 핵심 키워드: Motion Generation, Temporal Compression, Flow Matching
💭 이런 질문을 해본 적 있나요?
영상의 “움직임”만 따로 생성할 수 있을까?
비디오 모델보다 수십 배 빠르게 모션을 예측할 수 있을까?
텍스트 한 줄로 물체의 미래 궤적을 만들어낼 수 있을까?
비디오를 통째로 만드는 건 망치로 호두를 까는 것입니다. Apple 팀은 대규모 궤적 데이터에서 학습한 모션 임베딩을 64배 시간 압축하고, 이 압축된 공간에서 flow matching으로 모션을 생성합니다. 영상을 렌더링하지 않고 움직임 자체를 다루니 비디오 모델보다 수 자릿수 더 효율적입니다.
특히 주목할 점:
시간 압축 64배 — 장기 모션을 극도로 압축된 잠재 공간에서 생성
텍스트 프롬프트와 공간 포크(spatial poke)로 모션 조건 지정 가능
비디오 모델과 태스크별 전문 모델 모두를 능가하는 모션 분포
🎯 왜 이것이 게임 체인저인가? : “모션을 보려면 영상 전체를 생성” → “모션만 압축·생성하고 필요할 때 렌더링”
👁️ “학생 모델이 선생보다 패치를 잘 봅니다”
TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment
🏛️ 소속: Google
🏷️ 핵심 키워드: Vision-Language Pretraining, Patch-Text Alignment, Knowledge Distillation
💭 이런 질문을 해본 적 있나요?
비전 모델이 이미지의 “부분”과 텍스트를 정밀하게 매칭할 수 있을까?
지식 증류에서 학생이 선생보다 나을 수 있을까?
마스크드 이미지 학습에서 마스크 안 된 토큰은 왜 무시할까?
제자가 스승을 넘어서는 순간입니다. Google 팀이 패치 레벨 증류를 적용했더니, 학생 모델의 패치-텍스트 정렬이 선생 모델을 강하게 능가했습니다. 이 발견에서 영감을 받아 iBOT++ — 마스크되지 않은 토큰도 손실에 기여하도록 한 업그레이드 — 를 제안했고, 9개 태스크, 20개 데이터셋에서 최신 비전 인코더 모델과 동등하거나 우수한 결과를 보여줍니다.
특히 주목할 점:
패치-텍스트 정렬에서 학생 > 선생 — 증류의 반직관적 효과 발견
iBOT++: 마스크/비마스크 토큰 모두 학습에 활용 → 패치 정렬 극적 개선
합성 캡션 샘플링으로 다양한 세밀도의 텍스트 활용
🎯 왜 이것이 게임 체인저인가? : “이미지 전체와 텍스트를 매칭” → “이미지의 각 패치와 개념을 정밀 정렬”
⚙️ “2026년 현재, 어떤 옵티마이저를 써야 할까 ”
Evolution of Optimization Methods: Algorithms, Scenarios, and Evaluations
🏛️ 소속: Tencent
🏷️ 핵심 키워드: Deep Learning Optimization, SGD vs Adam, Comprehensive Survey
💭 이런 질문을 해본 적 있나요?
2026년 현재, 어떤 옵티마이저를 써야 할까?
2차 최적화는 왜 이론만 좋고 실전에선 안 쓸까?
대규모 모델 훈련에서 메모리를 아끼면서 수렴도 빠르게 할 수 있을까?
딥러닝 최적화의 족보를 한 편에 정리합니다. Tencent 팀이 1차(SGD, Adam), 2차, 0차 최적화를 모두 아우르는 종합 프레임워크를 제안하고, 다양한 아키텍처와 시나리오에서 실증 평가를 수행했습니다. 대규모 모델, 차등 프라이버시, 분산 학습 등 실전 시나리오별로 어떤 방법이 우위인지 가이드를 제공합니다.
특히 주목할 점:
1차 → 2차 → 0차 최적화의 진화 경로를 통합 프레임워크로 정리
프라이버시 보호·메모리 효율 시나리오에서 0차 방법의 재부상
차세대 옵티마이저 설계를 위한 실용적 가이드라인 제시
🎯 왜 이것이 게임 체인저인가? : “Adam 쓰면 대충 되겠지” → “시나리오별 최적 옵티마이저를 데이터로 선택”
🧩 “병렬 롤아웃, 합치는 것도 에이전트가 합니다”
Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks
🏛️ 소속: Princeton University
🏷️ 핵심 키워드: Parallel Scaling, Test-Time Compute, Agentic Aggregation
💭 이런 질문을 해본 적 있나요?
딥리서치 결과를 여러 개 뽑았는데 어떻게 합칠까?
에이전트 궤적이 너무 길어서 컨텍스트에 안 들어가면?
병렬 스케일링이 수학만큼 에이전트 태스크에서도 통할까?
여행 계획을 세 명에게 시켰더니 각자 100페이지 보고서를 줬습니다. 전부 읽을 수도, 결론만 볼 수도 없는 상황. Princeton 팀의 AggAgent는 병렬 에이전트 궤적을 “환경”으로 취급하고, 도구를 써서 후보 답안을 검사하고 궤적을 탐색합니다. 필요한 정보만 골라 합성하니 컨텍스트 제한도 넘습니다.
특히 주목할 점:
기존 모든 집계 방법 대비 평균 5.3%p, 딥리서치 태스크에서 최대 10.3%p 향상
집계 비용이 단일 롤아웃 수준 — 사실상 무료 성능 향상
GLM-4.7, Qwen3.5, MiniMax-M2.5 등 3개 모델 패밀리에서 일관된 효과
🎯 왜 이것이 게임 체인저인가? : “병렬 롤아웃의 최종 답만 다수결” → “궤적 전체를 에이전트가 탐색·합성”
📊 “최고 LLM도 일반 추론은 62.8%뿐입니다”
General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks
🏛️ 소속: Independent
🏷️ 핵심 키워드: General Reasoning, Benchmark, Domain-Independent
💭 이런 질문을 해본 적 있나요?
수학 벤치마크 1등 모델이 다른 추론도 잘할까?
전문 지식 없이 순수 추론만 테스트할 수 있을까?
LLM이 정말 “추론”하는 건지, 도메인 패턴을 외운 건지?
수학은 만점인데 논리 퍼즐은 못 풀면 진짜 추론일까요? General365는 배경지식을 중학교 수준으로 제한하고, 복잡한 제약·중첩 논리·의미 간섭을 담은 365개 문제로 순수 추론력을 측정합니다. 26개 최신 모델을 테스트한 결과, 최고 모델도 62.8%에 그쳤습니다 — 수학·물리 벤치마크의 거의 만점과 극명한 대비입니다.
특히 주목할 점:
26개 LLM 중 최고 성능이 62.8% — 도메인 특화 벤치마크와 극명한 격차
8개 카테고리의 1,095개 변형 문제로 다양성과 난이도 확보
현재 LLM의 추론 능력이 도메인에 강하게 의존한다는 증거
🎯 왜 이것이 게임 체인저인가? : “수학·코드 벤치마크로 추론 능력 측정” → “도메인 지식 없이 순수 추론만 측정”
매주 목요일 오전 8시, 바쁜 당신을 기술 발전에 뒤쳐지지 않게 만들어줄 최신 AI 트렌드 요약본이 전달됩니다! 🚀
