금주 캐치페이퍼는 Tencent, NVIDIA, Microsoft, Meta, IBM Research, Google DeepMind, Huawei, Snap과 함께합니다. 3분만 투자해 쓱 둘러보고, 빠르게 바뀌는 기술의 방향성을 놓치지 마세요!
📈 최신 AI 트렌드 3줄 요약
🌟 데이터 엔지니어링이 아키텍처를 이긴다 — 1.2B가 200배 큰 모델을 넘는 시대
🔥 비디오 벤치마크 신뢰성 위기: 텍스트만으로 60% 맞추는 현실이 드러나다
🚀 KV 캐시 압축·RL 기반 후훈련으로 소비자 GPU에서 긴 추론이 현실화
🔭 “훈련 데이터의 질이 양보다 중요한 순간이 있을까?”
Watch Before You Answer: Learning from Visually Grounded Post-Training
🏛️ 소속: Google DeepMind
🏷️ 핵심 키워드: Video Understanding, Visual Grounding, Post-Training Data Quality
💭 이런 질문을 해본 적 있나요?
비디오 이해 벤치마크 점수가 진짜 ‘영상을 봤기 때문에’ 나온 걸까?
자막만 읽어도 답을 맞힐 수 있다면, 그 벤치마크를 믿어도 될까?
훈련 데이터의 질이 양보다 중요한 순간이 있을까?
시험지를 받았는데, 문제를 안 읽어도 보기만 보면 답이 보인다면요? Google DeepMind이 비디오 이해 벤치마크를 해부했더니, 무려 40~60%의 문제가 텍스트 단서만으로 풀 수 있었습니다. 영상을 “보는” 능력을 측정한다던 벤치마크가, 사실은 읽기 시험이었던 셈입니다. 이 발견을 바탕으로 VidGround를 제안합니다 — 후훈련 데이터에서 텍스트만으로 풀 수 있는 문제를 제거하고, 진짜 시각적 근거가 필요한 문제만 남기는 방법입니다.
특히 주목할 점:
전체 데이터의 69.1%만 사용하고도 성능이 최대 6.2포인트 향상
단순한 데이터 큐레이션이 복잡한 후훈련 알고리즘보다 우수
“시각적 근거가 필요한 문제”만 골라 쓰는 것이 핵심
🎯 왜 이것이 게임 체인저인가? : “더 많은 데이터로 후훈련” → “진짜 시각 정보가 필요한 데이터만 후훈련”
📹 “찍어서 맞힌 답과 추론해서 맞힌 답을 구분할 수 있을까?”
Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding
🏛️ 소속: Tencent, University of Macau, Fudan University
🏷️ 핵심 키워드: Video Benchmark, Multi-step Reasoning, Human Annotation Pipeline
💭 이런 질문을 해본 적 있나요?
비디오 모델 리더보드 점수가 왜 실제 체감과 다를까?
찍어서 맞힌 답과 추론해서 맞힌 답을 구분할 수 있을까?
벤치마크 하나에 3,300시간을 쏟으면 뭐가 달라질까?
올림픽 심판이 12명, 검토위원이 50명, 품질 검증만 5라운드. Tencent가 3,300시간을 투입해 만든 Video-MME-v2는 “정답률 뻥튀기”를 원천 차단합니다. 기존 벤치마크와 달리, 시각 정보 수집 → 시간 동역학 모델링 → 복합 추론까지 3단계 계층 구조로 평가하고, 찍기로 맞힌 답에는 점수를 주지 않는 그룹 기반 비선형 평가를 도입했습니다.
특히 주목할 점:
Gemini-3-Pro조차 인간 전문가와 상당한 격차 존재
Thinking 기반 추론은 자막이 있으면 개선되지만, 순수 시각 환경에서는 오히려 성능 하락
시각 정보 수집 단계의 오류가 상위 추론까지 전파되는 계층적 병목 발견
🎯 왜 이것이 게임 체인저인가? : “문제당 정답률 측정” → “추론 과정의 일관성과 정합성까지 평가”
⚡ “소비자 GPU 하나로 OpenClaw 같은 에이전트를 돌릴 수 있을까?”
TriAttention: Efficient Long Reasoning with Trigonometric KV Compression
🏛️ 소속: NVIDIA, MIT, CUHK
🏷️ 핵심 키워드: KV Cache Compression, Long Reasoning, Trigonometric Series
💭 이런 질문을 해본 적 있나요?
LLM이 길게 생각할수록 메모리가 폭발하는 문제, 해결할 수 없을까?
어텐션에서 “중요한 키”를 어떻게 안정적으로 골라낼 수 있을까?
소비자 GPU 하나로 OpenClaw 같은 에이전트를 돌릴 수 있을까?
32K 토큰을 생성하는 긴 추론에서 KV 캐시는 병목입니다. 기존 압축 방법들은 최근 쿼리의 어텐션 점수로 중요도를 추정하지만, RoPE 회전 때문에 대표성이 떨어집니다. NVIDIA와 MIT는 RoPE 적용 전 공간에서 Q/K 벡터가 특정 중심 주위에 안정적으로 모인다는 것을 발견하고, 삼각급수로 키 중요도를 추정하는 TriAttention을 제안합니다.
특히 주목할 점:
AIME25에서 Full Attention과 동일한 추론 정확도, 스루풋 2.5배 또는 KV 메모리 10.7배 감소
기존 최선 방법은 같은 효율에서 정확도가 절반 수준으로 추락
소비자 GPU 한 장에서 OpenClaw 배포 가능 (Full Attention은 OOM)
🎯 왜 이것이 게임 체인저인가? : “KV 캐시 줄이면 정확도도 줄어든다” → “삼각급수로 중요도를 정확히 추정하면 정확도 손실 없이 10배 압축”
📄 “서로 다른 아키텍처의 모델들이 같은 실수를 한다면, 문제는 어디에?”
MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale
🏛️ 소속: Shanghai AI Lab, CUHK
🏷️ 핵심 키워드: Document Parsing, Data Engineering, GRPO Alignment
💭 이런 질문을 해본 적 있나요?
모델을 키우지 않고 데이터만 바꿔도 SOTA를 찍을 수 있을까?
서로 다른 아키텍처의 모델들이 같은 실수를 한다면, 문제는 어디에?
학습 데이터의 ’질’을 체계적으로 끌어올리는 엔진이 있다면?
레시피가 같으면 어떤 오븐을 써도 같은 맛이 납니다. 다른 아키텍처, 다른 파라미터 규모의 문서 파싱 모델들이 똑같은 샘플에서 실패한다는 사실 — 이것이 MinerU2.5-Pro의 출발점입니다. 모델 아키텍처를 1.2B로 완전히 고정한 채, 데이터 엔진만으로 SOTA를 달성했습니다. 10M 미만이던 학습 데이터를 65.5M으로 확장하되, 난이도 인지 샘플링과 교차 모델 일관성 검증으로 품질을 보장합니다.
특히 주목할 점:
아키텍처 변경 제로, 오직 데이터 엔지니어링과 학습 전략만으로
OmniDocBench v1.6에서 95.69점, 동일 아키텍처 대비 +2.71포인트
200배 이상 큰 모델을 포함한 모든 기존 방법을 능가
🎯 왜 이것이 게임 체인저인가? : “성능을 올리려면 모델을 키워라” → “데이터 엔진을 키워라, 모델은 그대로”
🖼️ “공간 변환의 정밀도를 어떻게 정량적으로 측정할까?”
SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing
🏛️ 소속: Microsoft Research, CUHK, Tsinghua, HKU, University of Waterloo
🏷️ 핵심 키워드: Spatial Editing, 3D-aware Image Manipulation, Blender Pipeline
💭 이런 질문을 해본 적 있나요?
이미지 속 물체를 3D처럼 회전시킬 수 있을까?
“카메라를 왼쪽으로 30도 옮겨줘”를 이미지 편집 모델이 이해할 수 있을까?
공간 변환의 정밀도를 어떻게 정량적으로 측정할까?
포토샵으로 물체를 “이동”하는 건 쉽지만, “시점을 30도 회전”하는 건 다른 차원의 문제입니다. Microsoft와 5개 대학이 합작한 SpatialEdit은 Blender 파이프라인으로 50만 장의 정밀 ground-truth를 생성하고, 시점 복원과 프레이밍 분석을 동시에 측정하는 벤치마크를 구축했습니다. 이를 기반으로 훈련한 SpatialEdit-16B는 일반 편집에서도 경쟁력을 유지하면서 공간 조작에서 기존 방법을 크게 앞섭니다.
특히 주목할 점:
50만 장의 Blender 기반 합성 데이터셋(SpatialEdit-500k)
시지각적 자연스러움과 기하학적 정밀도를 동시 평가하는 벤치마크
기존 방법 대비 공간 조작 태스크에서 상당한 성능 우위
🎯 왜 이것이 게임 체인저인가? : “이미지 편집 = 2D 평면 변환” → “이미지 편집 = 3D 공간 인식 변환”
🤖 “RL로 VLM을 훈련할 때, 데이터 다양성이 왜 중요할까?”
Vero: An Open RL Recipe for General Visual Reasoning
🏛️ 소속: Meta, Princeton University
🏷️ 핵심 키워드: Visual Reasoning, Reinforcement Learning, Open-weight VLM
💭 이런 질문을 해본 적 있나요?
차트, 과학, 공간 이해를 모두 잘하는 비전 모델을 오픈소스로 만들 수 있을까?
RL로 VLM을 훈련할 때, 데이터 다양성이 왜 중요할까?
비공개 thinking 데이터 없이도 thinking 모델을 이길 수 있을까?
최강 VLM들의 비밀 레시피는 비공개 RL 파이프라인과 비공개 데이터 뒤에 잠겨 있었습니다. Meta와 Princeton이 그 자물쇠를 열었습니다. Vero는 59개 데이터셋에서 60만 샘플을 모으고, 태스크별 맞춤 보상을 설계해 완전 공개 VLM을 구축합니다. Qwen3-VL-8B 기반 Vero는 비공개 thinking 데이터를 쓴 Qwen3-VL-8B-Thinking을 30개 벤치마크 중 23개에서 이겼습니다.
특히 주목할 점:
4개 베이스 모델에서 평균 3.6~5.3포인트 향상
30개 벤치마크 중 23개에서 Thinking 모델 능가 (비공개 데이터 없이)
서로 다른 태스크 카테고리가 고유한 추론 패턴을 유도 — 단일 카테고리로는 전이 안 됨
🎯 왜 이것이 게임 체인저인가? : “강한 VLM = 비공개 RL + 비공개 데이터” → “공개 데이터 60만 + 태스크 라우팅 보상으로 충분”
🗂️ “에이전트의”기억”을 어떻게 구조화하면 장기 개인화가 될까?”
FileGram: Grounding Agent Personalization in File-System Behavioral Traces
🏛️ 소속: NTU (S-Lab)
🏷️ 핵심 키워드: Agent Personalization, File-System Traces, Memory Architecture
💭 이런 질문을 해본 적 있나요?
AI 에이전트가 나를 이해하려면, 대화 말고 무엇을 봐야 할까?
파일 생성·수정·삭제 기록만으로 사용자 프로필을 만들 수 있을까?
에이전트의 “기억”을 어떻게 구조화하면 장기 개인화가 될까?
당신이 어떤 파일을 만들고, 어떤 폴더를 정리하고, 어떤 문서를 수정하는지 — 이 흔적에는 대화보다 더 솔직한 당신이 담겨 있습니다. NTU S-Lab의 FileGram은 파일 시스템 행동 흔적을 기반으로 에이전트를 개인화합니다. FileGramOS는 대화 요약이 아닌, 원자적 파일 조작과 콘텐츠 변화량에서 프로필을 구축하고, 절차적·의미적·에피소드 기억 채널로 인코딩합니다.
특히 주목할 점:
페르소나 기반 데이터 엔진으로 대규모 멀티모달 행동 시퀀스 자동 생성
프로필 복원, 흔적 분리, 페르소나 드리프트 감지, 멀티모달 근거 등 4개 진단 태스크
최신 메모리 시스템들이 FileGramBench에서 여전히 고전
🎯 왜 이것이 게임 체인저인가? : “에이전트 개인화 = 대화 기록 요약” → “파일 시스템 행동 흔적에서 바텀업으로 프로필 구축”
🎬 “로봇 액션을”이미지”로 표현하면 무엇이 달라질까?”
Action Images: End-to-End Policy Learning via Multiview Video Generation
🏛️ 소속: IBM Research (MIT-IBM Watson AI Lab), MIT, Harvard, UMass Amherst
🏷️ 핵심 키워드: World Action Model, Robot Policy, Video Generation
💭 이런 질문을 해본 적 있나요?
비디오 생성 모델이 곧 로봇 제어기가 될 수 있을까?
로봇 액션을 “이미지”로 표현하면 무엇이 달라질까?
별도의 정책 헤드 없이 비디오 백본만으로 제로샷 제어가 가능할까?
로봇에게 “저 컵을 집어”라고 말하면, 로봇이 미래 영상을 상상하고 그대로 움직입니다. MIT-IBM Watson AI Lab의 Action Images는 7-DoF 로봇 액션을 해석 가능한 멀티뷰 액션 이미지로 변환합니다. 로봇 팔의 움직임이 2D 픽셀에 그대로 그려지기 때문에, 비디오 백본 자체가 별도 정책 모듈 없이 제로샷 정책으로 작동합니다.
특히 주목할 점:
별도 정책 헤드나 액션 모듈 없이 비디오 백본이 곧 정책
RLBench와 실제 환경에서 최고 제로샷 성공률 달성
영상-액션 동시 생성, 액션 조건부 영상 생성, 액션 라벨링까지 단일 모델로
🎯 왜 이것이 게임 체인저인가? : “영상 모델 + 별도 액션 모듈” → “액션을 픽셀로 표현하면 영상 모델 자체가 정책”
💰 “LLM에 금융 API를 쥐어줬습니다”
Data-Driven Function Calling Improvements in Large Language Model for Online Financial QA
🏛️ 소속: Huawei Noah’s Ark Lab, Shenzhen University
🏷️ 핵심 키워드: Function Calling, Financial QA, Data Augmentation
💭 이런 질문을 해본 적 있나요?
금융 도메인의 수백 개 API를 LLM이 알아서 골라 쓸 수 있을까?
사용자 질문의 파라미터가 API 스펙과 안 맞으면 어떻게 할까?
오프라인 데이터로 훈련한 함수 호출이 온라인에서도 통할까?
“삼성전자 최근 3개월 수익률 알려줘”라는 질문에, LLM이 알맞은 금융 API를 고르고, 파라미터를 채워 호출하고, 결과를 해석해 답합니다. Huawei Noah’s Ark Lab은 금융 도메인 특화 함수 호출을 위한 데이터 기반 파이프라인을 제안합니다. AugFC라는 증강 기법으로 파라미터 값의 다양성을 확보하고, 2단계 훈련으로 LLM에 금융 함수 호출 능력을 부여합니다.
특히 주목할 점:
중국 최대 챗 플랫폼 중 하나인 YuanBao에 실제 배포
사용자 쿼리 기반 샘플 추가로 금융 도구를 데이터 기반으로 탐색
AugFC로 파라미터 다양성을 확보해 OOD 쿼리 대응력 강화
🎯 왜 이것이 게임 체인저인가? : “범용 LLM에 API 문서를 프롬프트로” → “금융 특화 데이터 파이프라인으로 함수 호출 능력을 내재화”
🎥 “날아간 디테일, 다시 그려냅니다”
DiffHDR: Re-Exposing LDR Videos with Video Diffusion Models
🏛️ 소속: Snap Research
🏷️ 핵심 키워드: HDR Video, Diffusion Model, Radiance Inpainting
💭 이런 질문을 해본 적 있나요?
8비트로 압축하면서 사라진 하이라이트와 그림자를 되살릴 수 있을까?
과노출로 하얗게 날아간 하늘에 원래 구름이 있었다면?
비디오 디퓨전 모델이 “잃어버린 빛”을 상상해 그릴 수 있을까?
스마트폰으로 찍은 영상에서 하얗게 날아간 하늘, 까맣게 뭉개진 그림자 — 8비트 LDR 포맷이 삼켜버린 빛입니다. Snap Research의 DiffHDR은 이 문제를 “빛의 인페인팅”으로 재정의합니다. 비디오 디퓨전 모델의 시공간 생성 능력을 활용해, 과노출·저노출 영역에 사실적인 HDR 빛을 복원합니다. Log-Gamma 색공간에서 동작하며, 텍스트 프롬프트나 참조 이미지로 변환을 제어할 수도 있습니다.
특히 주목할 점:
LDR→HDR 변환을 생성적 인페인팅 태스크로 재정의
HDRI 맵에서 합성한 고품질 HDR 비디오 학습 데이터 파이프라인 구축
빛 충실도와 시간 안정성 모두에서 SOTA 상당한 격차로 능가
🎯 왜 이것이 게임 체인저인가? : “LDR→HDR = 톤 매핑 역변환” → “디퓨전 모델이 잃어버린 장면을 상상해 복원”
매주 목요일 오전 8시, 바쁜 당신을 기술 발전에 뒤쳐지지 않게 만들어줄 최신 AI 트렌드 요약본이 전달됩니다! 🚀

