📑NVIDIA: "요만한 8B 모델로 GPT-5를 이겼어!"

금주 캐치페이퍼는 Alibaba, ByteDance, NVIDIA, MIT, Tencent, AI2, CMU, NYU, Google DeepMind와 함께합니다. 3분만 투자해 쓱 둘러보고, 빠르게 바뀌는 기술의 방향성을 놓치지 마세요!

📈 최신 AI 트렌드 2줄 요약

🌟 이번 주 AI 연구에서는 소형 모델의 효율성 혁명이 두드러지며, 8B 파라미터 모델이 프론티어 모델을 능가하고, 쿼리당 $0.0019로 심층 연구를 수행하는 등 "작지만 강한" 패러다임이 확산되고 있습니다.

🚀 멀티모달 AI의 경계가 확장되어 256K 토큰 비전-언어 모델, 비디오 시공간 그라운딩, 360도 휴머노이드 시각 탐색 등 실세계 응용을 위한 혁신적인 연구가 활발히 진행되고 있습니다.

❝

👁️ 256K 토큰으로 세상을 읽다 - 오픈소스 VLM의 새로운 정점

Qwen3-VL Technical Report

🏛️ 소속: Alibaba

🏷️ 핵심 키워드: Vision-Language Model, 256K Context, Multimodal Reasoning

💭 이런 질문을 해본 적 있나요?

"한 번에 수백 페이지의 문서와 수십 분의 영상을 동시에 이해할 수 있을까?"
"39개 언어의 텍스트를 이미지에서 정확히 인식하는 AI가 가능할까?"
"오픈소스 모델이 독점 모델의 벽을 넘을 수 있을까?"

마라톤 선수가 42.195km를 완주하듯, Qwen3-VL은 256K 토큰이라는 초장거리 컨텍스트를 완벽히 소화합니다. 텍스트, 이미지, 비디오를 자유롭게 넘나들며 MMMU, MathVista 등 주요 벤치마크에서 SOTA를 달성했습니다. 특히 주목할 점:

256K 네이티브 컨텍스트 윈도우로 초장문 멀티모달 이해 실현
동급 텍스트 전용 백본을 능가하는 순수 텍스트 이해력까지 확보
2B부터 235B까지 Dense 및 MoE 변형으로 다양한 활용 시나리오 지원

🎯 왜 이것이 게임 체인저인가? : 제한된 컨텍스트의 멀티모달 → 256K 토큰 통합 멀티모달 이해의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

🎬 "GPT-5와 Gemini 3 Pro를 넘어섰다" - 비디오 이해의 새 장을 열다

Vidi2: Large Multimodal Models for Video Understanding and Creation

🏛️ 소속: ByteDance

🏷️ 핵심 키워드: Spatio-Temporal Grounding, Video QA, Temporal Retrieval

💭 이런 질문을 해본 적 있나요?

"30분짜리 영상에서 특정 인물이 등장하는 정확한 시간과 위치를 찾을 수 있을까?"
"비디오 속 복잡한 행동을 시공간적으로 정밀하게 추적할 수 있을까?"
"오픈소스 모델이 독점 거대 모델들을 능가할 수 있을까?"

CCTV 관제사가 수천 시간의 영상에서 용의자를 찾아내듯, Vidi2는 텍스트 쿼리만으로 비디오 속 시간과 공간을 정밀하게 특정합니다. Gemini 3 Pro와 GPT-5를 큰 폭으로 앞서며, 시공간 그라운딩(STG)이라는 새로운 영역을 개척했습니다. 특히 주목할 점:

엔드투엔드 시공간 그라운딩으로 타임스탬프와 바운딩 박스 동시 출력
VUE-TR-V2, VUE-STG 벤치마크에서 GPT-5, Gemini 3 Pro 대폭 능가
10초~30분 영상까지 장문맥 추론 지원

🎯 왜 이것이 게임 체인저인가? : 단순 비디오 캡셔닝 → 정밀한 시공간 그라운딩의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

🎻 8B 지휘자가 GPT-5 오케스트라를 이끌다

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

🏛️ 소속: NVIDIA

🏷️ 핵심 키워드: Tool Orchestration, Reinforcement Learning, Agentic AI

💭 이런 질문을 해본 적 있나요?

"작은 모델이 거대 모델들을 조율하여 더 나은 결과를 낼 수 있을까?"
"AI 에이전트의 비용을 획기적으로 줄이면서 성능은 유지할 수 있을까?"
"도구 사용의 효율성과 정확성을 동시에 최적화할 수 있을까?"

오케스트라 지휘자가 각 악기의 장점을 조화시키듯, 8B 파라미터의 Orchestrator는 GPT-5, 전문 코딩 모델, 수학 모델 등을 적재적소에 호출합니다. Humanity's Last Exam에서 GPT-5(35.1%)를 넘어 37.1%를 달성하면서도 비용은 2.5배 절감했습니다. 특히 주목할 점:

결과, 효율성, 사용자 선호도를 동시 최적화하는 다목적 RL 훈련
τ2-Bench, FRAMES에서 GPT-5 대비 30% 비용으로 우수한 성능
미지의 도구에도 견고하게 일반화되는 강건성

🎯 왜 이것이 게임 체인저인가? : 단일 거대 모델 의존 → 소형 오케스트레이터 기반 도구 조율의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

🎨 오토인코더 없이 픽셀에서 직접 - 확산 모델의 새로운 공식

PixelDiT: Pixel Diffusion Transformers for Image Generation

🏛️ 소속: NVIDIA

🏷️ 핵심 키워드: Pixel-Space Diffusion, Dual-Level DiT, End-to-End Training

💭 이런 질문을 해본 적 있나요?

"VAE의 손실 없이 픽셀 수준에서 직접 이미지를 생성할 수 있을까?"
"잠재 공간과 픽셀 공간 중 어느 것이 진정한 고품질 생성에 유리할까?"
"단일 스테이지로 엔드투엔드 이미지 생성이 가능할까?"

화가가 캔버스에 직접 붓을 대듯, PixelDiT는 잠재 공간을 거치지 않고 픽셀에서 바로 확산을 수행합니다. 패치 레벨 DiT가 전역 의미를, 픽셀 레벨 DiT가 세부 텍스처를 담당하는 이중 구조로 ImageNet 256×256에서 FID 1.61을 달성했습니다. 특히 주목할 점:

VAE 없이 단일 스테이지 엔드투엔드 학습으로 오류 누적 제거
기존 픽셀 공간 생성 모델들을 큰 폭으로 능가
1024×1024 텍스트-이미지 생성까지 확장, 이미지 편집에서도 우수

🎯 왜 이것이 게임 체인저인가? : 2단계 잠재 공간 확산 → 단일 스테이지 픽셀 공간 확산의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

📊 AI 발전의 89%는 어디서 왔을까? - 알고리즘 진보의 기원을 추적하다

On the Origin of Algorithmic Progress in AI

🏛️ 소속: MIT

🏷️ 핵심 키워드: Algorithmic Efficiency, Scale-Dependent Innovation, Transformer

💭 이런 질문을 해본 적 있나요?

"AI의 급격한 발전은 알고리즘 혁신 덕분일까, 단순히 컴퓨팅 확장 덕분일까?"
"트랜스포머 같은 혁신이 없었다면 오늘날의 AI가 가능했을까?"
"앞으로의 AI 발전을 위해 어디에 투자해야 할까?"

고고학자가 유물의 기원을 추적하듯, MIT 연구진은 AI 알고리즘 효율성 향상의 근원을 분석했습니다. 놀랍게도 2023년 컴퓨트 프론티어 기준 총 6,930배 효율성 향상의 89%가 트랜스포머, 친칠라 스케일링 같은 스케일 의존적 혁신에서 비롯되었습니다. 특히 주목할 점:

정량적 분해를 통해 알고리즘 진보의 원천을 최초로 규명

스케일 불변 개선은 10% 미만으로 스케일 의존 혁신이 압도적

AI 투자 및 연구 방향 설정에 중요한 시사점 제공

🎯 왜 이것이 게임 체인저인가? : 막연한 "알고리즘 발전" → 스케일 의존/불변 혁신의 정량적 구분의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

📄 1B로 상용 수준 달성 - OCR에 강화학습을 최초 적용하다

HunyuanOCR Technical Report

🏛️ 소속: Tencent

🏷️ 핵심 키워드: End-to-End OCR, Reinforcement Learning, Lightweight VLM

💭 이런 질문을 해본 적 있나요?

"OCR 파이프라인의 복잡한 전처리 없이 엔드투엔드로 텍스트를 인식할 수 있을까?"
"강화학습이 OCR 성능을 획기적으로 개선할 수 있을까?"
"1B 파라미터로 상용 API 수준의 정확도를 달성할 수 있을까?"

숙련된 서예가가 어떤 글씨체도 읽어내듯, HunyuanOCR은 1B 파라미터만으로 복잡한 레이아웃, 다국어, 손글씨까지 정확히 인식합니다. 업계 최초로 GRPO 강화학습을 OCR에 적용하여 ICDAR 2025 DIMT 챌린지 1위를 차지했습니다. 특히 주목할 점:

순수 엔드투엔드 패러다임으로 전처리 모듈 의존성 제거
Qwen3-VL-4B 등 더 큰 모델들을 능가하는 성능
스팟팅, 파싱, 정보 추출, VQA, 번역까지 통합 지원

🎯 왜 이것이 게임 체인저인가? : 파이프라인 기반 OCR → RL 최적화 엔드투엔드 OCR의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

🔬 쿼리당 $0.0019로 심층 연구를 - 오픈소스의 역습

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

🏛️ 소속: University of Washington, Carnegie Mellon University, AI2, MIT

🏷️ 핵심 키워드: Deep Research, Evolving Rubrics, Long-Form QA

💭 이런 질문을 해본 적 있나요?

"OpenAI Deep Research 수준의 심층 연구를 오픈소스로 구현할 수 있을까?"
"장문의 연구 보고서 생성을 어떻게 강화학습으로 최적화할 수 있을까?"
"심층 연구 AI의 비용을 1/500로 줄일 수 있을까?"

도서관 사서가 수천 권의 책에서 정보를 종합하듯, DR Tulu-8B는 다단계 검색과 종합을 통해 장문의 연구 보고서를 생성합니다. 진화하는 루브릭(RLER)으로 학습하여 쿼리당 $0.0019의 비용으로 독점 시스템과 동등한 성능을 달성했습니다. 특히 주목할 점:

정책 모델과 함께 진화하는 루브릭으로 장문 연구에 최적화
OpenAI Deep Research, GPT-5+Search와 동등 또는 우수한 성능
과학, 의료, 일반 도메인에서 일관된 우수성

🎯 왜 이것이 게임 체인저인가? : 고비용 독점 심층 연구 → 저비용 오픈소스 심층 연구의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

🚗 3DGS로 자율주행의 안전을 시뮬레이션하다

MPA: Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving

🏛️ 소속: Carnegie Mellon University, Stanford University, NVIDIA

🏷️ 핵심 키워드: 3D Gaussian Splatting, Closed-Loop Simulation, Policy Adaptation

💭 이런 질문을 해본 적 있나요?

"자율주행 AI를 실제 도로 없이 현실적으로 훈련할 수 있을까?"
"시뮬레이션과 실제 환경의 격차를 어떻게 줄일 수 있을까?"
"폐쇄 루프 평가에서 안전성을 극대화할 수 있을까?"

비행 시뮬레이터에서 파일럿이 훈련하듯, MPA는 3D Gaussian Splatting으로 구축한 포토리얼리스틱 환경에서 자율주행 정책을 학습합니다. 폐쇄 루프 시뮬레이션을 통해 분포 외 상황에서의 대응력을 크게 향상시켰습니다. 특히 주목할 점:

3DGS 기반 고품질 렌더링으로 현실-시뮬레이션 격차 최소화
모방 학습 대비 충돌률 3배 감소
다양한 데이터셋과 시나리오에 적용 가능

🎯 왜 이것이 게임 체인저인가? : 개방 루프 평가 → 3DGS 기반 폐쇄 루프 적응의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

❝

🔄 360도로 세상을 탐색하다 - 휴머노이드 시각의 새 지평

Thinking in 360°: Humanoid Visual Search in the Wild

🏛️ 소속: NYU, NVIDIA, UC Berkeley, Stanford University

🏷️ 핵심 키워드: Humanoid Visual Search, 360° Panorama, Embodied AI

💭 이런 질문을 해본 적 있나요?

"로봇이 사람처럼 고개를 돌려 주변을 탐색할 수 있을까?"
"복잡한 실제 환경에서 특정 객체나 경로를 효율적으로 찾을 수 있을까?"
"오픈소스 모델이 독점 모델의 시각 탐색 능력을 능가할 수 있을까?"

인간이 공항에서 표지판을 찾아 고개를 두리번거리듯, 휴머노이드 에이전트는 360도 파노라마 이미지에서 능동적으로 머리를 회전하며 목표를 탐색합니다. 교통 허브, 대형 매장 등 실제 환경의 H* Bench에서 오픈소스 모델이 독점 모델을 능가했습니다. 특히 주목할 점:

정적 이미지 탐색을 넘어 능동적 두부 회전 기반 탐색 패러다임 제시
가정 환경을 넘어 복잡한 야외 환경에서의 벤치마크 구축
객체 탐색과 경로 탐색 모두 지원

🎯 왜 이것이 게임 체인저인가? : 정적 이미지 인식 → 능동적 360도 시각 탐색의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

⚖️ 재가중 손실의 비밀을 풀다 - 확산 모델 훈련의 이론적 정당성

Demystifying Diffusion Objectives: Reweighted Losses are Better Variational Bounds

🏛️ 소속: Google DeepMind

🏷️ 핵심 키워드: Variational Bounds, Reweighted Loss, Masked Diffusion

💭 이런 질문을 해본 적 있나요?

"확산 모델 훈련에서 널리 쓰이는 재가중 손실의 이론적 근거는 무엇일까?"
"ELBO보다 더 좋은 변분 하한을 구성할 수 있을까?"
"마스크 확산 모델도 연속 확산 모델 수준의 품질에 도달할 수 있을까?"

수학자가 경험적 법칙에 이론적 증명을 더하듯, DeepMind 연구진은 재가중 손실이 표준 ELBO보다 개선된 변분 하한임을 증명했습니다. 이 프레임워크를 마스크 확산에 적용하여 ImageNet 64×64에서 FID 1.92를 달성, 연속 확산 모델에 근접했습니다. 특히 주목할 점:

시간 의존적 변분 하한의 계단식 구성으로 KL 발산 감소 증명
마스크 확산에서 기존 훈련 손실 대비 유의미한 FID 개선
연속 가우시안 확산과 이산 마스크 확산 모두에 적용 가능

🎯 왜 이것이 게임 체인저인가? : 경험적 재가중 손실 → 이론적으로 정당화된 개선된 변분 하한의 전환점 강조

🔗 더 자세한 내용이 궁금하다면 : 논문 링크

매일 화요일 오전 8시,
바쁜 당신을 기술 발전에 뒤쳐지지 않게 만들어줄
최신 AI 트렌드가 요약 정리본으로 전달됩니다!

📑NVIDIA: "요만한 8B 모델로 GPT-5를 이겼어!"

📈 최신 AI 트렌드 2줄 요약

Qwen3-VL Technical Report

Vidi2: Large Multimodal Models for Video Understanding and Creation

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

PixelDiT: Pixel Diffusion Transformers for Image Generation

On the Origin of Algorithmic Progress in AI

HunyuanOCR Technical Report

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

MPA: Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving

Thinking in 360°: Humanoid Visual Search in the Wild

⚖️ 재가중 손실의 비밀을 풀다 - 확산 모델 훈련의 이론적 정당성

Demystifying Diffusion Objectives: Reweighted Losses are Better Variational Bounds

Keep Reading

Subscribe Now!