금주 캐치페이퍼는 Google DeepMind, Meta, MIT, Harvard, ByteDance, Alibaba, Oxford 와 함께합니다. 3분만 투자해 쓱 둘러보고, 빠르게 바뀌는 기술의 방향성을 놓치지 마세요!
📈 최신 AI 트렌드 3줄 요약
🌟 최근 AI 연구에서는 단일 forward pass로 고품질 샘플을 생성하는 혁신적인 생성 모델링과 극소수 파라미터로 복잡한 추론을 가능하게 하는 초효율적 학습 기법이 주목받고 있습니다.
🚀 AI가 수학적 발견과 알고리즘 개발에서 인간 전문가와 협력하는 새로운 패러다임이 등장하고 있습니다.
🔎attention 메커니즘의 직접 최적화와 활성화 함수의 진화적 탐색을 통한 성능 향상 연구가 활발히 진행되고 있습니다.
🧮 AI가 수학 증명에서 실패하다? 10개의 미공개 문제로 밝혀낸 충격적 진실!
First Proof
🏛️ 소속: Mohammed Abouzaid, Andrew J. Blumberg, Martin Hairer
🏷️ 핵심 키워드: Autonomous Problem-Solving, Mathematical Proofs, AI Evaluation
💭 이런 질문을 해본 적 있나요?
"AI가 정말로 독립적으로 수학 문제를 풀 수 있을까?"
"현재 최신 AI 시스템의 수학적 추론 능력은 어디까지일까?"
"AI의 진정한 문제 해결 능력을 어떻게 측정할 수 있을까?"
시험지에서 답안을 찾지 못하는 학생처럼, First Proof 프로젝트는 10개의 미공개 연구 수준 수학 문제로 현재 최신 AI 시스템들을 테스트했습니다. 그 결과는 충격적입니다. AI들은 이러한 복잡한 문제에 대해 독립적으로 올바른 증명을 생성하는 데 어려움을 겪었습니다. 이는 AI의 수학적 추론 능력에 대한 새로운 기준을 제시합니다. 특히 주목할 점:
미공개 문제를 통해 AI의 실제 문제 해결 능력을 측정
기존 벤치마크와 달리 학습되지 않은 새로운 문제로 평가
다양한 수학 분야에 걸친 포괄적인 평가
🎯 왜 이것이 게임 체인저인가? : 기존의 벤치마크 기반 평가 → 미공개 문제를 통한 진정한 AI 능력 측정의 전환점 강조
🔗 더 자세한 내용이 궁금하다면 : https://arxiv.org/abs/2602.05192
🚀 단 한 번의 계산으로 완벽한 이미지를 생성한다?! FID 1.54의 충격!
Generative Modeling via Drifting
🏛️ 소속: Harvard University, MIT
🏷️ 핵심 키워드: Single Forward Pass, Drifting Models, FID Score
💭 이런 질문을 해본 적 있나요?
"반복 없이 한 번에 고품질 이미지를 생성할 수 있을까?"
"학습 시간의 최적화가 생성 속도를 혁신적으로 바꿀 수 있을까?"
"로봇 제어에도 적용 가능한 범용 생성 모델이 가능할까?"
마법사가 지팡이를 한 번 휘두르는 것처럼, Drifting Models은 반복적 분포 매칭을 학습 시간으로 이동시켜 단일 forward pass로 고품질 샘플을 생성합니다. ImageNet 256x256에서 FID 1.54를 달성하며, 이는 기존 단일 단계 접근법을 압도하는 성과입니다. 더 놀라운 것은 로봇 제어 작업에서도 효과를 입증했다는 점입니다. 특히 주목할 점:
단일 neural function evaluation으로 latent space에서 FID 1.54, pixel space에서 1.61 달성
이전 단일 단계 생성 모델을 크게 능가하는 성능
이미지 생성뿐 아니라 로봇 제어 작업에도 적용 가능
🎯 왜 이것이 게임 체인저인가? : 반복적 생성 패러다임 → 단일 forward pass 생성의 전환점 강조
🔗 더 자세한 내용이 궁금하다면 : https://arxiv.org/abs/2602.04770
🤯 단 13개 파라미터로 GSM8K 91% 달성! Meta가 밝혀낸 극한의 효율성!
Learning to Reason in 13 Parameters
🏛️ 소속: Meta FAIR
🏷️ 핵심 키워드: TinyLoRA, Ultra-Low-Capacity Adaptation, Mathematical Reasoning
💭 이런 질문을 해본 적 있나요?
"정말 몇 개의 파라미터만으로 복잡한 추론이 가능할까?"
"대형 언어 모델의 미세조정을 얼마나 효율적으로 만들 수 있을까?"
"수학적 추론 능력을 극소량의 학습으로 부여할 수 있을까?"
한 방울의 물이 바위를 뚫듯, Meta FAIR의 TinyLoRA는 단 13개의 파라미터만 학습하여 대형 언어 모델에 복잡한 수학적 추론 능력을 부여합니다. 이 초미세 조정 방법은 강화학습과 결합되어 GSM8K에서 91%의 정확도를 달성했습니다. 이는 초저용량 모델 적응의 새로운 지평을 열었습니다. 특히 주목할 점:
13개 파라미터로 복잡한 수학적 추론 능력 획득
기존 LoRA 방식보다 극단적으로 파라미터 효율적
GSM8K에서 91% 정확도로 실용성 입증
🎯 왜 이것이 게임 체인저인가? : 대규모 파라미터 미세조정 → 극소수 파라미터 적응의 전환점 강조
🔗 더 자세한 내용이 궁금하다면 : https://arxiv.org/abs/2602.04118
🎯 출력이 아닌 attention을 직접 훈련시킨다! V*Bench +5.8%, NExTQA +3.4% 달성!
Reinforced Attention Learning
🏛️ 소속: Bangzheng Li, Jianmo Ni, Chen Qu
🏷️ 핵심 키워드: RAL, Attention Optimization, Multimodal Alignment
💭 이런 질문을 해본 적 있나요?
"모델의 내부 attention을 직접 최적화할 수 있을까?"
"시각적 grounding을 개선하는 혁신적인 방법은 무엇일까?"
"멀티모달 정렬을 근본적으로 향상시킬 수 있을까?"
외과의사가 정확한 부위를 집도하듯, Reinforced Attention Learning(RAL)은 출력 토큰이 아닌 Multimodal Large Language Models의 내부 attention 분포를 직접 최적화합니다. 이 혁신적인 post-training 프레임워크는 V*Bench에서 +5.8%, NExTQA에서 +3.4%의 성능 향상을 달성하며, 시각적 grounding과 멀티모달 정렬을 근본적으로 개선했습니다. 특히 주목할 점:
출력 토큰이 아닌 내부 attention 분포를 직접 최적화
다양한 이미지 및 비디오 QA 벤치마크에서 우수한 성능
다양한 멀티모달 작업에 일관되게 적용 가능
🎯 왜 이것이 게임 체인저인가? : 출력 토큰 최적화 → 내부 attention 분포 직접 최적화의 전환점 강조
🔗 더 자세한 내용이 궁금하다면 : https://arxiv.org/abs/2602.04884
🔬 Google이 LLM으로 새로운 활성화 함수를 발견했다! OOD 성능 대폭 향상!
Mining Generalizable Activation Functions
🏛️ 소속: Google DeepMind
🏷️ 핵심 키워드: AlphaEvolve, Periodic Components, OOD Generalization
💭 이런 질문을 해본 적 있나요?
"AI가 스스로 더 나은 activation function을 찾을 수 있을까?"
"주기적 요소가 일반화 성능을 향상시킬 수 있을까?"
"복잡한 추론과 분자 특성 예측을 동시에 개선할 수 있을까?"
연금술사가 완벽한 공식을 찾듯, Google DeepMind는 AlphaEvolve 프레임워크를 활용해 주기적 요소를 통합한 새로운 활성화 함수를 발견했습니다. 이 함수들은 out-of-distribution 일반화를 명시적으로 향상시키며, 복잡한 추론 벤치마크와 분자 특성 예측 작업에서 성능을 대폭 개선했습니다. 특히 주목할 점:
frontier LLM이 주도하는 진화적 프레임워크로 새로운 함수 발견
주기적 요소 통합으로 OOD 일반화 성능 향상
추론 벤치마크와 분자 예측 작업 모두에서 효과 입증
🎯 왜 이것이 게임 체인저인가? : 수동 설계된 활성화 함수 → AI가 발견한 일반화 최적 함수의 전환점 강조
🔗 더 자세한 내용이 궁금하다면 : https://arxiv.org/abs/2602.05688
🧠 Gemini가 오픈 추측을 반박하고 새 알고리즘을 발견했다!
Accelerating Scientific Research with Gemini: Case Studies and Common Techniques
🏛️ 소속: Google Research, Harvard University, Carnegie Mellon University
🏷️ 핵심 키워드: Human-AI Collaboration, Mathematical Discovery, Algorithm Development
💭 이런 질문을 해본 적 있나요?
"AI가 전문가 수준의 수학적 발견에 기여할 수 있을까?"
"오픈 추측을 반박하고 새로운 알고리즘을 식별할 수 있을까?"
"인간과 AI의 협력이 이론 연구를 어떻게 가속화할 수 있을까?"
노벨상 수상자와 함께 연구하는 것처럼, Google Research는 Gemini 기반 AI 모델이 수학적·알고리즘 발견에서 효과적인 협력자가 될 수 있음을 입증했습니다. 다양한 사례 연구를 통해 이 모델들이 오픈 추측을 반박하고, 새로운 알고리즘을 식별하며, 복잡한 분석 솔루션을 도출할 수 있음을 보여줍니다. 특히 주목할 점:
전문가 수준의 수학적 발견에 AI가 직접 기여
오픈 추측 반박, 알고리즘 식별, 분석 솔루션 도출 등 다방면 성과
이론 연구의 인간-AI 협력을 위한 공통 기법 제시
🎯 왜 이것이 게임 체인저인가? : 인간 전용 이론 연구 → 인간-AI 협력 발견의 전환점 강조
🔗 더 자세한 내용이 궁금하다면 : https://arxiv.org/abs/2602.03837
📉 LLM의 깊이 비밀, Loss가 깊이에 반비례한다 (L ~ 1/ℓ)
Inverse Depth Scaling From Most Layers Being Similar
🏛️ 소속: MIT, Harvard, Stanford
🏷️ 핵심 키워드: Depth Scaling, Ensemble Averaging, Layer Similarity
💭 이런 질문을 해본 적 있나요?
"LLM의 loss가 깊이와 어떤 관계를 가질까?"
"레이어들이 유사한 역할을 수행하는 이유는 무엇일까?"
"깊이가 성능에 미치는 영향을 정량적으로 이해할 수 있을까?"
마치 수많은 작은 추가 하나의 큰 균형을 만들어내듯, MIT, Harvard, Stanford 연구진은 대형 언어 모델의 loss가 깊이에 반비례(L ~ 1/ℓ)함을 정량적으로 입증했습니다. 연구 결과, LLM은 주로 "앙상블 평균" 메커니즘을 통해 깊이를 활용하며, 레이어들이 유사한 점진적 업데이트를 수행해 집단적으로 오류를 감소시킵니다. 특히 주목할 점:
깊이와 loss의 관계를 정량적으로 규명
"앙상블 평균" 메커니즘의 발견으로 레이어 유사성 설명
다양한 LLM 아키텍처에 적용 가능한 보편적 원리
🎯 왜 이것이 게임 체인저인가? : 불명확한 깊이 효과 → 깊이와 성능의 정량적 관계 규명의 전환점 강조
🔗 더 자세한 내용이 궁금하다면 : https://arxiv.org/abs/2602.05970
💰 ByteDance가 수십억 파라미터 랭킹 모델로 GMV 2.98% 올렸다! 광고주 만족도도 2.0% UP!
TokenMixer-Large: Scaling Up Large Ranking Models in Industrial Recommenders
🏛️ 소속: ByteDance AML
🏷️ 핵심 키워드: Multi-Billion Parameters, Industrial Recommender, Online Performance
💭 이런 질문을 해본 적 있나요?
"수십억 파라미터 랭킹 모델을 실제 서비스에 적용할 수 있을까?"
"추천 시스템의 온라인 성능을 어떻게 극대화할 수 있을까?"
"광고, 이커머스, 라이브 스트리밍에서 동시에 성과를 낼 수 있을까?"
거대한 엔진이 정밀하게 작동하듯, ByteDance AML의 TokenMixer-Large는 수십억 파라미터까지 효율적으로 확장 가능한 산업용 추천 시스템 랭킹 모델입니다. 아키텍처 혁신과 포괄적 최적화를 통해 Douyin의 광고, 이커머스, 라이브 스트리밍 플랫폼에서 일관된 온라인 성능 향상을 달성했으며, GMV 2.98% 증가와 광고주 만족도 2.0% 개선을 기록했습니다. 특히 주목할 점:
수십억 파라미터 규모로 효율적 확장
실제 서비스에서 검증된 온라인 성능 향상
광고, 이커머스, 라이브 스트리밍 전 영역에서 성과
🎯 왜 이것이 게임 체인저인가? : 제한된 규모의 랭킹 모델 → 수십억 파라미터 산업용 모델의 전환점 강조
🔗 더 자세한 내용이 궁금하다면 : https://arxiv.org/abs/2602.06563
🎬 Meta와 Oxford가 상관관계 대신 워핑으로 추적한다! TAP-Vid에서 SOTA 달성!
CoWTracker: Tracking by Warping instead of Correlation
🏛️ 소속: University of Oxford, Meta
🏷️ 핵심 키워드: Iterative Warping, Spatiotemporal Transformers, Dense Point Tracking
💭 이런 질문을 해본 적 있나요?
"상관관계 기반 추적의 한계를 극복할 수 있을까?"
"dense point tracking의 정확도를 어떻게 향상시킬 수 있을까?"
"optical flow에서도 경쟁력 있는 zero-shot 성능을 낼 수 있을까?"
나침반이 북극을 가리키듯 정확하게, CoWTracker는 전통적인 상관관계 기반 비용 볼륨을 반복적 워핑 메커니즘과 시공간 트랜스포머로 대체합니다. 이 혁신적 접근법은 TAP-Vid와 RoboTAP 같은 dense point tracking 벤치마크에서 state-of-the-art 성능을 달성하며, MPI-Sintel과 KITTI-2015 같은 optical flow 작업에서도 경쟁력 있는 zero-shot 능력을 입증했습니다. 특히 주목할 점:
상관관계 기반 cost volume 대신 워핑 메커니즘 사용
TAP-Vid, RoboTAP에서 SOTA 달성
optical flow 작업에서도 zero-shot 성능 시연
🎯 왜 이것이 게임 체인저인가? : 상관관계 기반 추적 → 워핑 기반 추적의 전환점 강조
🔗 더 자세한 내용이 궁금하다면 : https://arxiv.org/abs/2602.04877
🦅 Alibaba가 텍스트·비전·인터리브 추론 모드를 자유자재로 전환한다! SwimBird 등장!
SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs
🏛️ 소속: Alibaba Group, Huazhong University of Science and Technology
🏷️ 핵심 키워드: Switchable Reasoning, Hybrid Autoregressive, Dynamic Token Budget
💭 이런 질문을 해본 적 있나요?
"MLLM이 상황에 따라 추론 모드를 전환할 수 있을까?"
"텍스트 전용, 비전 전용, 인터리브 추론을 하나의 모델로 가능할까?"
"해상도 인식 동적 토큰 예산이 성능을 어떻게 향상시킬까?"
카멜레온이 환경에 따라 색을 바꾸듯, SwimBird는 텍스트 전용, 비전 전용, 인터리브 추론 모드를 동적으로 전환할 수 있는 Multimodal Large Language Model입니다. 하이브리드 autoregressive 공식과 해상도 인식 동적 latent token budget을 통해 가능해진 이 모델은 SwimBird-SFT-92K 데이터셋으로 학습되어, 세밀한 시각 이해와 복잡한 멀티모달 추론을 요구하는 다양한 벤치마크에서 state-of-the-art 성능을 달성했습니다. 특히 주목할 점:
동적 추론 모드 전환 능력
세밀한 시각 이해와 복잡한 추론 모두에서 SOTA
다양한 멀티모달 벤치마크에서 일관된 성능
🎯 왜 이것이 게임 체인저인가? : 고정된 추론 모드 → 상황 적응형 동적 추론 모드의 전환점 강조
🔗 더 자세한 내용이 궁금하다면 : https://arxiv.org/abs/2602.06040
매일 화요일 오전 8시,
바쁜 당신을 기술 발전에 뒤쳐지지 않게 만들어줄
최신 AI 트렌드가 요약 정리본으로 전달됩니다!

