📑“AI 에이전트끼리 놔두면 담합합니다”

금주 캐치페이퍼는 Microsoft, IBM Research, Alibaba, Meituan, Meta, NVIDIA, Huawei, Kuaishou, Adobe와 함께합니다. 3분만 투자해 쓱 둘러보고, 빠르게 바뀌는 기술의 방향성을 놓치지 마세요!

📈 최신 AI 트렌드 3줄 요약

🌟 AI 자율 연구가 의료·물리학까지 침투 — 논문 작성부터 코딩 에이전트까지 자동화 경쟁

🔥 멀티에이전트 담합, 에이전트 협업 효율화 등 ’AI 시스템의 집단 행동’이 새 연구 축으로 부상

🚀 검색 증강 이미지 생성, 조명 제어, 단백질 설계 — AI가 손대는 도메인이 급속히 확장 중

⚡ “범용 드래프트는 사실 느립니다…”

TAPS: Task Aware Proposal Distributions for Speculative Sampling

🏛️ 소속: KAUST

🏷️ 핵심 키워드: Speculative Decoding, Task-Specific Drafting, Confidence Routing

💭 이런 질문을 해본 적 있나요?

Speculative Decoding의 드래프트 모델, 아무거나 써도 될까?
수학 전용 드래프트와 대화 전용 드래프트, 같은 모델로 커버 가능할까?
전문화된 드래프트 여러 개를 실시간으로 조합할 수 있을까?

마라톤에서 페이스메이커가 달리기 스타일에 맞지 않으면 오히려 방해가 되듯, Speculative Decoding의 드래프트 모델도 태스크와 궁합이 맞아야 합니다. MathInstruct, ShareGPT 등 태스크별로 훈련된 드래프트가 해당 벤치마크에서 명확한 특화 효과를 보이며, 체크포인트 평균이 아닌 신뢰도 기반 라우팅 + 병합 트리 검증이 최고 수락 길이를 달성합니다.

특히 주목할 점:

MathInstruct 드래프트 → 추론 벤치마크 최강, ShareGPT 드래프트 → MT-Bench 최강
체크포인트 평균(weight space 병합)은 성능 저하, 신뢰도 기반 라우팅이 우월
HF 커뮤니티 115 upvotes — 이번 주 최다 관심 논문

🎯 왜 이것이 게임 체인저인가? : 드래프트 모델 = 범용 하나로 충분 → 태스크별 전문화 + 추론 시점 라우팅이 새 기준

🔗 https://arxiv.org/abs/2603.27027

🏥 “AI가 쓴 논문, 리뷰어도 몰랐다”

Towards a Medical AI Scientist

🏛️ 소속: Microsoft Research, Stanford, CUHK

🏷️ 핵심 키워드: Autonomous Research, Medical AI, Clinician-Engineer Co-reasoning

💭 이런 질문을 해본 적 있나요?

AI가 가설 수립부터 실험, 논문 작성까지 자율적으로 할 수 있을까?
의료처럼 근거 기반이 중요한 영역에서도 AI Scientist가 통할까?
AI가 쓴 논문이 학회 수준을 통과할 수 있을까?

연구자가 문헌 조사 → 아이디어 → 실험 → 논문을 쓰듯, Medical AI Scientist는 이 전체를 자동화합니다. 임상의-엔지니어 공동 추론으로 아이디어의 추적 가능성을 보장하고, 논문 재현·문헌 영감·태스크 탐색의 3가지 연구 모드를 지원합니다.

특히 주목할 점:

171건, 19개 임상 태스크, 6개 모달리티에서 상용 LLM 대비 월등한 아이디어 품질
더블 블라인드 평가에서 생성 논문이 MICCAI급, ISBI·BIBM 일관 상회
제안 방법-구현 간 높은 정합성 + 실행 가능 실험 높은 성공률

🎯 왜 이것이 게임 체인저인가? : AI Scientist = 도메인 무관 범용 → 임상 근거·윤리까지 내재화한 의료 전용 자율 연구 프레임워크

🔗 https://arxiv.org/abs/2603.28589

🚨 “AI 에이전트끼리 놔두면 담합을 한다고?”

Emergent Social Intelligence Risks in Generative Multi-Agent Systems

🏛️ 소속: IBM Research, Notre Dame

🏷️ 핵심 키워드: Multi-Agent Risk, Emergent Collusion, Social Intelligence

💭 이런 질문을 해본 적 있나요?

AI 에이전트 여러 개를 협업시키면 안전할까?
누구도 지시하지 않았는데 에이전트들이 담합할 수 있을까?
개별 안전장치가 집단 행동까지 막을 수 있을까?

회사에서 부서 간 경쟁이 생기면 예상치 못한 파벌이나 암묵적 합의가 만들어지듯, AI 에이전트 집단에서도 동일한 현상이 발생합니다. 공유 자원 경쟁, 순차적 핸드오프, 집단 의사결정 등 현실 시나리오에서 실험한 결과 — 아무도 지시하지 않았는데 담합형 조율과 동조가 빈번하게 자연 발생했습니다.

특히 주목할 점:

자원 제약·통신 프로토콜·역할 할당 등 현실적 조건에서 담합·동조 빈번 발생
인간 사회의 병리적 패턴을 명시적 지시 없이 자발적으로 재현
기존 에이전트 수준 안전장치만으로는 집단 리스크 방지 불가

🎯 왜 이것이 게임 체인저인가? : 멀티에이전트 안전 = 개별 검증 → 집단 수준의 ’사회적 지능 리스크’까지 고려해야 하는 시대

🔗 https://arxiv.org/abs/2603.27771

🔍 “모르면 검색하고 그리자!”

Gen-Searcher: Reinforcing Agentic Search for Image Generation

🏛️ 소속: Meituan, CUHK

🏷️ 핵심 키워드: Search-Augmented Generation, Agentic RL, Knowledge-Intensive Image

💭 이런 질문을 해본 적 있나요?

“2026년 애플 신제품”을 그려달라면, 학습 데이터에 없는 건 어떻게?
이미지 생성에 검색 능력을 결합하면 어떻게 될까?
텍스트+이미지 이중 보상으로 에이전트를 학습시키면?

요리사가 새 요리를 만들 때 레시피를 검색하듯, 이미지 생성도 최신 지식이 필요합니다. Gen-Searcher는 최초의 검색 증강 이미지 생성 에이전트입니다. 멀티홉 추론과 검색으로 지식과 참조 이미지를 수집한 뒤 그라운디드 생성을 수행합니다.

특히 주목할 점:

Qwen-Image 대비 KnowGen +16점, WISE +15점
텍스트·이미지 이중 보상 기반 에이전틱 RL(GRPO)
데이터·모델·코드 전체 오픈소스

🎯 왜 이것이 게임 체인저인가? : 이미지 생성 = 내부 지식만 의존 → 검색으로 외부 지식 수집 후 그라운디드 생성하는 에이전틱 패러다임

🔗 https://arxiv.org/abs/2603.28767

🤖 “8B가 30B를 이겼다!”

Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

🏛️ 소속: Alibaba

🏷️ 핵심 키워드: Deep Research Agent, Verification-Centric, Test-Time Scaling

💭 이런 질문을 해본 적 있나요?

딥리서치 에이전트의 가장 큰 병목이 무엇일까?
작은 모델이 큰 모델을 이기려면 어떤 전략이 필요할까?
QA 합성 → 궤적 구성 → 추론까지 모든 단계에서 검증을 넣으면?

건물을 올릴 때 매 층마다 검수하면 마지막에 무너지는 일이 없듯, Marco DeepResearch는 QA 데이터 합성·학습 궤적 구성·테스트 타임 추론 모두에 검증을 내장합니다. 자기 자신을 검증자로 활용하는 테스트 타임 스케일링까지 적용했습니다.

특히 주목할 점:

BrowseComp, BrowseComp-ZH에서 8B급 최고 성능
600 tool call 예산 내에서 Tongyi DeepResearch-30B 상회 또는 근접
학습 궤적에 명시적 검증 패턴 주입

🎯 왜 이것이 게임 체인저인가? : 딥리서치 = 더 큰 모델이 곧 더 나은 성능 → 3단계 전방위 검증으로 8B가 30B를 넘어서다

🔗 https://arxiv.org/abs/2603.28376

🖐️ “야외 손 추적, 백팩 하나면 됩니다”

SHOW3D: Capturing Scenes of 3D Hands and Objects in the Wild

🏛️ 소속: Meta

🏷️ 핵심 키워드: Hand-Object Interaction, In-the-Wild 3D Dataset, Ego-Exo Tracking

💭 이런 질문을 해본 적 있나요?

손-물체 상호작용 데이터, 왜 항상 스튜디오 안에서만 찍을까?
야외에서도 정밀한 3D 손 어노테이션이 가능할까?
모션캡처 마커 없이 손 추적 정확도를 보장할 수 있을까?

기존 손-물체 인터랙션 데이터셋은 통제된 스튜디오에서만 촬영되어, 실환경 일반화에 한계가 있었습니다. Meta의 SHOW3D는 가벼운 백팩형 멀티카메라 리그 + VR 헤드셋으로 야외 포함 다양한 환경에서 마커리스 3D 어노테이션을 생성합니다. ego-exo 추적 파이프라인으로 정밀도를 검증합니다.

특히 주목할 점:

야외 포함 다양한 실환경에서 촬영한 최초의 대규모 3D 손-물체 데이터셋
마커리스 시스템으로 환경 사실성과 어노테이션 정확도의 트레이드오프 대폭 완화
다운스트림 태스크에서 일반화 성능 향상 검증

🎯 왜 이것이 게임 체인저인가? : 손-물체 3D 데이터 = 스튜디오 전용 → 백팩 하나로 야외 어디서든 정밀 3D 캡처

🔗 https://arxiv.org/abs/2603.28760

🧬 “신약 단백질, 두 방법 합치니 둘 다 이겼다!”

Scaling Atomistic Protein Binder Design with Generative Pretraining and Test-Time Compute

🏛️ 소속: NVIDIA, Oxford, Seoul National University

🏷️ 핵심 키워드: Protein Binder Design, Flow-based Generation, Test-Time Optimization

💭 이런 질문을 해본 적 있나요?

신약 개발의 핵심인 단백질 바인더를 AI가 설계할 수 있을까?
생성 모델과 구조 예측 기반 최적화, 둘 중 뭐가 나을까?
테스트 타임 컴퓨트 스케일링이 단백질 설계에도 통할까?

생성 모델은 다양한 후보를 빠르게 만들지만 정밀도가 떨어지고, 구조 예측 기반 할루시네이션은 정밀하지만 느립니다. NVIDIA의 Proteina-Complexa는 이 둘을 통합합니다. Flow 기반 잠재 단백질 생성 + 합성 데이터 Teddymer로 사전학습한 뒤, 추론 시점 최적화로 두 패러다임의 장점을 결합합니다.

특히 주목할 점:

기존 생성 모델 대비 압도적으로 높은 in-silico 성공률
동일 컴퓨트 예산에서 기존 할루시네이션 방법 대폭 상회
소분자 타겟, 효소 설계까지 확장 가능 검증

🎯 왜 이것이 게임 체인저인가? : 단백질 바인더 = 생성 vs 할루시네이션 택일 → 생성 사전학습 + 추론 시점 최적화로 두 패러다임 통합

🔗 https://arxiv.org/abs/2603.27950

🧠 “작은 모델이 ’나 못하겠어’를 압니다”

AgentCollab: A Self-Evaluation-Driven Collaboration Paradigm for Efficient LLM Agents

🏛️ 소속: Huawei

🏷️ 핵심 키워드: Collaborative Inference, Self-Reflection Routing, Efficiency-Accuracy Trade-off

💭 이런 질문을 해본 적 있나요?

모든 추론을 대형 모델로 하면 비용이 너무 크지 않을까?
작은 모델이 “나 이거 못하겠어”라고 스스로 판단할 수 있을까?
외부 라우터 없이 모델 간 자율 협업이 가능할까?

주니어 개발자가 막히면 시니어에게 물어보듯, AgentCollab은 작은 모델이 스스로 진행 상황을 평가해서 막히면 큰 모델에게 에스컬레이션합니다. 외부 라우팅 모듈 없이 에이전트 자체의 자기 반성 신호를 활용합니다. 난이도 인식 누적 에스컬레이션 전략으로 장기 실행도 안정화합니다.

특히 주목할 점:

외부 라우터 없이 자기 반성 신호만으로 에스컬레이션 판단
다양한 멀티스텝 에이전트 벤치마크에서 정확도-효율 파레토 프론티어 개선
난이도 인식 누적 전략으로 장기 실행 안정성 확보

🎯 왜 이것이 게임 체인저인가? : LLM 에이전트 = 단일 모델로 전부 처리 → 자기 평가 기반 소형-대형 모델 자율 협업으로 비용·성능 동시 최적화

🔗 https://arxiv.org/abs/2603.26034

💻 “SWE-bench 79.6%, Claude까지 1.2%”

KAT-Coder-V2 Technical Report

🏛️ 소속: Kuaishou

🏷️ 핵심 키워드: Agentic Coding, Specialize-then-Unify, MoE RL Training

💭 이런 질문을 해본 적 있나요?

코딩 에이전트를 5개 전문 분야로 나눠 학습하면 어떻게 될까?
수만 개의 동시 샌드박스를 돌리는 RL 인프라가 가능할까?
트리 구조 궤적에서 중복 계산을 없앨 수 있을까?

하나의 코딩 모델이 SWE, 웹, 터미널, 검색, 범용을 다 잘하기는 어렵습니다. Kuaishou의 KAT-Coder-V2는 “전문화 후 통합(Specialize-then-Unify)” 패러다임으로, 5개 전문가 도메인을 독립 SFT+RL한 뒤 on-policy 증류로 하나로 합칩니다. KwaiEnv 인프라가 수만 개 동시 샌드박스를 지원하고, Tree Training이 트리 궤적 중복 계산을 6.2배 줄입니다.

특히 주목할 점:

SWE-bench Verified 79.6% (Claude Opus 4.6 80.8%에 근접)
PinchBench 88.7 — GLM-5, MiniMax M2.7 상회
프론트엔드 미학 시나리오 3개 전부 1위

🎯 왜 이것이 게임 체인저인가? : 코딩 에이전트 = 하나의 모델에 모든 도메인 → 5개 전문가 독립 학습 후 증류 통합으로 각 영역 최고 성능

🔗 https://arxiv.org/abs/2603.27703

💡 “조명을 드래그하면 그림자가 진짜로 움직입니다”

LightMover: Generative Light Movement with Color and Intensity Controls

🏛️ 소속: Adobe

🏷️ 핵심 키워드: Light Manipulation, Video Diffusion Prior, Adaptive Token Pruning

💭 이런 질문을 해본 적 있나요?

이미 찍은 사진에서 조명 위치를 바꿀 수 있을까?
조명 이동 시 그림자·반사까지 물리적으로 정확하게 바꿀 수 있을까?
위치·색상·밝기를 독립적으로 제어할 수 있을까?

포토샵에서 조명을 바꾸려면 장면을 다시 렌더링해야 했습니다. LightMover는 비디오 디퓨전 사전지식을 활용해, 단일 이미지에서 조명 위치·색상·밝기를 독립적으로 조절하면서 반사·그림자·감쇠까지 물리적으로 정확하게 생성합니다. 적응형 토큰 프루닝으로 제어 시퀀스 길이를 41% 줄이면서도 편집 품질을 유지합니다.

특히 주목할 점:

조명 위치·색상·밝기를 독립적으로 정밀 제어 가능
적응형 토큰 프루닝으로 제어 시퀀스 41% 절감, 품질 유지
높은 PSNR + 강한 시맨틱 일관성(DINO, CLIP) 달성

🎯 왜 이것이 게임 체인저인가? : 단일 이미지 조명 편집 = 장면 재렌더링 필수 → 비디오 디퓨전 프라이어로 단일 뷰에서 물리 기반 조명 조작

🔗 https://arxiv.org/abs/2603.27209

매일 목요일 오전 8시,
바쁜 당신을 기술 발전에 뒤쳐지지 않게 만들어줄
최신 AI 트렌드 요약본이 전달됩니다! 🚀

📑Microsoft: “AI가 쓴 논문, 리뷰어도 몰랐다”

📈 최신 AI 트렌드 3줄 요약

⚡ “범용 드래프트는 사실 느립니다…”

🏥 “AI가 쓴 논문, 리뷰어도 몰랐다”

🚨 “AI 에이전트끼리 놔두면 담합을 한다고?”

🔍 “모르면 검색하고 그리자!”

🤖 “8B가 30B를 이겼다!”

🖐️ “야외 손 추적, 백팩 하나면 됩니다”

🧬 “신약 단백질, 두 방법 합치니 둘 다 이겼다!”

🧠 “작은 모델이 ’나 못하겠어’를 압니다”

💻 “SWE-bench 79.6%, Claude까지 1.2%”

💡 “조명을 드래그하면 그림자가 진짜로 움직입니다”

Keep Reading

Subscribe Now!