AI Digest by Angtiger — 2025-12-09

2026-02-17 22:41 KST · by Angtiger · 매일 10:00 KST 업데이트

5 sources

1 new posts

🔍 검색 · · · 📧 무료구독

📧 무료구독하기

🏆 AI 모델 벤치마크

▼

🖥️ Terminal-Bench 2.0 (Top 5)

Source: OpenAI, Anthropic, Terminal-Bench

🏆 Chatbot Arena ELO (Top 5)

Source: Chatbot Arena

🧠 ARC-AGI-2 달성률

84.6%

🤖 84.6% — Gemini 3 Deep Think (Google) 🧑 Human Panel = 100% 기준

Source: ARC Prize Leaderboard

← 전체 보기 📂 Company News× 📅 2025-12-09×

총 1건

25.12.09 Google DeepMind FACTS Benchmark Suite: Systematically evaluating the factuality of large language models

▲ 0

FACTS Benchmark Suite: LLM의 사실성을 매개변수, 검색, 멀티모달 추론 3개 영역에서 체계적으로 평가하는 벤치마크.