STATe-of-Thoughts: κ³ μμ€ μΆλ‘ ν¨ν΄μ νμνλ ν΄μ κ°λ₯ν Inference-Time-Compute λ°©λ². κΈ°μ‘΄ Tree-of-Thoughtsμ λ€μμ± λΆμ‘± λ¬Έμ λ₯Ό ꡬ쑰νλ μ‘μ
ν
νλ¦ΏμΌλ‘ ν΄κ²°νλ€.
17 sources
65 new posts
π AI λͺ¨λΈ λ²€μΉλ§ν¬
π₯ Terminal-Bench 2.0 (Top 5)
π Chatbot Arena ELO (Top 5)
Source: Chatbot Arena
π§ ARC-AGI-2 λ¬μ±λ₯
π€ 84.6% β Gemini 3 Deep Think (Google)
π§ Human Panel = 100% κΈ°μ€
Source: ARC Prize Leaderboard
β μ 체 보기
π
2026-02
μ΄ 65건 Β· νμ΄μ§ 2/4
μ€ννΈμ
μ λ§λλ μλ‘μ΄ λ°©λ²μ λν μμ.
Anthropic 곡μ κ³μ μ X(Twitter) ν¬μ€νΈ.
BlackRock λ리 νν¬μ λ©μμ§μ λν μμ.
SPILLage: LLM κΈ°λ° μΉ μμ΄μ νΈκ° μ¬μ©μ 리μμ€(μ΄λ©μΌ, μΊλ¦°λ λ±)λ₯Ό μ 3μμκ² κ³Όλνκ² κ³΅μ νλ μμ΄μ νΈ μ€λ²μ
°μ΄λ§ λ¬Έμ λ₯Ό 곡μννκ³ λΆμν μ°κ΅¬.
GPT-5.3-Codex-Spark 리μμΉ ν리뷰 μΆμ. GPT-5.3-Codexμ μν λ²μ μΌλ‘ μ€μκ° μ½λ©μ μν΄ μ€κ³λ μ΅μ΄μ λͺ¨λΈ.
Codexμ Soraμ μ¬μ©λμ΄ μλ μμμ μ΄κ³Όν¨μ λ°λΌ μλ μ νμ λμ΄ μ κ·Όμ±μ νλνλ€.
μ°κ΅¬μλ€μ΄ μ μ±μ λ°μ΄ν°λ₯Ό λΆμ κ°λ₯ν μμΉλ‘ λ³ννλ μλ‘μ΄ λꡬ μκ°. κ³Όνμλ€μ΄ λ λΉ λ₯΄κ² μ΄λνκ³ λ μ΄λ €μ΄ λ¬Έμ λ₯Ό ν΄κ²°ν μ μλλ‘ μ§μνλ€.
3B νλΌλ―Έν°λ§μΌλ‘ μμ΄μ νΈ νλ, μ½λ μμ±, μΌλ° μΆλ‘ μ λμμ λ¬μ±νλ ν΅ν© λ²μ© μΈμ΄ λͺ¨λΈ Nanbeige4.1-3B λ°ν. μ΅μ΄μ μ€νμμ€ μν μΈμ΄ λͺ¨λΈ(SLM)λ‘μ μ΄λ¬ν λ€μ¬λ€λ₯ν¨μ μ€ννλ€.
Codexμ Claudeλ₯Ό νμ©ν 컀μ€ν
컀λ κ°λ°μ λ―Όμ£Όν. μ€νμμ€μ μ€ν μ¬μ΄μΈμ€λ₯Ό ν΅ν΄ AIλ₯Ό λ°μ μν€κ³ λμ€ννλ μ¬μ .
ChatGPTμ Lockdown Modeμ Elevated Risk λΌλ²¨ λμ
. AI μμ€ν
μ΄ μΉκ³Ό μ°κ²°λ μ±μμ 볡μ‘ν μμ
μ μννλ©΄μ prompt injection 곡격 λ± λ³΄μ μνμ΄ μ¦κ°νκ³ μλ€.
OpenAI Developers 곡μ κ³μ μ X(Twitter) ν¬μ€νΈ.
Google Gemini 곡μ κ³μ μ X(Twitter) ν¬μ€νΈ.
리콴μ κ° λ§νλ μ±κ°ν¬λ₯΄ μ±κ³΅ λΉκ²° μμ.
26.02.12
Hugging Face Blog
OpenEnv in Practice: Evaluating Tool-Using Agents in Real-World Environments
OpenEnv: μ€μ νκ²½μμ λꡬ μ¬μ© μμ΄μ νΈλ₯Ό νκ°νλ μ°κ΅¬. μ€νμμ€μ μ€ν μ¬μ΄μΈμ€λ₯Ό ν΅ν AI λ°μ .
μμ΄μ νΈ νΌμ€νΈ μΈκ³μμ Codexλ₯Ό νμ©ν΄ μλ μμ± μ½λ 0μ€λ‘ μννΈμ¨μ΄ μ νμ λ΄λΆ λ² νλ₯Ό ꡬμΆνκ³ μΆμν μ¬λ‘.
Gemini 3 Deep Thinkκ° μ΅μ²¨λ¨ μΆλ‘ λ₯λ ₯μΌλ‘ κ³Όν, μ°κ΅¬, μμ§λμ΄λ§ λΆμΌμ λ°μ μ κ°μννλ€.
a16z νμΈν°λ·°: 1μκ° λ³Όλ§ν κ°μΉκ° μλ λλ΄.
ChatGPTμ κ΄κ³ ν
μ€νΈ μμ. λ―Έκ΅ λ΄ Free λ° Go ν°μ΄μ λ‘κ·ΈμΈ μ±μΈ μ¬μ©μ λμ. Plus, Pro, Business, Enterprise, Education ν°μ΄μλ κ΄κ³ κ° νμλμ§ μλλ€.
26.02.11
HF Daily Papers
DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories
DeepImageSearch: μκ°μ νμ€ν 리μμ 컨ν
μ€νΈ μΈμ μ΄λ―Έμ§ κ²μμ μν λ©ν°λͺ¨λ¬ μμ΄μ νΈ λ²€μΉλ§ν¬. μ΄λ―Έμ§ κ²μμ μμ¨ νμ κ³Όμ λ‘ μ¬μ μνλ μλ‘μ΄ μμ΄μ νΈ ν¨λ¬λ€μμ μ μνλ€.