全54件の記事
Google I/O 2026でGemini 3.5 FlashがGA。Terminal-Bench 76.2%・MCP Atlas 83.6%で3.1 Proを上回り、Developer API価格は$1.50/$9。Antigravity 2.0とGemini Sparkでエージェント時代の幕が開いた1日を解説。
UCサンディエゴ校とコーネル大学が、13人の熟練エンジニアの現場観察と99人の調査から、プロのAIエージェント活用の実態を分析。プロは「バイブコーディング」をせず、計画と監督でAIを徹底的にコントロールしていた。
OpenAIはChatGPTの新デフォルトにGPT-5.5 Instant(幻覚52.5%減・回答30%短縮・パーソナライズ強化)を投入。並行してAPI版GPT-5.5本体はTerminal-Bench 82.7%・価格$5/$30。Claude Opus 4.7・Gemini 3.1 Proとの三つ巴を整理する。
Counterpoint調査でAnthropicがQ1 2026のLLM収益シェアでOpenAIを逆転(31.4% vs 29%)。ARRは$30B超に到達、Google最大$40B投資、$900B超評価額の交渉と、法人市場の主導権が動いた1週間を解説。
Anthropicが100万件のClaude会話を解析。人生相談は全体の6%、76%が健康・キャリア・人間関係・お金に集中。人間関係の相談ではシコファンシー率が25%に跳ね上がる構造と、Opus 4.7で半減させた手法を解説。
DeepSeekが2026年4月24日にV4-Pro/V4-Flashプレビュー版を公開。1.6兆MoE・100万トークン・SWE-bench Verified 80.6%を、現行75%オフで入力$0.435 / 出力$0.87(Claude Opus 4.7比 入力1/11.5・出力1/28.7)の破壊的価格で提供するMITライセンスモデルを解説。
2026年4月24日、デジタル庁がガバメントAI「源内」を原則MIT(一部ASL対象あり)+ CC BY 4.0でOSS公開。18万人政府職員向けAI基盤のWeb UI・AWS RAG・Azure LLMセルフデプロイ・Google Cloud法制度AIの構成を解説し、AWS Query Expansion RAGテンプレートの実デプロイ手順までガイド。
Anthropicが4月16日にClaude Opus 4.7の一般提供を開始。SWE-bench Proで64.3%を記録し、GPT-5.4とGemini 3.1 Proを抑えて同ベンチマークで首位に立った。
Meta Superintelligence Labsが2026年4月8日に「Muse Spark」を発表。frontier級主力モデルとして初の非オープンウェイトとしてHealthBench Hard 42.8でGPT-5.4(40.1)を上回る医療AI最強スコアを達成。思考圧縮技術でLlama 4比10倍の計算効率を実現。
Googleが2026年4月2日にGemma 4をApache 2.0ライセンスで公開。31BモデルはAIME 2026で89.2%を達成し自身の20倍のサイズのモデルを凌駕。MoE設計で3.8B有効パラメータながらArena AIオープンモデル6位を誇る革命的な小型LLM。
Anthropicが次世代モデル「Claude Mythos(Capybara)」の存在を非公開データストアの誤公開で漏洩。「どのAIモデルよりもサイバー能力が突出」と内部文書が警告。サイバーセキュリティ株が急落し、業界に衝撃が走った。
オープンソースAIエージェントOpenClawがGitHub 250,000スター超え。Jensen Huang が「AIのOS」と表現した一方、CVE-2026-25253や800件超の悪意スキルなどセキュリティ危機も深刻化。NVIDIAがGTC 2026でNemoClawを発表。