他力code
Blog
ブログ記事一覧

カテゴリで絞り込み

タグ

全54件の記事

Google I/O 2026:Gemini 3.5 Flashが3.1 Proをベンチで凌駕、Antigravity 2.0でエージェント時代が本格化

Google I/O 2026でGemini 3.5 FlashがGA。Terminal-Bench 76.2%・MCP Atlas 83.6%で3.1 Proを上回り、Developer API価格は$1.50/$9。Antigravity 2.0とGemini Sparkでエージェント時代の幕が開いた1日を解説。

続きを読む

Research Insight | プロの開発者は「バイブ」せず「コントロール」する:2025年のAIエージェント実態調査

UCサンディエゴ校とコーネル大学が、13人の熟練エンジニアの現場観察と99人の調査から、プロのAIエージェント活用の実態を分析。プロは「バイブコーディング」をせず、計画と監督でAIを徹底的にコントロールしていた。

続きを読む

GPT-5.5 InstantがChatGPTの新デフォルトに:幻覚52.5%減・回答30%短縮

OpenAIはChatGPTの新デフォルトにGPT-5.5 Instant(幻覚52.5%減・回答30%短縮・パーソナライズ強化)を投入。並行してAPI版GPT-5.5本体はTerminal-Bench 82.7%・価格$5/$30。Claude Opus 4.7・Gemini 3.1 Proとの三つ巴を整理する。

続きを読む

Anthropic、LLM収益でOpenAIを逆転:Q1 2026で31.4%、評価額9,000億ドル交渉も視野に

Counterpoint調査でAnthropicがQ1 2026のLLM収益シェアでOpenAIを逆転(31.4% vs 29%)。ARRは$30B超に到達、Google最大$40B投資、$900B超評価額の交渉と、法人市場の主導権が動いた1週間を解説。

続きを読む

Research Insight | 人々はClaudeに何を相談しているのか:100万会話で見えた「AIが迎合しやすい場面」

Anthropicが100万件のClaude会話を解析。人生相談は全体の6%、76%が健康・キャリア・人間関係・お金に集中。人間関係の相談ではシコファンシー率が25%に跳ね上がる構造と、Opus 4.7で半減させた手法を解説。

続きを読む

DeepSeek V4の価格破壊:1.6兆パラメータMoE×100万トークン、75%オフ中は出力でOpus比約1/29、SWE-bench Verified 80.6%の衝撃

DeepSeekが2026年4月24日にV4-Pro/V4-Flashプレビュー版を公開。1.6兆MoE・100万トークン・SWE-bench Verified 80.6%を、現行75%オフで入力$0.435 / 出力$0.87(Claude Opus 4.7比 入力1/11.5・出力1/28.7)の破壊的価格で提供するMITライセンスモデルを解説。

続きを読む

デジタル庁ガバメントAI「源内」がOSS公開:18万人政府職員基盤の中身とAWS RAGテンプレートのCDKデプロイ手順

2026年4月24日、デジタル庁がガバメントAI「源内」を原則MIT(一部ASL対象あり)+ CC BY 4.0でOSS公開。18万人政府職員向けAI基盤のWeb UI・AWS RAG・Azure LLMセルフデプロイ・Google Cloud法制度AIの構成を解説し、AWS Query Expansion RAGテンプレートの実デプロイ手順までガイド。

続きを読む

Claude Opus 4.7が王座奪還:SWE-bench Pro 64.3%でGPT-5.4とGemini 3.1 Proを撃破

Anthropicが4月16日にClaude Opus 4.7の一般提供を開始。SWE-bench Proで64.3%を記録し、GPT-5.4とGemini 3.1 Proを抑えて同ベンチマークで首位に立った。

続きを読む

MetaがAI競争に本格参戦──新世代主力モデル「Muse Spark」は初の非オープンウェイト、医療HealthBench 42.8でGPT-5.4超えの衝撃

Meta Superintelligence Labsが2026年4月8日に「Muse Spark」を発表。frontier級主力モデルとして初の非オープンウェイトとしてHealthBench Hard 42.8でGPT-5.4(40.1)を上回る医療AI最強スコアを達成。思考圧縮技術でLlama 4比10倍の計算効率を実現。

続きを読む

Google Gemma 4登場:Apache 2.0で商用利用の自由度が大幅拡大、20倍大きなモデルを超える数学力89%の衝撃

Googleが2026年4月2日にGemma 4をApache 2.0ライセンスで公開。31BモデルはAIME 2026で89.2%を達成し自身の20倍のサイズのモデルを凌駕。MoE設計で3.8B有効パラメータながらArena AIオープンモデル6位を誇る革命的な小型LLM。

続きを読む

Anthropic「Claude Mythos / Capybara」誤リーク:史上最強サイバー能力でAI安全保障に激震、株式市場も動揺

Anthropicが次世代モデル「Claude Mythos(Capybara)」の存在を非公開データストアの誤公開で漏洩。「どのAIモデルよりもサイバー能力が突出」と内部文書が警告。サイバーセキュリティ株が急落し、業界に衝撃が走った。

続きを読む

OpenClawが「AIのLinux」へ──250,000スター超で史上最速バイラル、NVIDIA GTC 2026でNemoClaw企業版を発表も深刻なセキュリティ危機

オープンソースAIエージェントOpenClawがGitHub 250,000スター超え。Jensen Huang が「AIのOS」と表現した一方、CVE-2026-25253や800件超の悪意スキルなどセキュリティ危機も深刻化。NVIDIAがGTC 2026でNemoClawを発表。

続きを読む