他力code
Blog
ブログ記事一覧

カテゴリで絞り込み

タグ

全57件の記事

Claude Fable 5登場:SWE-Bench Pro 80.3%でOpus 4.8に+11.1pt、「Mythos級」AIが安全分類器つきで一般公開へ

Anthropicが2026年6月9日、Mythos級の能力を持つClaude Fable 5を一般公開。SWE-Bench Pro 80.3%でOpus 4.8を11.1pt上回り、価格は$10/$50。高リスク判定時はrefusalを返しフォールバック設定でOpus 4.8に回せる安全設計を解説する。

続きを読む

Microsoftが自社AI「MAI」7モデルを公開:MAI-Code-1-FlashがHaiku 4.5をSWE-Bench Proで+16pt、脱OpenAI依存が本格化

MicrosoftがBuild 2026で自社開発AI「MAI」7モデルを発表。コーディング用MAI-Code-1-FlashはSWE-Bench ProでHaiku 4.5を+16pt上回り最大60%トークン削減。GPT依存を脱する自前知能戦略を解説。

続きを読む

Claude Opus 4.8 がエージェント新王者へ:SWE-Bench Pro 69.2%、Fast Mode 3倍安、Dynamic Workflowsで並列サブエージェント時代

Anthropicが2026年5月28日にClaude Opus 4.8を公開。SWE-Bench Pro 69.2%を達成しFast Modeは3倍安価に。Dynamic Workflowsで数百のサブエージェントを並列実行する新時代の幕開け。

続きを読む

Google I/O 2026:Gemini 3.5 Flashが3.1 Proをベンチで凌駕、Antigravity 2.0でエージェント時代が本格化

Google I/O 2026でGemini 3.5 FlashがGA。Terminal-Bench 76.2%・MCP Atlas 83.6%で3.1 Proを上回り、Developer API価格は$1.50/$9。Antigravity 2.0とGemini Sparkでエージェント時代の幕が開いた1日を解説。

続きを読む

Research Insight | プロの開発者は「バイブ」せず「コントロール」する:2025年のAIエージェント実態調査

UCサンディエゴ校とコーネル大学が、13人の熟練エンジニアの現場観察と99人の調査から、プロのAIエージェント活用の実態を分析。プロは「バイブコーディング」をせず、計画と監督でAIを徹底的にコントロールしていた。

続きを読む

GPT-5.5 InstantがChatGPTの新デフォルトに:幻覚52.5%減・回答30%短縮

OpenAIはChatGPTの新デフォルトにGPT-5.5 Instant(幻覚52.5%減・回答30%短縮・パーソナライズ強化)を投入。並行してAPI版GPT-5.5本体はTerminal-Bench 82.7%・価格$5/$30。Claude Opus 4.7・Gemini 3.1 Proとの三つ巴を整理する。

続きを読む

Anthropic、LLM収益でOpenAIを逆転:Q1 2026で31.4%、評価額9,000億ドル交渉も視野に

Counterpoint調査でAnthropicがQ1 2026のLLM収益シェアでOpenAIを逆転(31.4% vs 29%)。ARRは$30B超に到達、Google最大$40B投資、$900B超評価額の交渉と、法人市場の主導権が動いた1週間を解説。

続きを読む

Research Insight | 人々はClaudeに何を相談しているのか:100万会話で見えた「AIが迎合しやすい場面」

Anthropicが100万件のClaude会話を解析。人生相談は全体の6%、76%が健康・キャリア・人間関係・お金に集中。人間関係の相談ではシコファンシー率が25%に跳ね上がる構造と、Opus 4.7で半減させた手法を解説。

続きを読む

DeepSeek V4の価格破壊:1.6兆パラメータMoE×100万トークン、75%オフ中は出力でOpus比約1/29、SWE-bench Verified 80.6%の衝撃

DeepSeekが2026年4月24日にV4-Pro/V4-Flashプレビュー版を公開。1.6兆MoE・100万トークン・SWE-bench Verified 80.6%を、現行75%オフで入力$0.435 / 出力$0.87(Claude Opus 4.7比 入力1/11.5・出力1/28.7)の破壊的価格で提供するMITライセンスモデルを解説。

続きを読む

デジタル庁ガバメントAI「源内」がOSS公開:18万人政府職員基盤の中身とAWS RAGテンプレートのCDKデプロイ手順

2026年4月24日、デジタル庁がガバメントAI「源内」を原則MIT(一部ASL対象あり)+ CC BY 4.0でOSS公開。18万人政府職員向けAI基盤のWeb UI・AWS RAG・Azure LLMセルフデプロイ・Google Cloud法制度AIの構成を解説し、AWS Query Expansion RAGテンプレートの実デプロイ手順までガイド。

続きを読む

Claude Opus 4.7が王座奪還:SWE-bench Pro 64.3%でGPT-5.4とGemini 3.1 Proを撃破

Anthropicが4月16日にClaude Opus 4.7の一般提供を開始。SWE-bench Proで64.3%を記録し、GPT-5.4とGemini 3.1 Proを抑えて同ベンチマークで首位に立った。

続きを読む

MetaがAI競争に本格参戦──新世代主力モデル「Muse Spark」は初の非オープンウェイト、医療HealthBench 42.8でGPT-5.4超えの衝撃

Meta Superintelligence Labsが2026年4月8日に「Muse Spark」を発表。frontier級主力モデルとして初の非オープンウェイトとしてHealthBench Hard 42.8でGPT-5.4(40.1)を上回る医療AI最強スコアを達成。思考圧縮技術でLlama 4比10倍の計算効率を実現。

続きを読む