他力code
Blog
ブログ記事一覧

カテゴリで絞り込み

タグ

全47件の記事

Claude Opus 4.7が王座奪還:SWE-bench Pro 64.3%でGPT-5.4とGemini 3.1 Proを撃破

Anthropicが4月16日にClaude Opus 4.7の一般提供を開始。SWE-bench Proで64.3%を記録し、GPT-5.4とGemini 3.1 Proを抑えて同ベンチマークで首位に立った。

続きを読む

MetaがAI競争に本格参戦──新世代主力モデル「Muse Spark」は初の非オープンウェイト、医療HealthBench 42.8でGPT-5.4超えの衝撃

Meta Superintelligence Labsが2026年4月8日に「Muse Spark」を発表。frontier級主力モデルとして初の非オープンウェイトとしてHealthBench Hard 42.8でGPT-5.4(40.1)を上回る医療AI最強スコアを達成。思考圧縮技術でLlama 4比10倍の計算効率を実現。

続きを読む

Google Gemma 4登場:Apache 2.0で商用利用の自由度が大幅拡大、20倍大きなモデルを超える数学力89%の衝撃

Googleが2026年4月2日にGemma 4をApache 2.0ライセンスで公開。31BモデルはAIME 2026で89.2%を達成し自身の20倍のサイズのモデルを凌駕。MoE設計で3.8B有効パラメータながらArena AIオープンモデル6位を誇る革命的な小型LLM。

続きを読む

Anthropic「Claude Mythos / Capybara」誤リーク:史上最強サイバー能力でAI安全保障に激震、株式市場も動揺

Anthropicが次世代モデル「Claude Mythos(Capybara)」の存在を非公開データストアの誤公開で漏洩。「どのAIモデルよりもサイバー能力が突出」と内部文書が警告。サイバーセキュリティ株が急落し、業界に衝撃が走った。

続きを読む

OpenClawが「AIのLinux」へ──250,000スター超で史上最速バイラル、NVIDIA GTC 2026でNemoClaw企業版を発表も深刻なセキュリティ危機

オープンソースAIエージェントOpenClawがGitHub 250,000スター超え。Jensen Huang が「AIのOS」と表現した一方、CVE-2026-25253や800件超の悪意スキルなどセキュリティ危機も深刻化。NVIDIAがGTC 2026でNemoClawを発表。

続きを読む

謎のモデル「Hunter Alpha」の正体はXiaomi──1兆パラメータのMiMo-V2-Proが公開、エージェントベンチマークでClaude Opus 4.6に迫るコスト破壊

Xiaomiが1兆パラメータのMiMo-V2-ProをOpenRouterに掲載。ClawEval 61.5でClaude Opus 4.6(66.3)に肉薄しGPT-5.2(50.0)を超える性能をGPT-5.2の約15%のコストで実現。提携フレームワーク経由で1週間の無料API提供も。

続きを読む

Research Insight | 同じデータなのに結論が真逆になる──AIが「正当な分析だけ」で好きな結論を作れる理由

同一データを自律型AIアナリストに分析させると、ペルソナ設定だけで「仮説支持率」が最大66ポイント変動することをAmazon AWSとCMUの研究チームが大規模実験で実証した論文を解説。

続きを読む

AI倫理 vs. 国防総省:AnthropicがDODを提訴した歴史的対決

自律兵器・大量監視へのClaude使用を拒否したAnthropicが、ペンタゴンの「サプライチェーンリスク」指定に対し提訴。OpenAI・Google社員30名超が支持声明を発表した歴史的対決。

続きを読む

OpenAI GPT-5.4登場:PC操作で人間を超え75%、Excel統合で金融AIが新次元へ

OpenAIが3月5日にGPT-5.4を発表。OSWorld-Verifiedで75%を記録しComputer Use機能を初搭載。ChatGPT for Excelベータ開始・Google Sheets対応予定など金融業務AIが新次元へ突入した。

続きを読む

Google Gemini 3.1 Pro:ARC-AGI-2で77.1%達成、1世代で推論能力2.5倍の衝撃

Google DeepMindが2026年2月19日にリリースしたGemini 3.1 Proは、ARC-AGI-2で77.1%を達成し前世代比2.5倍の推論向上を実現。Claude Opus 4.6(68.8%)を大きく超え、価格は7倍安い。

続きを読む

Research Insight | AIはスキル習得を妨げるのか:Anthropicによる無作為化比較試験の衝撃的な結果

AnthropicのShen・Tamkinによる実験的研究。52名の開発者を対象としたRCTで、AIアシスタントを使用したグループの学習テストスコアが17%(Cohen's d=0.738)低下すると判明。高スコアグループと低スコアグループでAIの使い方に大きな差が見られた。

続きを読む

India AI Impact Summit 2026完全レポート:86か国・2国際機関が「ニューデリー宣言」採択、Googleが最大$150億規模の計画を表明

86か国・2国際機関がニューデリー宣言を採択、Google最大$150億規模計画・OpenAI×Tata参入。2035年GDP+$6000億予測、小学3年AI必修化など、インドの今後10年の教育・ビジネス変革を考察。

続きを読む