他力code
Blog
ブログ記事一覧

カテゴリで絞り込み

タグ

全6件の記事

LiveBench入門:毎月更新×客観採点で「汚染」に強いLLM評価を回す

テスト汚染への対策として、最新ソース由来の新問を月次追加し、唯一解で自動採点するLiveBench。設計思想・読み解き方・最短導入手順を1ページで整理。

続きを読む

AIと作る解答速報(R7秋PM-午後I問1)

令和7年度秋期情報処理技術者試験、プロジェクトマネージャーの解答速報をGPT-5とディベートして作ってみました。(午後Ⅰ問1)

続きを読む

AIと作る解答速報(R7秋PM-午後I問2)

令和7年度秋期情報処理技術者試験、プロジェクトマネージャーの解答速報をGPT-5とディベートして作ってみました。(午後Ⅰ問2)

続きを読む

Gemini 2.5 Computer Use:UI操作エージェントを最短で試す

スクショ+履歴からクリック/入力を生成するGemini 2.5 Computer Useの最短パターン。5分で動く骨格コードと、安全に回すための基本ループを図解します。

続きを読む

「約250文書で汚染」への実務対策:前処理/学習中/本番で守る

小さな毒データでもバックドア化し得る最新知見に対して、最小の検知スクリプトと監視クエリを提示。パイプライン全体像はMermaidで一目。

続きを読む

Sora2時代の権利セーフティ:許諾・分配・証跡の3点セット

炎上を避けつつスピードを落とさない基本形。許諾テンプレ、分配ルール、生成ログの最小フォーマットをまとめました。

続きを読む