AIが書く記事の品質をどう担保するか——ファクトチェックと自動修正ループの話

AIが書く記事の品質をどう担保するか

第2話では、launchdに登録して毎朝5時に自動起動するまでの格闘を話しました。自動化は完成した。でも次の問題はすぐに来ました。

毎日記事が生成される。でも、その記事は本当に正しいのか。

AIは自信満々に間違える

最初は信じていた

最初のうちは、Geminiが書いた記事をそのまま信じていました。文章はきれいだし、構成も論理的。読んでいて違和感がない。だから「大丈夫だろう」と思っていました。

あるとき、自分が詳しいツールについての記事が生成されました。読んでいると、知っている内容と微妙にずれていることに気づきました。数字が古い。機能の説明が一世代前のもの。でも文章のトーンはまるで最新情報を断言しているかのようです。

AIが「存在しない」と言ったもの

もっと印象的な出来事がありました。記事生成に使っている画像生成AIのモデル(Nano Banana 2)について、Navに確認を頼みました。

Nav 「Nano Banana 2」というモデルは確認できません。存在しないモデル名の可能性があります。
でも今まさにそのモデルで画像を生成してるんだけど
Nav ……調査し直します。Nano Banana 2は2026年2月27日にリリースされたGoogle製の画像生成AIです。私の知識カットオフ(2025年8月)より後のリリースのため、「存在しない」と誤判断していました。申し訳ありません。

AIは知らないことを「存在しない」と断言します。自信満々に。これが一番厄介でした。

ファクトチェックエージェントを作った

Google検索で事実確認する

対策として、記事執筆の後にファクトチェック(FC)エージェントを追加しました。Geminiに記事全文を渡して、Google検索グラウンディングで事実確認させます。

  • 数字・料金・リリース日などの具体的な情報を検証
  • 最新の公式情報と照合して、古い・誤った記述を検出
  • 問題なし/要確認のどちらかでラベルを付けて報告

「報告」と「修正」は別の話

FCエージェントが問題を検出したとき、最初は「そのまま自動で修正させよう」と考えていました。問題があれば直す、当然の発想です。

ここで思わぬ壁にぶつかりました。

自動修正ループが終わらなかった

マーケティングと正確性の永遠の対立

FCが「この表現は根拠が不明確です」と指摘します。執筆エージェントが修正します。FCがまた「修正後の表現も不正確です」と指摘します。また修正します。

Nav 「月額料金は最安で3,000円〜」という記述が不正確です。公式サイトでは変更されている可能性があります。修正を推奨します。
Nav (修正後)「月額料金は最安で3,000円〜と言われていますが、最新の料金は公式サイトをご確認ください」に変更しました。
Nav 「最安で3,000円〜と言われていますが」という表現は根拠が不明確です。再修正を推奨します。

これが延々と続きます。マーケティング的な表現(断定・訴求力)と、技術的な正確性(根拠・留保)は、根本的に相容れません。どちらに修正しても、もう一方の観点から「不正確」と判断される。ループが終わりません。

設計を変えた判断

ループを止めたのは、設計を根本から変えたからです。

FCは「修正しない」。報告するだけ。

修正するかどうかは、自分が判断します。それがFC設計の結論でした。

「報告するだけ」が正解だった

重大度で判断を変える

FCが検出した問題をすべて同じように扱う必要はありません。翌朝、/morningコマンドでNavがブリーフィングするとき、FCレポートも一緒に報告されます。

ファクトチェック結果:「APIの料金が旧バージョンの数値です。現在は値上がりしている可能性があります」——重大度:高。公開前に要確認です。

料金の誤りは重大です。公開前に必ず確認します。一方、「この機能は現在ベータ版ですが、将来的に正式リリース予定です」という将来予測の記述は、多少古くても致命的ではない。重大度によって対処を変えます。

AIへの指示は「やってほしくないこと」を明示する

この経験から学んだことがあります。AIへの指示は「やってほしいこと」だけでは足りない。「やってほしくないこと」を明示しないと、AIは想定外の動作をします。

「FCが問題を発見したら修正してください」という指示は、修正ループを暗黙的に許可しています。「FCは報告するだけ。修正はしない」と明示して初めて、ループが止まりました。

今のFC運用

現在のフローはこうなっています。

  1. 執筆エージェントが記事を書く
  2. FCエージェントがGoogle検索で事実確認して「問題なし」か「要確認」のラベルを付ける
  3. Nav判断エージェントが重大度を評価して、オーナー向けの報告文を生成する
  4. 翌朝、/morningのブリーフィングで自分が確認する
  5. 重大度が高ければ公開前に修正。低ければそのまま公開

FCの精度は100%ではありません。「問題なし」と出ても微妙な表現が残ることはあります。「要確認」と出ても、実は問題なかったこともあります。でも「見逃す可能性があることを知っている」のと「チェックしていない」は全く違います。

FCがあることで、自分が確認すべきポイントが明確になります。それだけで十分でした。

第3話のまとめ

  • AIは知らないことを「存在しない」と自信満々に断言する。知識カットオフ以降の情報は特に注意が必要
  • 自動修正ループはマーケティング表現と技術的正確性の対立で永遠に終わらない
  • FCは「報告するだけ」が正解。修正の判断は人間がする
  • AIへの指示は「やってほしくないこと」を明示しないと想定外の動作をする
  • 重大度で対処を変える。すべての指摘を同等に扱う必要はない

次回は、このシステムが稼働してしばらく経ってから起きたこと——AIが公開済みの記事を勝手にリライトした事件について話します。