国会議事録可視化

2025-03-06

人間の労力をどれくらいAIにアウトソースできるかの実験

初手DeepResearch

nishio.icon日本の国会議事録のデータを取得する方法を調べて。Pythonとかでできるかな？

アイデアを練るためにどのようなことが可能かざっくり知りたい

さらにDeepResearch

GETでJSONが得られるAPIは魅力的、特にキーワード検索は魅力的ですね。このAPIについてもっと詳しく調べましょう、過去にこのAPIを使って作られたものの情報を集めて「どのようなことが可能か」の描写をして

次にo3-high-mini

上記のログを読んで、特定のトピックに対する議論を後段で可視化するためにCSV形式のデータとして出力するスクリプトが欲しい。まずそれを作るために必要な情報をまとめて、足りない情報があれば質問して。「特定のトピック」を選ぶ方法は議題や発言に対するキーワード検索で、後段ではLLMを使ったembeddingをするので発言データがメインになる。会話の流れや追加的分析が可能な属性データ(発言者や政党)もCSVの追加フィールドにあるといいですね。

さらにo3-high-mini

複数キーワードはOR検索、argparseで取得して、期間指定は確かに大事だね。まず短いのをデフォルトにして、数が少ない時だけ段々広くして試そう。

CSVの発言IDはcomment-idという名前で整数値、comment-bodyで発言テキスト。残りの名前は適当でいいです。

ファイル名/保存場所: defaultつきでargparseして

エンコーディング: BOMなしUTF-8

区切り文字: カンマ区切り

エラーハンドリング: エラーは即死でOK

データクレンジング: 一旦なしで。動くものを作ってから観察します

これで作れる？作れるなら作って。

https://chatgpt.com/share/67c9b1cb-3c14-8011-b4d8-7efe11d804af

生成されたスクリプトを適当に実行してみる

キーワード '所得控除' で検索中...

JSONパースに失敗しました

ダメじゃん

このログをDevinに渡して実装してもらう

ChatGPTのログは直接読めないんだそうだ、コピペで渡した

まず「国会会議録APIはXML形式でデータを返す」と言いながらXMLをパースするスタイルで実装した

nishio.iconJSONにできないの？

JSONにできないの？と聞いたらドキュメントを確認してパラメータを変更した

nishio.iconキーワード「所得控除」で1000件くらい集まる期間設定ができるか試してみて

Devin.iconJSON形式のサポートが正常に動作していることを確認し、キーワード「所得控除」でのデータ取得を試みた結果、846件のレコードが取得されました。目標の1000件には達していないため、さらに期間を広げて再度試すことにしました。

できた

nishio.iconXML形式をサポートする必要はない、スクリプトをシンプルにして

devin.icon

テスト結果

簡略化したスクリプトで「所得控除」キーワードのテストを実行しました：

python3 kokkai_api.py --keywords "所得控除" --start-date "2006-01-01" --end-date "2023-12-31" --output "income_deduction.csv"

結果：

1058件のレコードを正常に取得できました

以前と同様の機能を維持しながら、コードがよりシンプルになりました

可視化に入れてみたがトラブル

→後段の可視化システムが要求するフィールドの情報を僕が間違えていた

3/7現在国会図書館の議事録サーチの最新データは2/19で、2週間程度の遅れがあるようだ

公開した

nishio/kokkai_api: 国会議事録API取得スクリプト