国会議事録可視化
2025-03-06
人間の労力をどれくらいAIにアウトソースできるかの実験
初手DeepResearch
nishio.icon日本の国会議事録のデータを取得する方法を調べて。Pythonとかでできるかな?
アイデアを練るためにどのようなことが可能かざっくり知りたい
さらにDeepResearch
GETでJSONが得られるAPIは魅力的、特にキーワード検索は魅力的ですね。このAPIについてもっと詳しく調べましょう、過去にこのAPIを使って作られたものの情報を集めて「どのようなことが可能か」の描写をして
次にo3-high-mini
上記のログを読んで、特定のトピックに対する議論を後段で可視化するためにCSV形式のデータとして出力するスクリプトが欲しい。まずそれを作るために必要な情報をまとめて、足りない情報があれば質問して。「特定のトピック」を選ぶ方法は議題や発言に対するキーワード検索で、後段ではLLMを使ったembeddingをするので発言データがメインになる。会話の流れや追加的分析が可能な属性データ(発言者や政党)もCSVの追加フィールドにあるといいですね。
さらにo3-high-mini
複数キーワードはOR検索、argparseで取得して、期間指定は確かに大事だね。まず短いのをデフォルトにして、数が少ない時だけ段々広くして試そう。
CSVの発言IDはcomment-idという名前で整数値、comment-bodyで発言テキスト。残りの名前は適当でいいです。
ファイル名/保存場所: defaultつきでargparseして
エンコーディング: BOMなしUTF-8
区切り文字: カンマ区切り
エラーハンドリング: エラーは即死でOK
データクレンジング: 一旦なしで。動くものを作ってから観察します
これで作れる?作れるなら作って。
生成されたスクリプトを適当に実行してみる
キーワード '所得控除' で検索中...
<data><numberOfRecords>0</numberOfRecords><numberOfReturn>0</numberOfReturn><startRecord>1</startRecord></data>
JSONパースに失敗しました
ダメじゃん
このログをDevinに渡して実装してもらう
ChatGPTのログは直接読めないんだそうだ、コピペで渡した
まず「国会会議録APIはXML形式でデータを返す」と言いながらXMLをパースするスタイルで実装した
nishio.iconJSONにできないの?
JSONにできないの?と聞いたらドキュメントを確認してパラメータを変更した
nishio.iconキーワード「所得控除」で1000件くらい集まる期間設定ができるか試してみて
Devin.iconJSON形式のサポートが正常に動作していることを確認し、キーワード「所得控除」でのデータ取得を試みた結果、846件のレコードが取得されました。目標の1000件には達していないため、さらに期間を広げて再度試すことにしました。
できた
nishio.iconXML形式をサポートする必要はない、スクリプトをシンプルにして
devin.icon
テスト結果
簡略化したスクリプトで「所得控除」キーワードのテストを実行しました:
python3 kokkai_api.py --keywords "所得控除" --start-date "2006-01-01" --end-date "2023-12-31" --output "income_deduction.csv"
結果:
1058件のレコードを正常に取得できました
以前と同様の機能を維持しながら、コードがよりシンプルになりました
可視化に入れてみたがトラブル
→後段の可視化システムが要求するフィールドの情報を僕が間違えていた
3/7現在国会図書館の議事録サーチの最新データは2/19で、2週間程度の遅れがあるようだ
公開した