政策プルリク活用プロジェクト
2025-08-19
チームみらいクラスタ密度ソート
2025-08-06
チームみらい階層的クラスタリング
2025-08-04
20K件のデータをPolisに入れようとしたら大き過ぎてエラーになってしまった
1/10にサンプリングして入れた
PCAが1時間経っても終わらない
多分イテラティブな実装になっているから
2025-07-31
Colin Megillとの議論
nishio For Japanese: 日本人のために日本語でも投稿しておきます。
これは単にissuesのタイトルだけを使ったのではなく、本文全体やdiffなどのデータを使っています。LLMは、1つの全体データから、貢献者が知覚する0〜Nの問題意識を抽出し、それらを高次元空間に埋め込みます。
AIがユーザにインタビューする段階で、本当はどのような問題意識を感じているのかを深掘りしてデータ化すべきだったと私は考えています。今回はインタビューの時点ではそれをやらなかったので、事後的に得られたissuesの本文から推測しています。チャットログから推測する手もあると思います。コストが数倍になるであろうことと、そういう使い方をユーザに許諾とっていないことが懸念点ですね。ちなみに今回の実験では30USD掛かっています。
ColinからPolis2.0に入れたら面白いのではと言われて、確かにそれは面白そうだからやっていこうと思う
2025-07-30
チームみらい問題意識の広聴AI
2025-07-27
nishio チームみらいの政策提案リポジトリが参院選の終了に伴ってpublic archiveになったので、最後のデータ収集をかけました。ここの/prs/に全PRのデータが入っているはずです。何か分析してみた人がいたらぜひ教えてください
https://github.com/team-mirai-volunteer/pr-data/tree/main
各種分析ツールがここに入ってます
https://github.com/team-mirai-volunteer/policy-pr-hub
大元のリポジトリはここにあるので、足りない属性データなどあればこちらから取得してみてください、policy-pr-hubのコードは参考になるかも
https://github.com/team-mirai/policy
2025-07-26 policy repoがpublic archiveになった
=今後更新されなくなったのでデータ分析対象として扱いやすい
2025-05-30
https://github.com/team-mirai-volunteer/policy-pr-hub/blob/main/README.md
現状
5/16に公開した「話せるマニフェスト」(いどばた政策)がうまく動いて1700件以上の修正提案が集まった
このデータを活用してより良い政策づくりにつなげたい
当初 https://github.com/team-mirai/random で試行錯誤していた、今もここのGithub Actionsで動いている
これを整理して他の人もいじれるようにしたいが現状できていない
整理したものをここにおきたい
https://github.com/team-mirai-volunteer/policy-pr-hub