LLMでトピック抽出→分類
nishio.icon
Talk to the City TurboとGoogle Jigsaw Sensemakerは共通の「テキストからLLMでトピック抽出をし、それから各コメントがどのトピックであるかを分類する」という仕組みをもっている
どちらがオリジナルであるのか、それとも共通の祖先があるのか
GPT5.icon
結論だけ先に:公開情報ベースでは「仕組み(LLMで話題抽出→各発言を多ラベル分類)」は両者が独立に到達した一般パターンで、どちらかがもう一方の派生という証拠は見当たりません。プロジェクト公開の時系列だけを見ると、Talk to the City(TttC)本体の方が先行しており、その後にJigsaw SensemakerのOSSが登場しています。(AI • Objectives • Institute)
ざっくり時系列
2023-10-25:TttCがブログで、LLMで「主張を抽出→類似主張をクラスタ(トピック/サブトピック)化」する流れを公開。(AI • Objectives • Institute)
2025-01ごろ:JigsawがSensemakerのGitHubで「Topic Identification / Statement Categorization」を含むライブラリを公開(最初期のIssueは1/9)。(GitHub)
2025-02:Bowling Green市でSensemakerを初運用(メディアが「2月に導入」と明記)。(adweek.com)
2025-04:Sensemakerの事例記事が各所で報道。(techbrew.com)
それぞれの「仕組み」の明記
TttC/Turbo:ガイドに「Cluster Extraction」ノードでtopics / subtopicsを作り、OpenAIキーと組み合わせてパイプラインを構成と明記。(talktothecity.org)
Sensemaker:READMEにTopic IdentificationとStatement Categorizationをはっきり記述(Vertex AI/Gemini実装、スキーマ制約付きデコード等)。(GitHub)
「共通の祖先」は?
特定プロジェクト由来の「祖先」というより、LLMをアノテータとして使う話題抽出/分類という一般化した設計が2023〜24年に広まり、そこへPolis系の会話マッピングの系譜が接続された、と整理するのが妥当です(JigsawもPolisとの連携を公表)。研究文献でも2024年にLLMベースのトピック抽出パイプライン例が出ています。(Medium)
要するに:オリジナル争いというより収斂進化。公開時期で言えば「TttC(2013ではなく2023年10月公開記述)が先」「SensemakerのOSS公開は2025年初頭」という順です。(AI • Objectives • Institute)