言語モデルによる心理的構成概念の再構成

public.icon

言語モデルによる心理的構成概念の再構成

意味とベクトル空間の関係

論文

https://osf.io/nsqba/

Hiro Taiyo Hamada.icon埋め込みモデルも悪くない意味の関係とベクトル空間の関係はそれなりに対応がありそうでした。

ただLLM系はベクトル空間をプロントで制約をかけることができると思うのですが、

お金が掛かるので埋め込みモデルが普段使いには良さそうという感じでした！

概要

言語モデルを活用し, 学術的研究を加速させる取り組みが行われている.

心理学では, 言語モデルが特定の被験者群の回答を模倣できるか,

またモデル自身の心理学的バイアスを検証する研究が行われている.

これらの出力を言語モデルが可能な理由の一つとして, 言語モデルが概念間の関係性を学習している可能性がある.

本研究では、GPT-4を含む言語モデルによって, 質問項目から概念のカテゴリー分類の再構成が可能かどうかを検証した. 複数の言語モデルを用いて心理学的質問紙の項目間の類似度を計算し, 概念のカテゴリー分類性能を比較した.

実験結果は、GPT-4が最も高い分類性能を示し,言語モデルが心理学的概念間の関係性を保持している可能性を示唆している

手法

GPT-3.5やGPT-4などの言語モデルを用いて, 43の心理学的質問紙の質問項目から類似度を計算

類似度に基づいた分類と質問紙に付与されている構成概念のラベルとの一致度を測ることで,

モデルの分類性能を比較する.

これにより, 言語モデルが心理学的概念間の関係性を保持している可能性について検証

心理学的質問紙,

人の行動から観察可能な現象を説明する構成概念に基づいて作成されている.

この構成概念に基づいて質問項目が作成されており, それぞれの質問項目には構成概念のラベルが割り振られている

文章間の類似度算出

単語分散表現

文章を構成する単語を全て低次元ベクトルに変換する単語分散表現モデル

例

word2Vec

大規模なテキストコーパスを用いて、各単語を固定長のベクトルとして表現

BERT(Bidirectional Encoder Representations from Transformers)

transformerのエンコーダーを利用、文脈に基づいて単語の意味を動的に調整

文章分散表現

文章間の類似度を算出する方法

単語ではなく文自体を直接ベクトル化する文書分散表現

sentenceBERT

通常のBERTは, 単語の分散表現から文章レベルの表現を行う一方で, 文章自体のベクトル化に最適化されていない.文章のベクトル化を直接的に行う

Universal Sentence Encoder

テキスト埋め込みモデル(“text-embedding-ada-002”)

文章分散表現を利用していると考えられている.

分散表現で得られたベクトルに対しコサイン類似度を計算することで, 単語間や文章間の類似度とする

OpenAIが提供

Miyabi.iconhttps://platform.openai.com/docs/guides/embeddings

https://note.com/npaka/n/n8f410f178f75

https://gyazo.com/16560fd8284b35d492f823de6aba5e7f

本研究では, 言語モデルを利用して,

構成概念に基づいた心理学的質問紙の項目からカテゴリー分類の再構成が可能かを検証した.

データセット

心理学的質問紙データベース”Psychological Scales”iより, 文章で構成されている質問項目数30以下の英文質問紙を43個抽出する. それぞれの質問紙は, “好奇心”, “自己効力感”, “不安”などの構成概念より作成されており, 下位のカテゴリーを2以上6以下包含

https://gyazo.com/59a17d914d686d4bc0baf9f0d65ad920

結果,

GPT-4は63.7%の平均正答率

GPT-3.5の平均正答率56.7%

埋め込みモデルで, 60.5%の平均正答率

GPT-4の出力と同等の性能

LLMにおけるプロンプトにおける連続値か離散値による出力は分類性能に影響を与えるか？

結果,

連続値と離散値による出力は分類性能に影響を与えないことが示唆

以上の結果より, 言語モデルが, 質問項目から心理学的構成概念のカテゴリーを再構成できることを示した.

言語モデルが, 心理学的構成概念と関連する単語や文章に関する情報を保持していることが示唆された.

今後

複数の質問紙に対するヒトの回答と言語モデルによる複数の質問紙間の類似度との対応関係

多言語での対応関係について調査する.

これにより, 大規模言語モデルが, 心理学的構成概念間の距離に関する情報を保持しているのかを明らかにする。

Miyabi.icon具体的な人の回答との対応関係は今後