LaBSE
LABSE(Language-Agnostic BERT Sentence Embedding) は、言語に依存しないBERTに基づく文Embeddingの手法。 2020年に、Googleが「知らない言語」も翻訳処理ができてしまう言語モデルとして「LaBSE」を発表した。
機械翻訳で広く用いられる手法の一つとして、ソース言語の文とターゲット言語の文をBERTに入力し、それぞれのEmbedding vectorを取得して類似度を計算することで文間の意味的な近さを測定する手法がある。
この手法では通常、ソース言語とターゲット言語で異なるBERTモデルを使用しますが、LABSEではマルチリンガルBERTにソース文とターゲット文の Embedding vectorを取得させることで、言語ごとのBERTモデルを用意する必要がなくなる。
LABSEによって複数言語間の文間類似度が共通の空間で計算できるようになるため、機械翻訳の精度向上につながると期待されています。
LaBSEスコアが高いとは、、意味的に近い文ペアのことを指す
そのため、これらをトレーニングデータとして用いることで、より精度の高い機械翻訳モデルを学習できると期待される