レポート課題2(ネットワークデータの視覚化)
B'zが発表している曲の歌詞を形態素解析を用いてテキストマイニングし、歌詞に出てくる単語の共起ネットワーク(出現パターンの似た単語の関係性を線で結んだネットワーク)を作成した。
具体的な方法は以下の通りである。
①スクレイピング→②MeCab導入→③不要単語の除去→④共起ネットワークの作成
②集めたテキストデータから有用な情報を見つけるために形態素解析をする。形態素解析とは文章を、意味を持つ最小単位(=形態素)に分解し、それぞれの品詞や変化を判別することである。今回はオープンソースの形態素解析エンジンMeCabを用いて形態素解析を行った。
③綺麗にネットワークを視覚化するために、不要な単語を除去する。例えば、句読点や「〜の」「〜に」などの助詞などは不要となる。
④データを整形し、共起ネットワークを描写・出力する。なお、共起ネットワークは無向グラフで、node間の距離と方向には意味がないことを留意する必要がある。
これらの段階を踏まえて出た結果が以下の画像である。
https://scrapbox.io/files/61ef64584cf036001d8761e4.png
わかること、感想
この共起ネットワークを見てわかることは、B'zの歌詞が「僕」と「君」を中心に作られているということである。「僕」や「君」という言葉から「僕の胸、手、目」や「君の胸、手、心」といった言葉の繋がりが見える。そしてそのワードに「何」「どこ」といった言葉が絡んでいることから、僕と君の、相手を想う関係性を描いた曲が多いのではないかと推測できる。
感想としては、400近くある曲の歌詞は膨大であったため、どんな関係性が表されるのかぱっと見ではわからなかったが、実際に出力されると意外な結果があって興味深かった。視覚化しないとわからないことがあると改めて感じ、視覚化の重要性がわかった。