過去のTweetから何月に体調不良が多いか分析
inajob.icon
その時期の体調について分析してもらうのを試している
そもそも過去数年に渡ってシーズンと体調に相関があるかわかっていないのだが・・
期間でTweetを取ってきているが、健康に関するTweetをあいまい検索で取ってきて、その発言の時期をプロットするとかのほうがスケールするかも?
健康に関する、とかであいまい検索できるかな?
検索結果は類似度のスコアになるからどういう見せ方がいいかなぁnishio.icon
全データに対して特定のクエリとの類似度を出すならQdrantよりローカルでやった方がいいと思う
健康を表す文字列をembeddingするところだけOpenAIのAPIが必要(これも1度やれば不要そう)
yesnishio.icon
関連度順なのでこれで上から重みを付けて月ごとに集計して有意差が出るかを見れば良さそう
可視化は雑にExcelとかで良さそう
健康に関するTweetを1000件取り出し、その発言月の分布を調査
目視でもこの1000件には、健康(特に不調)についての発言が多い
2007-2021の@ina_aniの全Tweetが対象
https://gyazo.com/7d3eb50a1ad01483bda212a78deb80a8
できた
1000件程度なので雑に集計可能
5,6,7月、10月が不調・・
多くね?
8,9月は妙に少ない
1000件が妥当かわからないので件数を変化させてグラフにする
100, 200, 500, 1000, 1500, 2000件
https://gyazo.com/2dfe7f5b2b3c7fec3720b188c901b2ff
どう解釈したものか・・
件数が多くなると体調不良とは関係の薄い発言が増えてくるはず
体調不良以外もこの分析が使えそう
まずそもそもの月毎の発言数の差の影響を知りたいnishio.icon
絞り込みなしの発言数のグラフを見るか、それで割って割合にするといいのでは
たしかにーinajob.icon
とりあえず月毎の発言数
https://gyazo.com/4f9c14184486f1d7a723223729926423
割とまんべんなくつぶやいているなー
割ってみた
https://gyazo.com/96903f29503f7212eeec794356ba6494
1月、5,6,7月、10,11月が注意だな!
注意多すぎやろ!
ワロタcFQ2f7LRuLYP.icon
2月がめっちゃ元気なのか、それとも体調不良以外の問題で体調どころではないのか…nishio.icon
5月頃からポッドキャストを収録している関係で体調に敏感になっているが、今のところ8月でスッと体調不良がなくなっているので、信憑性がある気がするinajob.icon
別の情報源として井戸端に深夜に書き込めている時期は体調が良い気がするinajob.icon
他の人でも試せるようにソースコードを公開した