【雑記】その31 Twitter適性言語を探そう
第31回です
気付いたら17歳になってしまっていました、もずです
最近は微妙に涼しくなってきて、前よりはちょっとだけ過ごしやすいですね
しかし明日は期末試験の答案返還なので戦々恐々としております
早速本題に入っていきましょう
皆さん、Twitterの文字数制限はお好きですか?
まあそんな方いないと思いますけども
できるだけ少ない文字数で、できるだけ多くのことを伝えたい、そう思っている方も多いでしょう
ということで今回は、最もTwitterに適している言語を探していこうと思います
.xlsxファイルですが、使用しているGOOGLETRANSLATE関数の互換性の問題でスプレッドシートからしか開けません
Googleの陰謀です
誤訳等あると思いますが、別にそこに正確さを求めていないので...()
ちなみにラムダ氏の動画から着想を得ています、ありがとうございます 逆翻訳ではなく全て日本語から別々で翻訳させているので、正直作るのだるかったです
早速上のファイルを使って検証してみます
まずは「こんにちは」からやってみました
Twitterで「こんにちは」とだけ入力してツイートする人なんてそういないと思いますけどね()
下の写真が結果です
PC勢はめちゃくちゃ見づらいと思うので、クリックするかスマホから見るかで対処してください、すみません
https://gyazo.com/231385190760e5f144f1e6592e1ed8d5
ちなみに言語の並び順は、英語からビルマ語は世界の話者数順です
ヒンドゥー語系とかアラビア語系の似たような言語はめんどいので抜かしてます
ギリシャ語とヘブライ語は単純に好きな言語なので入れてます
あと右の数字は文字数というよりはバイト数です
さて、我々は一語文で会話しているわけではないので、簡単な文章でやってみましょう
https://gyazo.com/0fcb63c673d6ea3294f72fc8f163d7b8
我是魔族...
今回は中国語とジャワ語が8Bで1位、ビルマ語が32Bで最下位となりました
特に傾向は見出せませんが、何となくアジアのは振れ幅が大きく、ヨーロッパのは中くらいにまとまりがちな気がしないでもないですね
次に長文行ってみましょう
実際私たちもTwitterではそれなりに長い文を投稿することも多いですからね
これはスマホ勢がめちゃくちゃ見づらく、PC勢もだるそうなので別に見なくてもいいです
ちなみに原文は籠池泰典氏の詠んだあれです
https://gyazo.com/5bc161d7df5e7f27e4d16c5c109b24f7
今回は中国語が74Bで1位、ギリシャ語が323Bで最下位でした
中国語、優秀ですね
次いで韓国語が75Bで2位、日本語が94Bで3位です
韓国語のバイト数が奇数なのは、韓国語に於いて句点は縦書きなら「。」、横書きなら「.」だからのようですね
そして、ここで日本語140文字=280Bを超える言語が出てきました
この時点で言語によってかなり情報量に差が生まれることが分かりますね
念のため実際に入力してみましょう
ちなみにタミル語(322B)で入力していますが、これは私がギリシャ語(323B)を見落としていたからです
アホです
そして気になる結果がこちら
https://gyazo.com/ed11484862bba7c327682ff4150576a5
...?
何かおかしいですね
280Bを優に超えているのに、文字数制限に引っかかっていません
コピペミスかと思ってGoogle翻訳にかけてみましたが...
https://gyazo.com/0d6b0a52090935a4999b1dc8749b469c
特に大きな欠損は見られません
察しの良い方はお気付きでしょう、上の画像の"173/5,000"の部分の存在を
そう、そのまさかです
こちらの記事によると、2017年からTwtterでは、『日中韓以外の言語を対象に』、文字数上限を"280B"ではなく"280字"に増やしたようなのです 日本語と英語を混ぜた文章を投稿した際の挙動から察するに、恐らく長文の圧縮率の高い日中韓の3言語に関しては280Bのままなのでしょう
ということで文字数(右から2番目)も表示できるように改良しました
https://gyazo.com/4e207a822b1d6d607ad095fb13b8ddd7
これから分かることとして、以下の2点が挙げられます
・アルファベット以外の文字は1字=2Bがちなので、(文字数)×2≒(バイト数)(半角スペースを含むため誤差あり)
・フランス語やトルコ語などの綴り字記号は文字とは別でカウントされ、(文字数)<(バイト数)かつ(文字数)×2>(バイト数)
この文章では、日本語は50字→94B、中国語は37字→74B、韓国語は44字→75Bと、そもそもの文字数が少ないので1字=2Bでもあまりバイト数が大きくならないのでしょう
しかし、上のでは280文字を超える言語がなかったので、固有名詞地獄である「寿限無」全文もやってみましょう
https://gyazo.com/23af02e34f1ac6010513ae86512990f1
韓国語は明らかに翻訳ミス、オリヤー語もかなり怪しいのでそれらを除くと、やはり日中は圧縮率が高いですね
また、マラヤーラム語(563B)やタミル語(555B)も、バイト数こそ大きいですが文字数では英語とかの方が上です
ということで英語(323文字)を入力すると...
https://gyazo.com/66a7052594e9a3bdec203b2866339852
しっかり上限を超えてますね
右下の-21というのは、私が日本語環境だから1文字=2Bとして何文字オーバー、ってことなのでしょう
つまり42~43字オーバーということで、しっかり323-280=43と合致しています
それにしても"Pompoconner"、綴りが面白いですね
以上より、Twitterに適している言語は、Twitter側が対策しているのであまり大きな違いはないにしても、日中韓あたりが良さげだということが分かります
日本語が第一言語でよかったですね
ということで2連続言語系でした
例によって次回のネタは何も考えていないので、次も無難に言語系かもです()
ではまた