pEnglish2023-12-13
Quartzは無限にカスタマイズできるのでカスタマイズしたくなってしまってフォーカスがブレている
13379/17510 pages が日本語タイトル
2023-12-14
出現頻度トップ50件のページタイトルを見る
code::
[(409728, 't'),
(328529, 'a'),
(264644, 's'),
(40320, 'en'),
(18467, 'shio'),
(17684, 'nishio'),
(15917, 'ing'),
(5382, 'Scrapbox'),
(5211, '言語'),
(4129, 'Q')]
おかしなやつは数件だな
Scrapboxのリンク情報の調査
リンクの情報はエクスポートしたJSONには含まれていない
メタデータをtrueにしても含まれていない
linksに赤リンクも青リンクも含まれている
persistentでないページへのリンクはrelatedPages/links1hopに含まれない
これにはバックリンクが含まれる
persistentでないが、2hop linkがつながるので青いリンクはrelatedPages/links2hopに含まれる
linksLcだけしかない
linksは小文字化されてない
やっと青リンクと赤リンクの識別ができるようになった
External linksについて
projectLinksにはバックリンクが含まれない
relatedPages/projectLinks1hopにはバックリンクが含まれる
含まれない?
あー、わかった、これブラウザのログインユーザの情報によってAPIが返す情報が違うんだ
だからブラウザでAPIを叩いて観察した時には含まれてて、スクリプトから認証情報を積まずにAPIを叩いた時には含まれてないんだ
うえー、めんどくさー
保留!
何をしようとしていたかというと、翻訳によってリンクが切れないことを保証するためにリンクタイトルが常に安定した翻訳をされるようにする
blu3mo.iconは確かページタイトルを先に翻訳するアプローチをしてたと思ってて、僕もその実装をしてたんだけど「あれ?2ホップリンクでつながる場合はページが存在しないからページタイトルの翻訳だけでは切れるのでは?」と思った
そうですblu3mo.icon
なので、確か全ページにある青リンク+赤リンクを取得して翻訳したはずblu3mo.icon
なるほど、赤リンクも含めるとかなり量が増えると思ったが、それをやったのかnishio.icon
他のページのタイトル文字列を含んでる個数ランキング
https://gyazo.com/fd1823453994ad29b51bde00e9e96cb1
トップは書籍目次なので当然だな
勉強会とイベントの記録が多い
単純に分量が多いからかな
🌀や🤖が多いのは機械的に増やしてるのであまり重要ではない
やっぱ翻訳対象から外すかな
機械的ページを取り除くと、だいたい勉強会やイベントの長大な記事だ
https://gyazo.com/b453d9e8c54b3210f6adcf512e4c3b3f
これらは更新頻度が高くない
色々なページのタイトルを含んでいるということは、ここからいろんなページに飛べるということか
通常のシステムで翻訳できるかトライして、大きすぎてダメだったら手動で分割して翻訳するのでもいいかもね
タイトルの翻訳コスト
https://gyazo.com/511c373d4d6e2bfb86bf8abc4715dfd3
2023-12-17
13379/17510 pages が日本語タイトル
ページのクロールデータを元にページタイトルになってないもの、赤リンクも含めたリンクタイトルを取得した
28178/33584が日本語タイトル
これも翻訳する
2023-12-18
すべてのリンクの翻訳、寝てる間に終わった
https://gyazo.com/59ea3b60f1b96b8cc8f8f4b44a1c04de