Automatic Bitcoin Address Clusteringを読んだメモ
BitfuryからICMLA2017で出された論文。
異なるアドレスが同一ユーザのものであるというのをある程度の精度もって担保できるクラスタリングモデルみたいな話っぽい
エラーあるかもだけど、こんな経験則あるよ
ヒューリスティック1(Common spending): 同じtx内で同じoutput宛のinputは同じユーザ
ヒューリスティック2(One-time change): Def3で定義される条件が整えば同じユーザ
1) output addrが2つ
2) input addrが2つでない
3) 2つのoutput addrがinput addrに含まれない
4) 1つのoutput addrが当該txより以前に存在せず、値が小数点4桁以上
5) 4)でないoutput addrが当該txに存在するが、1)-5)の条件を満たすのは初めて
論文の手法はoff-chain(Internet)から情報をもってきて、タグ化することで実現
twitterとかredditとかから
minerとかexchangeとかも
有名企業とかだとaddressのprefixを自社名にしたりする(そういうサービスがあったはず)
上記を満たすtxに対して、同じユーザかベルヌーイ分布でモデル化して、貪欲法で尤度推定
BTC8年弱のtxに対して適用
CSとOTCの合計で1/6強が該当するtx
negative tagとか後半がよくわかっていない。
clean tagとかdirty tagとか。
References
Ermilov, Dmitry, Maxim Panov, and Yury Yanovich. "Automatic bitcoin address clustering." Machine Learning and Applications (ICMLA), 2017 16th IEEE International Conference on. IEEE, 2017.