自分のじゃない。そんなん1000ちょっとから2000弱をウロウロしていることを知っているうえ大した意味もない。
シャド研にランキングのページが有るのを見て、これ定期的に取得していったら
- 上昇・下降してる推移
- 急上昇してるひとを見つける
- 全く動いてない人を見つける
とか出来るんじゃないのかなーと。
ただこれがめんどくさい。
CFNを録画して検出しようとしていた
最初のボツ案。
いまから考えるとバカバカしく壮大で、かつ楽しそうな思いつきだった。
CFNのランキングの画面をペラペラめくりながら録画して、PNG画像に切り出して、同じ画面映してる画像を消して母数を減らし、画像の特定箇所を切り出してOCR的に文字を切り出して行く云々。
楽しそうだが得たいデータに対してのアプローチが大げさというか、タバコの火つけるのに火炎放射器持ってきたような話になっている感が強まってきて、棚上げ。
画像から文字情報を読み取るの自体は楽しそうなので、研究目的でやるのはよさそう。
SFVの通信内容を傍受できないか試した
ボツ案その2。
SF5のパケットキャプチャしたら通信内容傍受できないかなーとか。
ネットワーク周りの知見は全然ないので、可能かどうかの見積もりもできない。そもそも通信が暗号化されてたら無理じゃない?となり、お蔵入り。
それっぽい通信はAWSとやってる風で、おまけにCDNなんだと思うんだけどレスポンスはめちゃくちゃ速い。これ取れたら最高だったなあ。
二要素認証を超える
あれ?ランキングのページって、シャド研にあるような?ばかなのか?
という旅を経てページ取得の作業を今やっている。
あたしが得意な手法はBeautifulsoupやScraypyをつかったスクレイピングだが、ことJSが絡んだページは不得手だ。また、二要素認証の入力やら遷移を追いかけるやらまでちょっと自信がなかった(し、さすがにちょっと行儀が悪すぎる)。
そういやページの自動運転ってSeleniumの分野じゃね?というとこでやっとまともに作業できそうな見通しがついた。
ブラウザを自動運転するだけのことなのでなんの傍受もしないし、これなら真っ白だ。ワンタイムパスワードの入力は、つど手でセットする。こればかしはスマホにトークンが入っているので仕方ない。
ワンパス入れるまでが山場で、あとはランキングページを1ページずつめくって保存すればデータ取りはおしまい。
あとはこれらをスクレイピングして、データを起こしてあげればよい。
このランキングページはリアルタイムに近いデータを表示しているのか、ページを得る際のレスポンスが尋常でなく悪い。
100ページめくるのに20分くらいかかっているw
だとすると、ページめくりのタイミングが悪い場合は順位の入れ替わりなどが発生しかねない。ある程度のとこでデータ取ってますんで、という態度でいいやとは思っているけども。
いまのとこJupyterで試し書きをしている。つまりWindows上でやっている。
できたらDockerに押し込めてしまいたいが、Linuxの Chrome + Chromedriver + Selenium って組み合わせで動かした経験はない。CUI環境でも動いてくれんのかね。
そのへんもコミで、実験である。
メモ
このとり方で10000番目の人までデータが取れる。10000位というと、スーパーダイヤに該当する。