先日、何が原因かよくわかんないけど本家BBCサイトが恐ろしく重い日があった。
メトログラフの取得処理がリトライとタイムアウトを連発し、無事に取れててもレスポンスが遅すぎて取得処理全体が伸長する事態に。
メトログラフが所得を開始するタイミングは日に2回ある(だからみなさんの最高記録更新のタイミングなんてうまく記録できないわけ)のだが、2回やっちゃうと24時間あっても足りない稼働時間になることが判明。
すぐに取得回数を1回に減らした。それでも埒が明かなそうなのでタイムアウトの時間を減らして、リトライの回数を減らした。
取りこぼしが増えてでも処理を一旦最後まで走らせる、という側に倒した。
結果、例の数日間は記録されていない人がたくさんいたんじゃないかと思います。全体の1割まではいかないけど、けっこうな確率だったはず。
取得成功率とかは記録してないので実態はわからないけど、そういう感じ。

グラフは跳ねた

この騒動は程なくして収束を迎えたんだけど、GCPの利用料金のページに爪痕が残っている。
負荷が高かった3日間、この3日間は取得処理の設定を頻繁にいじっていて条件が同一ではないものの、ピーク時は普段の5倍近い利用料金になっていたことがわかる。
このまま月末まで走られたらわりと真顔になるところだった。
家計を圧迫しますみたいな規模で運営してるわけじゃないんだけど、それでもかかるコストは下げたいじゃん。

いまは事態も落ち着いているので、日に2回取得のペースに戻していて、取得失敗時のリトライの回数や、タイムアウトの秒数についても元通りになっている。
なので基本的に取得失敗はほぼほぼないくらいの確率で動作している。
※全然値を取ってくれてないんだけど、ってひとはTwitterのDMとかでご連絡ください。スパムに埋もれて気づきにくいですがたまに見てます。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です