2007/09/22

2007/09/05

2chnaviクローラ仕様変更

まぁ重いわけですよ。死ぬほど。で、色々変更。
  • クロールの間隔を伸ばす - 様子見て大丈夫そうだったらまた戻します
  • クロールの時間を多分空いてそうな時間帯に変更
  • クロール処理を並列化させずにシングルプロセスに変更
  • クロール処理を分割
  • wadaino.jpからのデータフェッチをoff
  • フィードごとにweightをつけてクローリングの間隔を調整
  • httpdへの割当リソースをちょっと増やす
意外だったのは並列化の部分で、善かれと思ってやったけど、物理メモリもスワップも有限な環境だから、糞みたいなパフォーマンスになってた。
当分は様子みるけど、多分フィード取り忘れとかが多発する悪寒。