2007年02月07日(水)
データ解析
コンピュータに関するりばにしの記事
研究室で後輩がシミュレーションの出力データを集計しようとしていたところに,ちょっと口出ししてみたら,結構面白くなってのめり込んでしまった.
何度も処理方法を改善しているうちに,途中から Perl で処理したい僕と C で処理したい別の後輩との競争みたいになって,どっちのプログラムが速く処理できるか試そう!と結構盛り上がってきた.
結果的には,後輩の C のプログラムは 2GB 超の出力データを使って動かそうとすると,エラーを吐いて落ちてしまった・・・.検索してみると, C のプログラムで 2GB 超のデータを扱うのには,何か工夫がいるっぽいことまではわかったが,検索結果の上位にある方法を試してみたがうまく動かなかった・・・.というわけで,暫定王者(笑).
で,肝心の処理は,最初に作ったプログラムが 1 日くらいかかりそうな勢いだったのに対し,最後に作ったプログラムは 30 分程度で完了することができた.たぶん後輩の C のプログラムが動けば,アルゴリズム的にも無駄が少ないので,もっと速くなるのではなかろうか.動かしてみたい・・・(笑).
2007年02月07日00時07分 | Permalink
プログラムに無駄が多かったので見直したところ,
12分程度で処理できるようになった.
ユーザビリティも見直した.
もうこれ以上はいいや・・・.