2007年02月07日(水)

データ解析

コンピュータに関するりばにしの記事

研究室で後輩がシミュレーションの出力データを集計しようとしていたところに,ちょっと口出ししてみたら,結構面白くなってのめり込んでしまった.

何度も処理方法を改善しているうちに,途中から Perl で処理したい僕と C で処理したい別の後輩との競争みたいになって,どっちのプログラムが速く処理できるか試そう!と結構盛り上がってきた.

結果的には,後輩の C のプログラムは 2GB 超の出力データを使って動かそうとすると,エラーを吐いて落ちてしまった・・・.検索してみると, C のプログラムで 2GB 超のデータを扱うのには,何か工夫がいるっぽいことまではわかったが,検索結果の上位にある方法を試してみたがうまく動かなかった・・・.というわけで,暫定王者(笑).

で,肝心の処理は,最初に作ったプログラムが 1 日くらいかかりそうな勢いだったのに対し,最後に作ったプログラムは 30 分程度で完了することができた.たぶん後輩の C のプログラムが動けば,アルゴリズム的にも無駄が少ないので,もっと速くなるのではなかろうか.動かしてみたい・・・(笑).

2007年02月07日00時07分 | Permalink
Trackback
Trackback URL
Comment

プログラムに無駄が多かったので見直したところ,
12分程度で処理できるようになった.
ユーザビリティも見直した.
もうこれ以上はいいや・・・.

りばにし at 2007年02月07日01時37分
Comment Form