カタツムリ2009年01月07日

データーは、ソート、ユニーク、インデックスが基本

みなさん、おはようございます。
過去にも同じタイトルのブログを書きましたが、
もう一度、しっかり覚えて欲しいと思います。

先日、顧客名簿のデーター入力で、
名前が重複して入力されてるという、
トラブルが発生しました。

重複の原因は、
全角の「ー」を、「-」と入力したことでした。

つまり「イースマイル」と、「イ-スマイル」
は異なるデーターと判断します。

勿論、一般的に言えば、仕様作成の段階で、
入力文字の規制を行なうのも必要ですが、

私達は少なくても、このIT業界で働く身であり、
エンジニア・クリエイターを目指しているわけですから、
作業者の意識も低いと判断せざるを得ません。

そこで、データーを作成するときの意識、
この3点をもう一度、復習して見ましょう。

1.データーのソート

ソートするということは、ファイル命名において、
下記のように割り振ることです。

2008_01_01.txt
2008_01_02.txt
2008_01_03.txt
2008_01_04.txt

これによって検索スピードが上がり、
データーの欠落なども一目で分かります。


2.ユニークとは、一意にするため重複を省くこと。

例えば、半角と全角を混ぜない。

2008_01_01.txt
2008_01_01.txt

これだと、同じ意味のファイル名が重複してしまいます。
先ほどの、顧客名簿のエラーと同じです。

3.インデックスとは、データーを正規化して、
ヘッダー部分と実データーに分けることです。

例えば、01 02 01 03 02 03 01 02 01 03
このような、10bytesのデーターを、
2bytes単位で並び替えます。

01 02
01 03
02 03
01 02
01 03

こうすると、共通項目が見つかりますね。

その結果、ヘッダー部分は、
実データーのインデックスとなります。

0 1 2 0 1

また、実際の要素は、重複を省いて、

0 -> 01 02
1 -> 01 03
2 -> 02 03

とあらわせます。

このようなデーターを扱う基本は、
そのまま多くの仕事に応用できます。

日頃のパソコンを使った作業効率も、
必ずUPしますよ!

今日も「いいスマイル」で行きましょう!


ツイッターはじめました~フォロー待ってま~す!!
↓↓↓下記の3つのバナーをクリックして下さい。ランキングUPにご協力をお願いします。↓↓↓

にほんブログ村 経営ブログへランキングUP!

ランキングUP!

banner2.gif 人気blogランキング!

投稿者 shiozumi : 09:46 | トラックバック (0)

このエントリーのトラックバックURL

http://blog.e-smile.ne.jp/cgi-bin/mt/mt-tb.cgi/564