V(Visualization) その2

見える化の前に行うこと。

 皆さん、データの見える化はデータが沢山集まれば、あとは便利なツールを使って見える化ができると思われていませんか?

とんでもハップン(ザ・昭和!)。データクレンジングが多くの場合、必要となります。では、そのデータクレンジングとは何でしょうか?

まずは、右の図を見てください。

出所:総務省 ICTスキル総合習得教材 http://www.soumu.go.jp/ict_skill/pdf/ict_skill_3_1.pdf(2025年10月20日現在リンク切れ)

データサイエンティストがデータ分析において、最も時間を費やし、かつ、最も楽しめない業務がデータクレンジングです。

具体的には、データの表記の揺れ(例えば、住所で1丁目1番地と1-1とか、株式会社と(株)とか、日付で2019年11月20日と2019/11/20とか、商品名が大文字、小文字とか、全角、半角とか・・・などなど)を修正したり、データの一部の欠け(データの一部が収集できていない場合やありえないデータが入力されている場合(例えば、年齢欄に200が入力))の補完を検討したりします。

数多くのデータが集まれば、集まるほど、上記の作業を行うのは確かに楽しくない業務だと私も思います。そこで、データクレンジングに対し、色々な手法、ツールも開発されています。次回は、そこをご紹介したいと思います。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

名古屋の中小企業診断士事務所 VICTOR CONSULTING

コメント

コメントする

目次