見える化の前に行うこと。
皆さん、データの見える化はデータが沢山集まれば、あとは便利なツールを使って見える化ができると思われていませんか?
とんでもハップン(ザ・昭和!)。データクレンジングが多くの場合、必要となります。では、そのデータクレンジングとは何でしょうか?
まずは、右の図を見てください。
出所:総務省 ICTスキル総合習得教材 http://www.soumu.go.jp/ict_skill/pdf/ict_skill_3_1.pdf(2025年10月20日現在リンク切れ)
データサイエンティストがデータ分析において、最も時間を費やし、かつ、最も楽しめない業務がデータクレンジングです。
具体的には、データの表記の揺れ(例えば、住所で1丁目1番地と1-1とか、株式会社と(株)とか、日付で2019年11月20日と2019/11/20とか、商品名が大文字、小文字とか、全角、半角とか・・・などなど)を修正したり、データの一部の欠け(データの一部が収集できていない場合やありえないデータが入力されている場合(例えば、年齢欄に200が入力))の補完を検討したりします。
数多くのデータが集まれば、集まるほど、上記の作業を行うのは確かに楽しくない業務だと私も思います。そこで、データクレンジングに対し、色々な手法、ツールも開発されています。次回は、そこをご紹介したいと思います。


コメント