SAPのソリューション

デジタルトランスフォーメーション(DX)を推進などの経営課題の解決に向けて、ERPソリューション、クラウドアプリケーションや開発・運用基盤を組み合わせて、グローバルなエコシステムを構築のためのソリューションです。

お客様の課題

業種や規模によって企業の課題は経営課題、業務課題、システム課題など多様です。さらにそれぞれ課題は単一分野の課題だけではなく、相互に関連することで複雑になっています。

GSLが提供するサービス

様々な業種に関する技術・ノウハウに裏付けられたソリューション力をベースにした豊富な SAP Business-all-in-one テンプレートワンストップサービス体制で、導入から保守までをサポートします。

お役立ち情報

NTTデータGSLは日本企業のDX推進やグローバルビジネス展開の支援を提供しています。
GSL Tech Blogでは、最新技術に関するノウハウやナレッジをまとめています。
GSLコラムでは、製品情報だけではなく、トレンドや基本的な用語の解説などをまとめています。
関連資料ダウンロードでは、お客様の課題やソリューションをまとめた資料を用意しています。
GSLニュースは、SAPソリューションをはじめ周辺系システムとの連携を通じたDX推進など、最新の情報をメールマガジンでお届けします。
GSL University Journalは、企業内大学である「GSL University」における各研究室の教授等によるインサイトや成果報告、社員からの寄稿をまとめております。
ぜひご覧いただき、お役立てください。

企業情報

日系企業のグローバル展開に伴う、システムのグローバル化需要に応えるために、NTTデータグループにおけるSAP事業の中核会社を設立し、国内のグループ会社に分散しているSAPソリューション、業務ノウハウの一体化を図り、戦略的な事業経営を目指します。

データクレンジングとは?
データクレンジングの手法とその必要性を解説

企業が利用するデータの種類や量が増える中、保有するデータの品質を高め維持し、活用することがこれまで以上に重要です。

今回のコラムでは、データクレンジングの手法や企業が抱えるデータの課題。そして、先進テクノロジーを活用したデータクレンジングを自動化することについて分かり易く解説します。

how-to-start-data-cleansing.jpg

データクレンジングとは

データクレンジングとは、データの品質を向上させるために、データを洗浄(クレンジング)することです。データクリーニングとも呼ばれることもあります。

なぜ必要なのか?

企業が保有するデータを活用しようとした際、部署ごと、あるいは担当者ごとにデータの入力方法が異なるために、データを十分に活用できないことがあります。なぜなら、データの粒度や表記方法が異なるからです。

  • データの半角/全角
  • 空白や区切り文字
  • 法人格
  • 住所や電話番号
  • 結果、検索しても必要なデータを見つけることができません。また、同じデータが重複して入力されていることに気が付かなければ、何度も同じ人に営業をかけてしまうことも起きます。

    このような、エラーや矛盾を含むデータは「ダーティデータ」と呼ばれます。では、そのダーティデータが生まれる原因を見ていきましょう。

    ダーティデータが生まれるその原因

  • 誤登録
  • 重複登録
  • 表記のゆれ
  • 情報の欠如など
  • ダーティデータは企業にとって大きなコスト要因で、基本的な品質基準を満たすデータは、全体の3%に過ぎないという推計されています。

    では、データクレンジングを進める理想的なプロセスを見ていきましょう。

    理想的な進め方

    データクレンジングの進め方は、具体的には下記の方法が一般的です。

    保有しているデータ資産の状況を把握

    データクレンジングを始めるための第一歩は、保有しているデータ資産の状況を把握することです。どのデータがどのように「汚れている」のかが分からなければ、どのようにクレンジングするかを判断できません。データの欠損、表記の揺れ、整合性、精度、重複といった基準にもとづき、現状を確認することがスタートです。

    改善するためのルールとそれに沿った実行

    改善するためのルールを定め、やっとデータクレンジングを実行できます。改善に向けたルールとして、考えられるものは、変換する作業が必要です。例えば、数値情報が全角表記の場合、数値として認識されず、集計や分析が出来ないため、半角へ変換する必要があります。

    今後の活用を見据え処理

    ルールに従い、データクレンジングの実施後、データをどのように活用したいかを見据えて、項目を結合、或いは分割する処理などがあります。その処理を踏まえることで、結果、データ分析を行う基礎が出来上がります。加え、そのスピードや精度を向上に繋がります。

    またもし部署ごとに分散している複数のデータベースを、一つにまとめるような場合は重複の排除や関連付けを行います。この作業を名寄せ(マッチング)と呼びます。事前に、各データベースのクレンジングを行い、分類項目などデータの粒度を揃えておけば、名寄せをスムーズに行うことが可能です。

    そして、データクレンジングが完了しても、データ入力を行う担当者が、これまで同様のやり方を続ければ、時間の経過とともにデータの品質は低下します。

    データの品質を維持するためには、データ入力の仕組みを改善することはもちろんですが、データの汚れ具合を監視し、必要に応じて再度クレンジングするといった、継続的な品質の維持が必要です。

    データクレンジングが難しい理由

    一見シンプルな手順にみえますが、データクレンジングは決して簡単な作業ではありません。特に、ビッグデータの活用が求められる現代において、膨大なデータを手作業でクレンジングしていくことは現実的に不可能だからです。

    また、人的エラーが増えてしまうとデータクレンジングを行う意味がなくなるため、RPAやデータクレンジングツールを活用し、自動化することが望ましいでしょう。

    しかし、大量のデータを自動で処理できるからといって、むやみにデータを増やすと、データに無駄なノイズが発生します。どのようにデータを活用するか、その目的に必要なデータを集め、クレンジングしていくことが大切です。目的を明確化し、本当に必要なデータが入力されない、という事態を避けることが可能です。

    そして、持続的に品質を維持するための仕組みがなければ、データクレンジングの効果を十分に活用できません。部署ごとに異なるやり方でデータが入力されている。また、データベースの形式が本社と各拠点で異なる、といった状況では、データクレンジングの実施とクリーンな状態を維持するのは困難です。

    テクノロジーとソリューションを利用する

    電話番号にハイフンを入れるようなシンプルなクレンジングであれば、RPAでも問題なく処理できます。しかし、より複雑な自動化を希望する場合は、AIなど、より高度なテクノロジーを活用することが必要です。

    例えば、SAP Analytics Cloudを利用することで、データのクレンジングのみならず、クレンジングした後のデータをどのように分析するかという視点や、切り口の選択を自動化できます。

    また、データ分析プロセスに機械学習技術を用いることで、人力で行うことが困難な作業を自動化。そして、分析精度を改善し、同時に人の思考の偏りや入力ミスを排除します。

    このようにテクノロジーを活用することで、CRMやMAツールなどの各種ツールを最大限に活用し、質の高い顧客分析やマーケティング活動を実施することができるでしょう。

    関連サービス