データ品質とは何か

そもそも品質とは#

JIS Q 9000:2015 を参考に言い換えると「対象の特性が明示的、暗黙的に要求されている期待を満たす程度」です。

JIS Q 9000:2015 に定義される用語(抜粋)#

3.6.2 品質(quality)#

対象(3.6.1)に本来備わっている特性(3.10.1)の集まりが,要求事項(3.6.4)を満たす程度。

注記 1 品質という用語は,悪い,良い,優れたなどの形容詞とともに使われることがある。 注記 2 本来備わっている とは, 付与された とは異なり,対象(3.6.1)の中に存在していることを意味する。

3.6.1 対象(object),実体(entity),項目(item)#

認識できるもの又は考えられるもの全て。

例 製品(3.7.6),サービス(3.7.7),プロセス(3.4.1),人,組織(3.2.1),システム(3.5.1),資源 注記 対象は,物質的なもの(例 エンジン,一枚の紙,ダイヤモンド),非物質的なもの(例 変換率,プロジェクト計画),又は想像上のもの(例 組織の将来の状態)の場合がある。 (ISO 1087-1:2000 の 3.1.1 を変更。)

3.10.1 特性(characteristic)#

特徴付けている性質。

注記 1 特性は,本来備わっているもの又は付与されたもののいずれでもあり得る。 注記 2 特性は,定性的又は定量的のいずれでもあり得る。 注記 3 特性には,次に示すように様々な種類がある。 a) 物質的(例 機械的,電気的,化学的,生物学的) b) 感覚的(例 嗅覚,触覚,味覚,視覚,聴覚などに関するもの) c) 行動的(例 礼儀正しさ,正直さ,誠実さ) d) 時間的(例 時間厳守の度合い,信頼性,アベイラビリティ,継続性) e) 人間工学的(例 生理学上の特性,人の安全に関するもの) f) 機能的(例 飛行機の最高速度)

3.6.4 要求事項(requirement)#

明示されている,通常暗黙のうちに了解されている又は義務として要求されている,ニーズ又は期待。

注記 1 通常暗黙のうちに了解されているとは,対象となるニーズ又は期待が暗黙のうちに了解されていることが,組織(3.2.1)及び利害関係者(3.2.3)にとって,慣習又は慣行であることを意味する。 注記 2 規定要求事項とは,例えば,文書化した情報(3.8.6)の中で明示されている要求事項をいう。 注記 3 特定の種類の要求事項であることを示すために,修飾語を用いることがある。 例 製品(3.7.6)要求事項,品質マネジメント(3.3.4)要求事項,顧客(3.2.4)要求事項,品質要求事項(3.6.5) 注記 4 要求事項は,異なる利害関係者又は組織自身から出されることがある。 注記 5 顧客の期待が明示されていない,暗黙のうちに了解されていない又は義務として要求されていない場合でも,高い顧客満足(3.9.2)を達成するために顧客の期待を満たすことが必要なことがある。 注記 6 この用語及び定義は,ISO/IEC 専門業務用指針−第 1 部:統合版 ISO 補足指針の附属書 SLに示された ISO マネジメントシステム規格の共通用語及び中核となる定義の一つを成す。元の定義にない注記 3〜注記 5 を追加した。

データ品質とは#

データ品質は「データの特性が明示的、暗黙的に要求されている期待を満たす程度」と言えます。データ品質は絶対的なものではなく、データ利用者の期待と要求に依存します。 (ISO8000で定義されたようですが、見られてないです。)

データ品質の評価軸#

https://twitter.com/anboorin/status/1259405289452826629?s=20 より引用しています。

概要低品質の例低品質なデータによる悪影響の例
正確性現実の事象を正しく表現できているか画面上でどのボタンをタップしたのかわからない新機能の利用ユーザ数を集計できず、新機能の評価ができない
完全性データに欠損はないか画面上の操作ログは欠損することがあるキャンペーン条件達成の判定に用いたログで欠損があり、インセンティブの付与漏れが起きる
一意性データに重複はないか同じ取引ログが2重に記録される取引が重複して計上され、顧客への請求時に過大請求が起きる
整合性
妥当性
適時性必要な時に速やかにデータが利用できるか取引ログの更新が1週間おき問合せ対応で今日の取引ログが必要だが、来週まで確認できないため対応が遅れる
一貫性/重複排除複数のデータ間で不整合がないか決済記録と残高の増減が一致しない決済記録と残高の増減が一致せず、キャッシュフローを見誤る
有効性不正な値が入り込んでいないか不適切なデータ型のログが混入しているデータの20%が不正な値で集計できず、OKRの達成度が正しく測れない

同じデータでも、データ利用者によって求める品質は異なります。 関係各所にヒアリングして、いつ、どの程度完全なデータが必要かは早めに整理しておきましょう。

データ品質管理プログラムを確立する意義#

高品質なデータを作る意義#

  • 組織が持つデータの価値を高め、それを利用する機会を増やす
  • 低品質データに伴うリスクとコストの削減
  • 組織の効率と生産性の向上
  • 組織に対する評判の維持と向上

低品質なデータがはらんでいる危険#

  • 誤請求
  • 顧客サービスコールの増加とそれを解決する能力の低下
  • 事業機会の逸失による周壁損失
  • 合併・買収の間に発生する業務統合の遅延
  • 不正行為発覚の増加
  • 不正なデータに起因する業務上の意思決定不備がもたらす損失
  • 良好な信用力の欠如による事業の損失

ゴール#

  • データ利用者の要件に基づいて目的にあったデータを作成するために、統制されたアプローチを策定する
  • データライフサイクルの一環としてデータ品質統制の標準と仕様を定義する
  • データ品質レベルを評価し、監視し、報告書を作成するためのプロセスを定義し実践する
  • データ品質を向上させる機会を特定し支援する。そのためにプロセスやシステムを改善する
  • データ利用者の要求に沿ったデータ品質を目に見えて向上させるアクティビティに携わる

まとめてないけど思うこと#

  • バイアス入りのデータは、入ってることを明示してData Experienceを未来にわたって確保しておかないと、分析時に死ぬ
  • データがゴミでないことと正しいことは等価ではない
  • 受け取った情報・データが発信者の意図とは違うかも
  • 情報・データの出所はどこか、データソースのトラストレベルはどうか
  • 価値のないデータのメンテナンスを続ける是非
  • あと https://analytics-and-intelligence.net/archives/841 の話を見ておくと良さそう
Last updated on