「74%の企業が “データ駆動型 “になりたいと言っているが、分析を行動につなげるのが得意だと言っているのは29%に過ぎない」。 – Forrester
統計やデータを生成、処理、共有することで、あなたは「データ駆動型」の企業になっているでしょうか。
確かにそうですが、意思決定の原動力となるデータや統計が不正確であったり、完全に間違っていると、結果として混乱や業績不振につながる可能性があります。
しかし、直感的なダッシュボード、チャート、統計、グラフは、しばしば偽りの現実を覆い隠してしまうものです:
誤解を招く統計やデータ。
しかし、数字の絶対性に目を奪われがちで、特に有利な仮説やポイントに信憑性を与える場合はそうです。
誤った統計やデータを認識できないことは、データ駆動型の意思決定に対する脅威となります。
この投稿では、誤解を招くような統計やデータを見分ける方法を学びます。 誤解を招く一般的な方法と、データが重要な決定の重みに耐えうるかどうかを判断する方法を見ていきます。
誤解を招く統計値とは? 大きな数字を予測しながらも、統計的な有意性がほとんどない小さなサンプルサイズを使用すること。
発表する:研究者が証明しようとしているポイントに矛盾する発見を省略する。
悪い統計は、ニュースや広告キャンペーン、そして科学文献にさえも忍び込んでいます。 科学者の33.7%(データ中立の最上級者)が、研究をサポートするために統計データを誤って使用したことを認めているという衝撃的な結果が出ています。
正しいデータに基づいて重要な決定を下すために、統計が誤解を招き、誤った情報を与えてしまう一般的な方法をリストアップしました。 被験者は、複数の交通事故を描いた映画を見せられました。 見終わった後、「車がぶつかったとき、どのくらいのスピードが出ていましたか」と質問されました。「
他の被験者にも同じ質問をしたが、「ぶつかった」という言葉は、次のような示唆的な動詞に置き換えられていた:
-
Contacted
-
Hit
-
Bumped
-
Collided
結果は?
使用された「負荷のかかる」動詞が強ければ強いほど、目撃者からの推定速度が高くなりました。
ソース
さらに、強い動詞を使用すると、壊れたガラスがビデオに映っていなくても、被験者は事故時に壊れたガラスを報告する傾向が高いことが判明しました。 2007年、広告基準局(ASA)は、「80%以上の歯科医がコルゲートの使用を推奨している」という主張が、「80%の歯科医が、他のすべてのブランドよりも優先してコルゲート歯磨きを推奨している」と誤解させるものであるとして、コルゲートにその主張を放棄するよう迫ったのです。
実際の調査の質問は、「ブラッシングだけと、コルゲートのような歯磨き粉を使うのとでは、どちらを勧めるか」でした。
選択的バイアスは、統計やデータの認識に影響を与えるために、選ばれたサンプルやデータが不完全であったり、抜き取られていたりする場合によく起こります(偏向さえしている)。
Neglected Sample Size Resulting In False Precision
(source)
100 人のうち 90 人が「はい」と答える (90%) と 1000 人のうち 900 人が「はい」と答える (90%); 割合は同じだが、データの価値と有効性における差は、統計的に重要だ
小さいサンプル サイズほど驚くべき重要性を保証しています。 極端な結果には常に注意し、パーセンテージを額面通りに受け止めてはならない。 生化学研究者のAna-maria Sundicの言葉:
「サンプルが集団を代表していることを保証するために、サンプリングは無作為であるべきで、すなわちすべての被験者が研究に含まれる確率が等しい必要がある。 サンプリングバイアスは、サンプルが対象母集団を代表するには小さすぎる場合にも発生することに注意する必要があります」
誤った統計を作成する誤った相関と因果関係
「相関は因果関係を意味しない」このフレーズを聞いたことがある人は間違いありませんが、それには理由があり、これは真実なのです。
2 つの変数が相関する場合、通常は次のようになります:
Y 原因 X.
X 原因 Y.
第三要因 トリガー X + Y.
相関性は偶然によるところが多いのですが、Y は、X と Y の相関性が高いのです。
相関と因果関係は、研究者、そして研究の消費者が餌食になるため、多くの疑念を抱かせることになります:
-Number fetishism
-Correlation hunting
Tyler Vegihn はこの点を正確に証明すべく、おかしなミスリーディング統計例をいくつかまとめました。
このグラフは、プールに落ちて溺れた人の数と、ニコラス・ケイジが出演した映画の数との間に、説得力のある相関関係があることを表しています。
また、ベッドシーツに絡まって死亡した人の数と、チーズの消費量との間に相関関係があることも示しています:
これは、チーズ消費とニコラス ケージの演技を減らすことで命を救えるということでしょうか。 おそらくそうではないでしょう。
研究者は有用なデータを発見したり、仮説を証明したりすることを迫られるため、「アハ」または「ユーレカ」な瞬間を早々に宣言する誘惑は高くなります。
これは、健全な分析や統計にとって問題となります。十分な変数を投入すれば、ほぼ確実に、何に対しても相関を見つけることができます。
データ ジャーナリストの Alberto Cairo 氏は、著書「Graphics, Lies, Misleading Visuals」において、マーケティング広告、政治キャンペーン、ニュース報道から、誤解を招く統計例を暴露しています。
この事件のとき、CNN は、テリーの生命維持装置の除去について、さまざまな政治グループがどのように感じているかを表すために、以下のようなグラフを使用しました:
ソース
このグラフを見て、共和党と無党派層を比べると、民主党の3倍が裁判所に同意していることがわかります
しかし、よく見ると、票差はわずか 14% でした。
切り捨てられたグラフと改ざんされたY軸(0ではなく50で始まる)はデータを歪め、特定のグループに関する誇張された考えを信じるように導きます。 増分が不揃いであったり、測り方がおかしかったり(パーセントなどではなく数字を使う)しないか。
完全な文脈や他の比較グラフで、類似のデータがどう測られて、どう表現されているかを確認する。
おわりに。
誤解を招くような統計やデータは、「CTA の微調整」や「単純な色の変更」による壮大なコンバージョン率の改善を自慢しています。
誤った統計やデータは危険です。
回り道や穴、落とし穴を通り抜けるのを助ける代わりに、意図的に、あるいは無意識のうちに、そこに誘導します。
次に説得力のあるデータに出会ったら、次のようなシンプルで強力な質問を実行してみてください。 そのトピックに関する彼らの偏見と、結果からどのような利益を得る可能性があるかを検討します。 彼らは製品を持つB2C企業なのでしょうか? コンサルティングサービスか? 独立した大学出資の研究か。
サンプルサイズと研究の長さは、真摯に受け止められるか。
裏付けやベールに包まれた数字を点検すると、弱い統計的強度が明らかになる。
データビジュアルは公平に表現されているか。
スケールと間隔は等間隔で中立か。 統計が特定の考えや議題を押し付けていませんか? ダッシュボードの指標が多すぎませんか。
調査は正直かつ公平な方法で表現されていますか。
使用されている言語、質問の組み立て方、調査対象者を見直してみてください。
誤解を招く統計やデータがダッシュボード、レポート、分析を汚染しないように、好奇心と懐疑的な態度で新しい情報を迎えましょう。
著者について
Hassan Uddeenは、英国を拠点にB2B、SaaS、Fintech企業を対象にしたフリーランスライターです。 コンテンツマーケティング全般をこよなく愛する。 キーボードから離れられるときは、自宅のジムを飛び跳ねたり(悟空のロールプレイングをしながら)、James Pattersonの小説に没頭するのが好きです。