akimachoのはてなブログ

ICTとデザインのためのブログ

有意性に対するスタンスとガイドライン - "統計的有意性とP値に関するASA声明"を読んだ

はじめに

TwitterのTL(広告?)で見つけた京都大学 臨床統計家育成コースを眺めていたら、有意性に関する面白そうな記事が紹介されていたので読んでみました。タイトルは、"統計的有意性とP値に関するASA声明"です。以下のリンクから読むことができます。

http://biometrics.gr.jp/news/all/ASA.pdf

有意性に関するスタンスとガイドラインの理解に役立ったので、メモがてら紹介します。

元文は、Wasserstein RL, Lazar NA. Editorial: The ASA’s statement on p-values: Context, process, and purpose. The American Statistician 2016; 70: 129-133. の“The ASA Statement of Statistical Significance and P-Values”で、Google Scholarで調べると英語版は以下から読めます。

http://www.scaillet.ch/risk_mngt/ASA_statement.pdf

1. はじめに

  • 統計的結果の正しい解釈は、科学的結論の妥当性を確かなものにするために中心的な役割を担っている
  • 統計的結果の正しい解釈の土台となっているのが、統計的有意性
  • 統計的有意性はP値と呼ばれる指標で評価される
  • P値は有用な統計指標。でも、誤用と誤解がまかり通っている
  • ↑のような背景のもと、アメリカ統計協会(American Statistical Association, ASA)はP値の適切な仕様と解釈の基礎に関する広く合意された原則を発表
  • この声明は、統計コミュニティで 広く認められたコンセンサスに基づいて、専門 用語を使わずに、定量的な科学研究の実施や 解釈を改善するえり抜きの原則(p.1)

2. P値とは?

  • おおざっぱにいうと、P 値とは特定の統計モデルのもとで、データの統計的要約(たとえば、 2 グループ比較での標本平均の差)が観察された値と等しいか、それよりも極端な値をとる確率 である。p.1
  • コメント : P値は別名、有意確率とも
  • コメント : 仮説検定も統計モデルのひとつ

3. 原則

  1. P値は、データと特定の統計モデルが矛盾する程度を示す指標の一つ
  2. P値は、仮説が正しい確率やデータが偶然得られた確率を測るものではない
    • P値は、仮説の背後にある仮定に基づいたデータについての記述にすぎない。
  3. 科学的結論・ビジネスや政策における意思決定では、P値が有意水準を超えたかにのみ基づくべきではない
    • 機械的有意水準の判定のみで科学的結論の妥当性を決定するのではなく、様々な背景事情を考慮すること
  4. 適正な推測のためには、すべてを報告する透明性が必要である
    • データの準備や分析に行ったすべての決定、統計解析、P値を開示すべき
  5. P値や統計的有意性は、効果の大きさや結果の重要性を意味しない
    • P値が小さいからといって、必ずしも大きな効果があることを意味しない
  6. P値のみでは、統計モデルに関するエビデンスの良い指標とはならない
    • P値は限られた情報しか提供しない。背景情報や他のエビデンスが必要

4. P値以外のアプローチ

  • P値との別なアプローチを推奨する統計家も存在する
  • 信頼区間・信用区間・予測区間などの検定よりも推定を強調した方法
  • ベイズ流の方法
  • 尤度比
  • ベイズファクター
  • 決定理論・False Discovery Rate

陽性尤度比 - Wikipedia

ベイズ因子 - Wikipedia

https://ja.wikipedia.org/wiki/%E6%B1%BA%E5%AE%9A%E7%90%86%E8%AB%96

5. 結語

  • すぐれた統計学の実践
  • 研究デザインとその実施という原則
  • 多様な数値・グラフによるデータの要約
  • 研究対象である事象自体への理解
  • 背景情報に基づく結果の解釈
  • すべてを報告すること
  • データの要約に対する適正な論理的・定量的理解
  • 1つの指標のみでは科学的推論の代わりとはなりえない

コメント

散歩しながら思いついたことを随時追加します。

P値が小さいほど、データと帰無仮説の統計的な矛盾の程度は大きくなる。pp.2-3

P値が小さくなるほど、データと対立仮説の統計的な矛盾の程度は小さくなる、といえるのか。

  • 見込みのありそうな結果のいいとこ取り : Cherry-picking promising findings
    • データのどぶざらい : data dredging
    • 有意症 :
    • 有意クエスト : significance chasing, significance questing
    • 選択的推論 : selective inference
    • P値ハッキング : p-hacking

おわりに

ちょうど読んでいる、"Human-Computer Interaction: An Empirical Research Perspective"と合わさって統計的仮説の妥当性への理解が深まりました。特にHCIでは人間が関わるので、ASA声明で触れられているように背景事情の把握は欠かせないですね。

Human-Computer Interaction: An Empirical Research Perspective

Human-Computer Interaction: An Empirical Research Perspective

会社を変える分析の力 (講談社現代新書)

会社を変える分析の力 (講談社現代新書)