【今日の授業】統計

今日は午前の統計だけ。昨日はクラスのPub会があったので、少し疲れモードでした。

まずは演習でしたが、久しぶりにコンピューター(STATA)ではなく、ペンと計算機での演習。前回の講義で習ったサンプルの取り方について、実際のデータからサンプルを取って、その平均がどれほどばらつくか、見てみようというものでした。

データは住んでいるコミュニティ(1~8)、年齢、そして血圧が付されていて、1~64までのナンバーが降られています。適当に選んでみる(haphazard)、全体数を必要なサンプル数で出た数値(今回は64÷8=8)の中から適当な数値を選び、ナンバーを等間隔に選ぶ(Systematic)、乱数表を使って選ぶ、計算機の乱数機能を使って選ぶ、年齢を元に任意に選ぶ(judgement or quota)、40歳以上と以下に分けてからランダムに4人ずつ選ぶ(Stratified)、そして8個のコミュニティーからランダムに4つ選び、そこから二人ずつランダムに選ぶ(two-stage)でやってみました。そしてそのサンプルの血圧の平均を出してみます。

何人かの結果を比べてみたところ、やはりランダムに選んだ方法の方が、実際の平均に近いということが、分かりました。うまくいくのか心配でしたが、やっぱり確率は強いと言うことを再認識。

その後の講義は、二つのQuantitative variablesの比較。これまでは、二つのバイナリー、カテゴリー、一つのQuantityといずれかという方法で、二つの間の関係をテストしてきましたが、今回は両方がQuantity。

方法としては、すべての数値をそれぞれの軸にそってプロットしてみるというもの。(Scatter Diagram)そしてその各点からの距離が一番近くなるような線を引いてそこから関係を見いだすというものでした。(linear regression line)このとき、OutcomeをY軸に、ExposureをX軸にする。

そして、この直線をY=a+bXで現し、bのt-testからP-valueを求めるかCIを求めて、Correlationを見る。このとき、Degree of freedomはN-2を使う。

または、correlation coefficient、rの値を求めて、0であればlinear relationはないということになる。

留意点は、estimateは、データの範囲を大きく超えたところでは考えないこと。variableがy=a+b1x1+b2x2のように、三つ以上になる場合は、別の方法になるということ。

どうやら、公式を覚えて計算すると言うよりは、Stataを使ってやるのが一般的なようです。

午後は授業がなかったので、コースメイトと来週月曜に試験がある保健経済のまとめをしていました。例によってたくさん言葉の定義と使い方を忘れているので、結構な時間がかかりました。結局終わらないので、週末も集まることに。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です