はじめに
線形混合モデル(LME)・一般化線形混合モデル(GLMM)で,変量効果をデザイン上で最も複雑なものにする最大モデルを作って,それでだめなら切片と傾きの間の相関パラメータを除いたモデルにトライする,という提案(Bates et al., 2015)をやろうとするとき,相関を除くのは”||”(double-bar syntax)なんですが,単に”|”を”||”に変えるだけじゃうまくいかないのどうすんだろうなと思っていたら解決策が見つかったぽいというお話です。
ちなみに,この方法はdata-drivenで探索的な側面があり,best practiceというわけではありません。
問題とは
具体的なコードとかは参考のところにも挙げたReduction of Complexity of Linear Mixed Models with Double-Bar Syntaxを見てください。
要するに,
m1 <- lmer (res ~ factorA + factorB + (1+factorA | ID), data =dat)
みたいになってるとして,factorAが因子型だとするじゃないですか。そのときに,「相関を外そう」ということで
m2 <- lmer (res ~ factorA + factorB + (1+factorA || ID), data =dat)
としてもうまくいかないよ,というお話です。これ,私もなんかうまくいかないなと思っていたんですが,解決策わからないので放置してました。「うまくいかない」というのはどういうことかというと,ただ単に”|”を”||”で置き換えるだけだと,切片とfactorAの第一水準(どういうコーディングしたかにもよりますけど)との相関パラメータは排除されるけれども,第一水準と第二水準の相関パラメータは残っちゃいますってことなんですね。でも,本当は全部の相関パラメータをなくしたいわけですね。
解決策
単純で,相関ありでfitさせたモデルの入った変数から,model.matrix()関数を使って変数名を直に取ってくる,ということです。m1という変数に相関ありのモデルが入ってるとすると,
model.matrix(m1)
とやってみます。そうすると,モデルの中に入ってる変数の列がガーッと出てきます。その中で,自分が使いたい列名をモデル式にいれる,ということですね。例えば,factorAが事前,事後,遅延テストという3つの水準からなっているとすると,
pre_post <- model.matrix(m1)[,2] #列番号は適当です
pre_del <- model.matrix(m1)[,3] #列番号は適当です
みたいな感じで一旦変数に代入した上で,
m2 <- lmer (res ~ factorA + factorB + (1+ pre_post + pre_del || ID), data =dat)
のようにさきほど代入した変数を使うと,”||”の指定によって相関パラメータがすべて除外されたモデルが作れるよ,ということのようです。
おわりに
詳しくは下記の参考記事を御覧ください。lme4長いこと使ってますが,知らないことまだまだありますね…。
なにをゆう たむらゆう。
おしまい。
参考記事
The Correlation Parameter in the Random Effects of Mixed Effects Models
Reduction of Complexity of Linear Mixed Models with Double-Bar Syntax