SLA研究における反応時間の扱い（Hui & Jia, 2024）

はじめに

以下の論文のレビューというと大げさですが，まあ読んで思ったことなどを書きます。

Hui, B., & Jia, R. (2024). Reflecting on the use of response times to index linguistic knowledge in SLA. Annual Review of Applied Linguistics, 1–11. doi:10.1017/S0267190524000047

X（旧Twitter）につぶやいたことの再構成という形で以下いきます。反応時間はReaction Timeなので，RTと省略して記述します。

RTと正確性

正確さ見ずにRTだけ見たら本質を見誤るというのが1つ目の論点です。RTは，例えば判断課題のRT（語彙性判断課題，文法性判断課題等（Grammaticality Judgment Task; GJT））が使われることがよくありますが，その場合には，誤答（誤った判断）の試行は一般的には除外されます。よって，正答率が低いような文法知識を扱う際には誤答が多ければ除外される試行が多くなり，それだと分析で見たいものが見れなくなってしまうのではというのが著者の主張。

個人的には，そもそもRT使うのは正確さでは弁別できない事象を扱いたいからです。明示的知識・暗示的知識の枠組みでRTを使った課題が用いられているのも，正確さでは母語話者と変わらなくても，RTでは母語話者と差がある文法項目がある，というような前提があるわけです。よって，知識が獲得される初期段階や，そこからの熟達度による変化を対象にするのであれば，RTは使わずに正確性（正答率）を従属変数にするでしょう。もし見るなら正確さの「変化」とRTの「変化」ですね。この論文でもそういう話をしていますが，つまりは複数の観測点を設けて，正確さとRTの関係性を分析するということです。

ということで，それって当たり前体操では…？と思いました。初期段階で正確性を見るというのは，私が共同でやった下記の研究でも論じています。

Terai, M., Fukuta, J., & Tamura, Y. (2023). Learnability of L2 collocations and L1 influence on L2 collocational representations of Japanese learners of English. International Review of Applied Linguistics in Language Teaching. https://doi.org/10.1515/iral-2022-0234

RTの差分を個人の指標とすることの問題

RTを使う分析は，基本的には条件間におけるRTの差分の大きさに焦点があります。例えば，自己ペース読み課題（Self-paced reading task; 以下SPRT）で文法的な文を読んだときと非文法的な文を読んだときを比較し，非文法的な文でのRTが長い（読みが遅れる）ことを比較します。ポイントは，グループレベルで統計的に有意かどうか，というのが結果の解釈のポイントであることです。つまり，差分が小さい人もいれば，逆方向の人（文法的な文を読むときのほうが遅い人）もいるなかで，全体的な傾向としては非文法的な文の方のRTのほうが長いよね，ということをももって，その実験の参加者集団が何らかの文法的な知識を有していると推論するというわけです。

こういう前提はありながらも，実はSLA研究ではRTの差分が個人の知識や能力を反映しているように解釈している研究が存在しています。つまり，何らかのペーパーテスト的なもので測られる正答率と同じ扱いをしてしまっている，ということですね。例えば，何らかの文法性判断課題みたいなものをやったとします。すると，そのテストのスコアが高い人ほど，文法知識を有している（または文法知識が安定している）と解釈すると思います。この点は多くの研究で暗黙的に了解されていることでしょうし，母語話者がテストを受ければ，真面目にやっていないというような場合を除いて一貫して高い正答率が期待されるはずです。ところが，RTは前述のようにこうした個人の能力の反映とみなすことはできません。あくまでグループレベルで結果を解釈するのであって，非文法的な文を読んだときのRTの遅れが大きい人のほうがより文法知識を有している（または文法知識が安定している）と解釈することはできないはずなのです。繰り返しになりますが，母語話者を対象にしてSPRTをやっても，全員が非文法的な文の方に大きな遅れが見られるとは限りません。では，その時に母語話者の中にもその文法の知識がない人がいると考えるでしょうか。

それにもかかわらず，RTの差分をSEMに使ったり，あるいは独立変数や従属変数として扱って回帰分析をしてしまっている，これは問題だよね，ということです。この問題は個人的には超重要で5年以上前から思っていました(しSLRF2019でGodfroid先生にも質問しました)。

このセクションでは個別具体的な研究に対して批判的な言及をしているわけではありませんが，明示・暗示の測定具関係の研究でRTを用いた課題を構造方程式モデリング（SEM）に入れているような研究にはこの2つ目の論点の問題点がつきまといます。

あえて個別に名前や研究をここで挙げたりはしませんが，論文で引用されている研究の中にこの批判が当てはまる研究がいくつもあります。こういう大事な指摘を論文として国際誌に載せる力は私には残念ながらなかったので，こういう論調が出てきたことはいいことだと思いました。

RTの差分を使ってる研究ってどんなのがあるだろうと思われた方は，レビュー的なものが同じ第一著者の次の論文の中にあるのでこれを読まれるといいかと思います。

Hui, B., & Wu, Z. (2024). Estimating reliability for response-time difference measures: Toward a standardized, model-based approach. Studies in Second Language Acquisition, 46(1), 227–250. doi:10.1017/S027226312300027X

上記論文ではRT差分の利用について概念的な問題点を指摘しているというよりは，RT指標そのものの信頼性が低いという問題に焦点をあてているので，差分を使うことのぜひについてはそこまで論じられていませんが（福田先生とやりとりしている中で論文読み直してこのことに気づいたのでgracias）。

RTは様々なプロセスを反映している

これが最後の論点です。SPRTやGJTには様々なプロセスが入ってるので、RTはピュアに知識を反映してると言えないのではないか，という話です。これ，まあそれはそうというか，それはわかったうえでやっていますけどね，というのが正直な感想です。他の要因が極力入りこまないように，条件間での刺激文の違いをできるだけ最小限に抑える工夫がされます。文法構造によってはそれができない場合もあるわけですが，その場合でも単語の長さを揃える，文法構造を揃える，というように実験前の統制が肝になるわけです。それでも単語の長さが違ってしまう場合などは，単語長（文字数で操作化されることが多いです）を回帰分析に入れて残差読み時間（Residual RT）を計算してそれを従属変数にしたり，あるいは単語長を共変量（covariate）として回帰モデルに組み込んだりします。よって，RTを盲目的に何かを表すものとしているのではなく，一応妥当な推論たりうるように実験上の工夫は施されていると思っています。

最後に次の引用の一節で述べられているとおり，「それが何を反映しているのか」，というのは別にRTに限らずあらゆる課題・テスト・測定具についてまわる問題でしょう。

These are perhaps not problems unique to RT research. The key message here is that to ensure validity of their measures (i.e., to make accurate interpretations of their results), SLA researchers should be mindful of the psychological processes involved in completing the tasks. While no measure is a pure measure of anything, knowing what is or can be underpinning a numerical result that we interpret is of paramount importance.

そんなこと言われなくても当たり前のことでしょうと思っている人がほとんどだと私自身は思っていますが，もしそうじゃないとしたらこの基本が頭になくてSLA研究やってるのやばすぎでしょと思ってしまいました。

おわりに

個人的には1つ目と3つ目の論点は別に対して重要じゃないというか当たり前だよな〜って話でした。ただ，2つ目の論点はとても重要なので，ここだけに焦点をあてたconceptual review articleみたいなのだったらもっとよかったのにと思いました。論文を読んでブログ書いたのめちゃくちゃ久しぶりかもしれない。

なにをゆう

たむらゆう。

おしまい。

英語教育0.2

Tamn it!

SLA研究における反応時間の扱い（Hui & Jia, 2024）

はじめに

RTと正確性

RTの差分を個人の指標とすることの問題

RTは様々なプロセスを反映している

おわりに

コメントを残すコメントをキャンセル

はじめに

RTと正確性

RTの差分を個人の指標とすることの問題

RTは様々なプロセスを反映している

おわりに

共有:

関連

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル