タグ別アーカイブ: 論文レビュー

SLA研究における反応時間の扱い（Hui & Jia, 2024）

はじめに

以下の論文のレビューというと大げさですが，まあ読んで思ったことなどを書きます。

Hui, B., & Jia, R. (2024). Reflecting on the use of response times to index linguistic knowledge in SLA. Annual Review of Applied Linguistics, 1–11. doi:10.1017/S0267190524000047

X（旧Twitter）につぶやいたことの再構成という形で以下いきます。反応時間はReaction Timeなので，RTと省略して記述します。

RTと正確性

正確さ見ずにRTだけ見たら本質を見誤るというのが1つ目の論点です。RTは，例えば判断課題のRT（語彙性判断課題，文法性判断課題等（Grammaticality Judgment Task; GJT））が使われることがよくありますが，その場合には，誤答（誤った判断）の試行は一般的には除外されます。よって，正答率が低いような文法知識を扱う際には誤答が多ければ除外される試行が多くなり，それだと分析で見たいものが見れなくなってしまうのではというのが著者の主張。

個人的には，そもそもRT使うのは正確さでは弁別できない事象を扱いたいからです。明示的知識・暗示的知識の枠組みでRTを使った課題が用いられているのも，正確さでは母語話者と変わらなくても，RTでは母語話者と差がある文法項目がある，というような前提があるわけです。よって，知識が獲得される初期段階や，そこからの熟達度による変化を対象にするのであれば，RTは使わずに正確性（正答率）を従属変数にするでしょう。もし見るなら正確さの「変化」とRTの「変化」ですね。この論文でもそういう話をしていますが，つまりは複数の観測点を設けて，正確さとRTの関係性を分析するということです。

ということで，それって当たり前体操では…？と思いました。初期段階で正確性を見るというのは，私が共同でやった下記の研究でも論じています。

Terai, M., Fukuta, J., & Tamura, Y. (2023). Learnability of L2 collocations and L1 influence on L2 collocational representations of Japanese learners of English. International Review of Applied Linguistics in Language Teaching. https://doi.org/10.1515/iral-2022-0234

RTの差分を個人の指標とすることの問題

RTを使う分析は，基本的には条件間におけるRTの差分の大きさに焦点があります。例えば，自己ペース読み課題（Self-paced reading task; 以下SPRT）で文法的な文を読んだときと非文法的な文を読んだときを比較し，非文法的な文でのRTが長い（読みが遅れる）ことを比較します。ポイントは，グループレベルで統計的に有意かどうか，というのが結果の解釈のポイントであることです。つまり，差分が小さい人もいれば，逆方向の人（文法的な文を読むときのほうが遅い人）もいるなかで，全体的な傾向としては非文法的な文の方のRTのほうが長いよね，ということをももって，その実験の参加者集団が何らかの文法的な知識を有していると推論するというわけです。

こういう前提はありながらも，実はSLA研究ではRTの差分が個人の知識や能力を反映しているように解釈している研究が存在しています。つまり，何らかのペーパーテスト的なもので測られる正答率と同じ扱いをしてしまっている，ということですね。例えば，何らかの文法性判断課題みたいなものをやったとします。すると，そのテストのスコアが高い人ほど，文法知識を有している（または文法知識が安定している）と解釈すると思います。この点は多くの研究で暗黙的に了解されていることでしょうし，母語話者がテストを受ければ，真面目にやっていないというような場合を除いて一貫して高い正答率が期待されるはずです。ところが，RTは前述のようにこうした個人の能力の反映とみなすことはできません。あくまでグループレベルで結果を解釈するのであって，非文法的な文を読んだときのRTの遅れが大きい人のほうがより文法知識を有している（または文法知識が安定している）と解釈することはできないはずなのです。繰り返しになりますが，母語話者を対象にしてSPRTをやっても，全員が非文法的な文の方に大きな遅れが見られるとは限りません。では，その時に母語話者の中にもその文法の知識がない人がいると考えるでしょうか。

それにもかかわらず，RTの差分をSEMに使ったり，あるいは独立変数や従属変数として扱って回帰分析をしてしまっている，これは問題だよね，ということです。この問題は個人的には超重要で5年以上前から思っていました(しSLRF2019でGodfroid先生にも質問しました)。

このセクションでは個別具体的な研究に対して批判的な言及をしているわけではありませんが，明示・暗示の測定具関係の研究でRTを用いた課題を構造方程式モデリング（SEM）に入れているような研究にはこの2つ目の論点の問題点がつきまといます。

あえて個別に名前や研究をここで挙げたりはしませんが，論文で引用されている研究の中にこの批判が当てはまる研究がいくつもあります。こういう大事な指摘を論文として国際誌に載せる力は私には残念ながらなかったので，こういう論調が出てきたことはいいことだと思いました。

RTの差分を使ってる研究ってどんなのがあるだろうと思われた方は，レビュー的なものが同じ第一著者の次の論文の中にあるのでこれを読まれるといいかと思います。

Hui, B., & Wu, Z. (2024). Estimating reliability for response-time difference measures: Toward a standardized, model-based approach. Studies in Second Language Acquisition, 46(1), 227–250. doi:10.1017/S027226312300027X

上記論文ではRT差分の利用について概念的な問題点を指摘しているというよりは，RT指標そのものの信頼性が低いという問題に焦点をあてているので，差分を使うことのぜひについてはそこまで論じられていませんが（福田先生とやりとりしている中で論文読み直してこのことに気づいたのでgracias）。

RTは様々なプロセスを反映している

これが最後の論点です。SPRTやGJTには様々なプロセスが入ってるので、RTはピュアに知識を反映してると言えないのではないか，という話です。これ，まあそれはそうというか，それはわかったうえでやっていますけどね，というのが正直な感想です。他の要因が極力入りこまないように，条件間での刺激文の違いをできるだけ最小限に抑える工夫がされます。文法構造によってはそれができない場合もあるわけですが，その場合でも単語の長さを揃える，文法構造を揃える，というように実験前の統制が肝になるわけです。それでも単語の長さが違ってしまう場合などは，単語長（文字数で操作化されることが多いです）を回帰分析に入れて残差読み時間（Residual RT）を計算してそれを従属変数にしたり，あるいは単語長を共変量（covariate）として回帰モデルに組み込んだりします。よって，RTを盲目的に何かを表すものとしているのではなく，一応妥当な推論たりうるように実験上の工夫は施されていると思っています。

最後に次の引用の一節で述べられているとおり，「それが何を反映しているのか」，というのは別にRTに限らずあらゆる課題・テスト・測定具についてまわる問題でしょう。

These are perhaps not problems unique to RT research. The key message here is that to ensure validity of their measures (i.e., to make accurate interpretations of their results), SLA researchers should be mindful of the psychological processes involved in completing the tasks. While no measure is a pure measure of anything, knowing what is or can be underpinning a numerical result that we interpret is of paramount importance.

そんなこと言われなくても当たり前のことでしょうと思っている人がほとんどだと私自身は思っていますが，もしそうじゃないとしたらこの基本が頭になくてSLA研究やってるのやばすぎでしょと思ってしまいました。

おわりに

個人的には1つ目と3つ目の論点は別に対して重要じゃないというか当たり前だよな〜って話でした。ただ，2つ目の論点はとても重要なので，ここだけに焦点をあてたconceptual review articleみたいなのだったらもっとよかったのにと思いました。論文を読んでブログ書いたのめちゃくちゃ久しぶりかもしれない。

なにをゆう

たむらゆう。

おしまい。

【レビュー】タスク中のL1使用について

コメントを残す

はじめに

超久しぶりに論文のレビュー記事。対象は以下の論文。メモ的なものです。

Xu, J., & Fan, Y. (2021). Task complexity, L2 proficiency and EFL learners’ L1 use in task-based peer interaction. Language Teaching Research, 13621688211004632. https://doi.org/10.1177/13621688211004633

概要

Task complexityの異なるinteractiveなタスクに取り組ませ，その中でのL1使用について，熟達度グループごとの比較をした研究です。上級グループでは複雑なタスクでL1の使用が増加しており，このL1使用はメタ認知的あるいは文法に関する会話の役割を担っていた。一方で，下級グループではそういった傾向は見られなかった。という話です。

本研究

RQ

タスクの複雑さがL1使用に与える影響
タスクの複雑さがL1使用に与える影響は熟達度によって異なるか
タスクの複雑さはL1使用のどのような機能に影響を与えるか
タスクの複雑さがL1使用の機能に与える影響は熟達度によって異なるか

参加者

48人の中国語話者大学生
大学一年生でレベルの違う2つの大学からリクルート（24ずつ）
レベルの高い方->high group, レベルの低い方-> low group

タスク

複数コマのナレーションタスクで，Mr. Beanの動画の一部を10コマで表したものが2種類あって，それを二人で協力してナレーションするタイプの課題です（どっちの素材でもsimple/complexでやった）

複雑さの操作
- Robinsonのフレームワークの中で，+/- here and nowを選択
- + here/now は絵を見ながら現在のこととして，-here/nowは写真を見ずに過去のこととしてという感じ（絵を見る時間は3分間でメモとかはなし）
- expert ratingでも難しさの違いがあることは担保してる

手順

L1は使う必要があると感じたら使っても良いと言われている
within subject-designで同じ学習者が2つのタスクをやる

データコーディング

まずはL1の使用をコーディングして5つのカテゴリに分類
– metacognitive talk（タスクのマネジメントなどについての発話）
– grammar talk（文法について話す）
– vocabulary talk（語彙について話す）
– phatics（expressions such as ‘mmm, yeah, ok’みたいなものらしいです)
– off-task talk（タスクとは直接関連しないもの）

L1使用の量については次の3つ
- 全発話語のうちのL1の発話語
- 全ターンのうちのL1のターン
- predominant L1 turns（L2の語数と同じかそれよりもL1語数が多い）とminor L1 turnsに分類

結果

結果は以下の通り。

語数とターンでは有意差あり（難しいほうがL1多め）
ただしpredominant L1 turnsでみると差はない
ただしSD広め
一応RQ1はYES

熟達度別で見ると…

熟達度低いグループでは差がない->RQ2はYES

機能別では…

1%基準で有意なのはgrammarだけ

熟達度も入れてみてみると，高熟達度群でmetacognitive talkとgrammar talkだけsimple/complexの差が有意

議論

以下の記述を見ると，そんなにL1使用が多かったとは著者たちは思ってないっぽい

Our results show that the participants did not use their shared L1 excessively, 27% in the simple tasks and 31% in the complex tasks. In other words, in spite of the fact that participants were allowed to use Chinese, students did not rely much on their L1,….
p.11

先行研究よりは多かったということは言っているけど<-3割はさすがに多すぎでは？（今作っている教科書では，9割以上英語で話せたかというのを目安に自己評価をさせようということでいまのところやってます）
意味中心のやりとりだとL1使用が多くなるとは言われているから，それが原因かも（Moore 2013, Tognini & Oliver 2012がそういうこと示したらしいけど，それどういうロジックなんだ？）<-読んでないです
more complex, more L1

熟達度に違いがあるL1使用例

論文中で会話のスクリプトが出てるんですがここでは要約だけ。

High group

complex task
物語の詳細を描写しようとしたり，描写の質をあげるためにL1使ってる
simple task
語彙を探しているときに使ってる

Low group

complex task
– そもそも細かいとこまで描写しようとしてない
– 過去形も使ってないし，それを修正しようともしない（low awareness towards linguistic forms）
simple task
– こっちだと逆に細かいとこまで描写しようとする
– でも能力的にそこまでできないのでL1を使う（主に語彙）
– 結果的にどっちでもL1使用の量は変わらない

L1の機能

task management的な部分でL1使う（役割分担，どうやってナレーションするか，絵に含まれる情報，などについて話すときにL1使う）

なぜ高熟達度はL1使用多い？

高熟達度群は，英語力にある程度自信があるので，より目標を高く設定して頑張ろうとする
その際にどうしたらうまくできるか試行錯誤する過程でL1が出てくるのではないか
低熟達度群は，自分たちに自信がある内容自体とタスクを達成することに注力していた

感想

そもそも

complexなほうがL1多いと言うけれど，それはcomplexなタスクだからということではなく，学習者に与えるタスクとして（少なくともtaskを授業で使うという目的に照らして）間違っているということではないのかなというのが最初に思ったことです。機能をみたときにmetacognitive talkが他と比べてかなり多いというのは，タスクの進め方について十分な指示が与えられていなかったという解釈もできると思います。タスク遂行（今回であれば絵を描写すること）に必要なリソースは，タスク遂行についてのリソースとは異なるでしょう。pre-taskというとタスク遂行そのものへの準備に焦点がついつい向かってしまいますが，タスクをどう進めるかについても学習者はやり取りする必要が生じることはもっと認識されていいでしょう。そこでL1を使ってほしくないという思いがあるならば，task managementに必要な汎用性の高い表現は与えてしまって，それが使えるようにしてあげることはしても良いんじゃないかなと思います。そうでなければ，進め方を話し合わせなくてもタスクができるように具体的な指示を与えるべきでしょう。

そういったことまで含めて，大事なことはtask単体の複雑さどうこうの効果というよりも，授業の構成でそこをどうカバーするかだと思うし，授業の前後になにをやるかのほうがよっぽど授業内のL1使用に影響を与えるのではないかなと（それもtask complexityのmanipulationだと言われたらそうなんですけどね）。だとしたら，そうやっていろんな要因がある中で1つだけを取り上げてこういう形の研究やることって理論への貢献もあるのかないのかわからないし（いろんな要因の+/-を操作してL1の使用を調べた研究がたくさん集まったらメタ分析ですか？），実践の参考にもなりそうでそんなにならないですよね。

それタスクか？

あとは，ナレーションするタイプのタスクはいいとしてもそれを2人でやるっていうのは状況がかなり特殊だし，そもそもそれタスクとしてどうなん？という指摘もあると思います。インタラクティブなタスクをやらせるならもっとそれに適したタスクはあるはずだし，コマ使うなら10コマをバラバラに渡して，コマをストーリーの順番に並び替えるような情報合成型のタスクにすればよかったんじゃないかなとか思うところもあります。

もっと授業に関しての記述を

あとは，この論文は授業に関する記述が明らかに少なすぎだと思います。タスクをどう実施したかが5行だけです。通常の授業の中でやられたとは書かれていますが，そうだとしたら普段どのような授業をしているのか，授業と関連させているのか（授業の成績とは関係あるのかないのか），どういうビリーフの教師が普段教えているのか，等が決定的に重要ですし，実践に近いことをやるならそういうことを詳しく記述しなければ実践者が参照することも他の研究結果と比べることも難しいでしょう。実践に近いことをやればやるほどそういう要因で結果が容易に変動することは誰しもが想像できるわけですから。査読者もそういうのちゃんと指摘してほしいなと思います。

ペアの差の考慮

結果の表を見ると，SDがかなり広いですよね。だとしたら，それはペアで傾向がかなり異なっていることを示しているわけですから，こういうときこそマルチレベルの分析しないといけないんじゃないかなと思います。まああんまりテクニカルな分析に関しての指摘はしたくないので，あくまでsuggestionて感じですけど。

おわりに

面白そうかなと思って読んだら面白くなかったというオチでした。タスクのことは知識として持っておかないとなと思う一方で，こういう論文はそろそろ読むのがつらいです。

なにをゆう　たむらゆう。

おしまい。

追記

Twitterで反応をもらったので追記します。やや複線化してますけど。

本体は読んでいないが、L2の習熟に対してL1を使ったらどうなんだ、というところの理論的前提はどう語られてるんだろ。たむさんもL1使用量が多い＝悪いというように読んでいるが、本当にそうなのか。
— wtrych (@wtrych) April 28, 2021

「使う必要があると感じたら使っても良いと言われている」のなら、使う必要があると感じたんだろうし、そういうアフォーダンスのタスクだったってことなんだろうから、できるのはせいぜい具体的にどういうところや流れでそう感じたのかとかの分析だと思うんだけどね。
— wtrych (@wtrych) April 28, 2021

そこにtask complexityという要因による変動という観点が入ってるからこそ，L1が多くなるか，熟達度によってそれが違うのか，の論点があるんだと思います。著者らはL1使ったら悪いという立場ではないですね。僕は自分がタスクを使う理由とL1使用が相反すると思ってるのでああいう感想です。
— Tam (@tam07pb915) April 28, 2021

こういう論文に全くついていけないのは、有益云々ではなく、それは学習者の選択することであって、あなた方がどうこういうことではないでしょ、と思うからだね。もちろん教える側として、有意味な英語使用をなるべく多くするための工夫はして良いし、その議論もあって良い。
— wtrych (@wtrych) April 28, 2021

で、授業研究論としても、ああいう指示を出しといて後からあれこれ言うのは個人的には教育学的倫理違反という感じ。じゃあ言うなよっていう。
— wtrych (@wtrych) April 28, 2021

上のレビューでは先行研究のレビューの部分をがっつり端折ってしまっていますが，最初のイントロの部分で，インタラクション中のL1使用はL2 learningにポジティブなインパクトをもつという前提にいることを書いてはいます。

（前略）a growing body of research supports that students’ L1 use can be a social and cognitive tool (Alegría de la Colina & García Mayo, 2009; Antón & DiCamilla,1998; Storch & Aldosari, 2010; Thoms, Liao & Szustak, 2005). That is, judicious use of L1 can enhance L2 learning, giving full play to it as a mediating tool to analyse language and perform tasks. Specifically, L1 contributes to supporting peer interaction, helping learners’ negotiation of social identities and pro- moting the exchange of more meaningful and sophisticated ideas (Al Masaeed, 2016) (p.2)

で，このあとに，L1使用に影響を与える要因として熟達度があることを指摘し，それに加えてタスク要因もあるんじゃないかということで本研究がそこを見るよという流れですね。

ただ，そうであっても個人的にはタスクを用いる理由とその背後にある理論を考えれば，L2使用にこだわる理由があると考えるので上の「そもそも」に書いたようなことを思ったということになります。そういうバイアスで読んでいたので，「L1使ったからどうだっての？」という亘理先生の指摘は最もです。

とりあえず一旦ここまで。また加筆するかもしれないです（2021/04/28 19:15）。

文法知識の手続き化の謎（Sato and Kimのレビュー）

1件のフィードバック

下記論文を読んでちょっとしたレビューというか考えたことを書き留めておこうと思います。

Sato, M., & McDonough, K. (2019). Practice is important but how about its quality? Contextualized practice in the classroom. Studies in Second Language Acquisition. Advance Online Publication. doi:10.1017/S0272263119000159

ざっくりとした内容は，WH疑問文の習得について，教室内で教師とのやりとりという形での”practice”を5週に渡って繰り返していくと，当該項目の手続き化が起こるかどうかという話です。従属変数は正確さと流暢さという2つの側面。それから，練習セッション前の段階での宣言的知識が，練習での伸びとか練習後の正確さを予測するかというのも研究課題です。

宣言的記憶，手続き的記憶，手続き化

本当は，この辺の用語の説明省こうと思っていましたが，やはり自分の理解と論文でどういう捉え方しているかを照らし合わせたほうがいいと思ったのでこの節では用語の理解の確認をします（そもそもそんなものが必要な概念ってなんなのってなりますけど）。論文に書かれている内容自体に興味があるという方は読み飛ばしてください。

宣言的記憶（declarative memory）は，規則に対する（または規則そのものの）知識であると言われています。キーボードのタイピングの例（嫌いな人は嫌いな例ですけど）でいえば，キーの位置の規則といえばいいでしょうか。または，どのキーをどの指で押下するかという知識と言ってもいいかもしれません。タイピングに慣れないうちは，意識しながらキーの位置を確認して押下しますし，スピードもゆっくりですよね。それが，タイピングの練習を重ねるに連れて，だんだんキーの位置がわかってきて，指の使い方も慣れてくるので押し間違いが減ってスピードがあがると思います。これをスキル習得理論から捉えれば，宣言的記憶から手続き的記憶（procedural memory）に頼った行動に徐々に変化しているということになります。これが手続き化と呼ばれるものです。そして，その状態でさらに練習を続けていけば，キーの位置を確認しなくても「体が覚えている」状態になると思います。いわゆる「ブラインドタッチ」みたいなものができるようになるわけですよね。これが自動化（automatization）です。

手続き化というのはこの論文では，なんらかの行動の正確さとスピードが向上することとであると解釈していいと思います。冒頭のイントロでそのような説明がされているので。同じ行動を何度も繰り返す（練習を重ねる）ことによって，ある行動の正確さとスピードが向上するということです。スキル習得理論（Skill Acquisition Theory）はここでいう正確さとスピードの向上というのが，頭の中のシステム自体の変容だと捉えます。つまり，宣言的記憶（declarative memory）に頼った状態から徐々に手続き的記憶（procedural memory）に移行する，これを手続き化（proceduralization）と呼びます。

宣言的知識はあったのか

さて，論文の内容に入っていきます。私がこの論文で一番もやっとしたところは，宣言的知識・手続き的知識というスキル習得理論を理論的枠組として援用ているにもかかわらず，宣言的知識とは何を指すか，そして手続き化とはどのようなプロセスかといったようなことを無視して無理やり結果を解釈しようとしている点です。

まず，知識の手続き化には宣言的知識を持っていることが不可欠です。宣言的知識を持った状態で練習を重ねることにより手続き的知識を獲得し，それが自動化していくというのがこの理論のベースにあるからです。だとすれば，宣言的知識のテストで宣言的知識を学習者が持っていることを事前に確かめる必要があるでしょう（もちろん，実際にテストはやっています）。ここにばらつきがなければそもそも回帰分析もうまくいかないはずなので，ある程度ばらつきがある学習者を対象にするというのはわかります。そうは言っても，事前の宣言的知識テストのスコアの平均値は59%でSDは25.12です。正規性の逸脱はしていないという報告があるので正規分布だと仮定すると，半分以下しか正答できなかった学習者もいると考えられます（注1）。そして，平均値で59%も決して高いとは言えませんよね。そのようなテストスコアしかなかった学習者は，果たしてどうやって手続き化したのでしょうか。というか，そもそも手続き化できたと言っていいのでしょうか。Wh疑問文の生成にはwhの移動やsubject-auxiliary inversion, 一般動詞の場合はdo挿入もあります。これらが複雑に組み合わさる文法だからこそ，その中のどの部分の知識はあってどの部分の知識はないのかがわからないと，何の宣言的知識があったのかやその手続き化もブラックボックス化してしまうのではないかと思いました。

行われたcontextualized practiceについて

疑問文の産出をある程度コントロールしながら教室内で意味のあるやり取りを，というのはわかります。その中で最大限できることをやったのだということも。ただ，画像とともに疑問詞が一緒に提示されて，それをもとに疑問文の産出が行われたというのはちょっと引っかかります。あくまで”practice”だからと言われたら何も言い返せませんが，コンテクストを大事にするということをauthenticityを大事にするということだと理解して読み進めた私からすると，それが”contextualized”かあという感想になります。結局，疑問文の生成にかなり意識を集中させることが可能であるという状況での口頭産出練習活動ということですね。結果的には，そういった状況で練習を重ね，ある程度その効果があったとしても，最終的に正確性は65%程度にしかならなかったのだというのは結果を解釈する上で重要なポイントでしょう。

それから，宣言的知識の影響を調べる分析では5回のセッションのうちの2, 3, 4が合計されて1と5は省くという処置をしたということが書いてあったのですが，”so as to avoid the independence of observation for the inferencial statistics”(p.13)というロジックがよくわかりませんでした。隔週でタスクの内容が異なるので，これやるとそのバランスが崩れてしまうのではと思いました。まあそこに突っ込むとそもそも複数クラスでタスクの順番のカウンターバランスとか取っているわけでもないので，ここで言われている流暢さや正確さの発達が単純に時系列の変動だけによるものとは言えないでしょう。タスクのタイプやそこで扱われたテーマによる変動も含まれているはずです。

また，対照群の設定もありませんので，研究自体はケーススタディとして扱われるべきものかと思います。「教室環境だから仕方ない」だけでこのあたりの実験デザインの粗さにすべて目をつむっていいわけではないと個人的には思いますので，今後別のデータでも同様の研究が重ねられていくといいのかなと思います。

事前の宣言的知識の手続き化への影響

結果で，練習前に行った宣言的知識のテストスコアは正確さや流暢さの発達を予測しなかったということが言われています。つまり、事前の宣言的知識を測る文法テストのスコアが高ければ高いほど正確さや流暢さが伸びやすい、あるいはスコアが低ければ低いほど伸びないという現象やその逆で高ければ伸びにくい、低ければ伸びやすいというような関係性がみられなかったということになります。このことを、著者らは次のように解釈しています。少し長いですが引用します。

Interestingly, the scores of the declarative knowledge test, administered prior to engaging in contextualized practice, did not predict the extent of the practice effect on accuracy or ﬂuency changes. This result indicates that having declarative knowledge of a grammatical structure may not be related to the development of the procedural system of that structure when practice is considered as the cause of the changes. Accordingly, it could be said that contextualized practice alone facilitates a positive change in accuracy, on the one hand. On the other hand, the result seems to challenge skill acquisition theory in that learners may not need an explicit understanding of a grammatical structure to beneﬁt from contextualized practice. However, in the current study, all learners possessed some declarative knowledge of the target structure. Hence, it is premature to argue that practice alone is sufﬁcient to develop procedural memory of a grammatical structure. What the results suggest is, instead, that the amount of declarative knowledge was not related to the extent to which each learner beneﬁted from practice (p.21).

事前の文法テストスコアとの相関がなかったことは、知識がなくても練習すれば良いということは意味しないという主張です。その根拠として、参加者の知識がゼロではなかったからと言っています。つまり、なんらかの知識は持った状態で練習をすることの意味はあるということです。ただし、どのくらい知識を持っているかは関係ないとも言っています。しかしながら，これは矛盾していると思います。これをサポートするには、知識の閾値みたいなものを想定する必要があるでしょう。つまり，知識がないとダメであり、かつ知識の量が関係ないとすれば、ある一定程度の知識が必要で、その先のレベルの知識は関係ないという想定になるはずです。そうるすと，その閾値とはどこなのか，その閾値が意味することはなにか，が重要になってきます。これを突き詰めると，前述した宣言的知識のテストスコアの解釈や，それが何を測っているのかという問題に再びぶつかるわけです。

まとめ

まとめると，Sato and Kim (2019)はタイトルがちょっと煽りすぎでは？と思います。確かに，practiceといっても機械的な口頭産出練習じゃだめだ，もっと文脈依存でコミュニカティブなインタラクションの中での練習でなくては，という主張自体はわかりますし，そのことを文法知識の手続き化という理論的な枠組みを当てはめて研究に落とし込んだのは面白いと思いました。ただ，宣言的な文法知識とはいったい何なのか，そして文法的知識が手続き化するとはどういうことなのか，という部分が分野として確立されたものが提示しづらいところが原因で疑問が色々浮かぶ研究かなというのが個人的な感想です。こういうところに失望して教室SLA研究を「研究」としてやることに対しての意欲を自分は失ったんだなぁと再確認することとなりました。論文を読んでからずっと放置していて公開までに3ヶ月かかってしまいましたが，とりあえず，私がこの論文を読んだ感想はそんなところです。

なにをゆう　たむらゆう

おしまい。

注1: Rのrnorm関数を使い，n = 34, m = 59, sd = 25.1として乱数を発生させ，その中で50を下回る人数を数えるというのを10,000回繰り返すと，中央値は12人，最小値は3人，最大値は20人でした。

タスクタイプとengagementの関係

コメントを残す

久しぶりに論文の簡単なレビュー的なものを残しておきます。下記の論文です。

書誌情報

Dao, P. (2019) Effects of task goal orientation on learner engagement in task performance. International Review of Applied Linguistics in Language Teaching. Advance Online Publication doi: doi.org/10.1515/iral-2018-0188

ざっくりとした概要

独立変数

convergent task (意思決定タスク）とdivergent task (意見交換タスク）の2種類

従属変数

cognitive engagement: idea unitとLanguage Related Episode (LRE)
emotional engagement: タスク遂行中に楽しんでるかどうか（笑ったりしていると1とカウントされる）
social engagement: 相手の発話への貢献（acknowledging, repeating, commenting, developing each other’s idea, or providing backchannels)

これら3つの変数は，全体のターン数で割って比率として分析しています。この他にもemotional engagementについては質問紙調査を実施しています。（5項目で10ポイントのリカートスケール）

例：

I felt enjoyable when interacting and doing the task
I felt interested when interacting and doing the task
I felt bored when interacting and doing the task (おそらく逆転項目）

詳細に見たかった部分

どんなタスクをやったのかというのが一番気になるところでしたが２つのタスクはそれぞれ次のようなものです。

意思決定タスク

自分たちの通う大学の問題点をいくつか挙げ，それに対する解決策を提示する。タスクの最後に，問題点と解決策をリストアップしてレポートを書く。問題点と解決策については合意が必要。

意見交換タスク

ペアの相手と共同経営することになった新しいビジネスについて，オンラインショッピングのシステムを作るか，実店舗での店頭販売をベースにするかについてのディベートタスク。タスクの最後に自分の主張の根拠となる理由と，相手の主張に対する反論をリストアップし，それをもとにしてどちらが良いかについてのレポートを書く。論文中には記されていないが，おそらく学習者はランダムにどちらかの立場に立って議論するように求められ，最終的なレポートについても決められた立場から主張を述べなければならないことになっている。2つのタスクの比較については下記の表参照。

Outcome optionの”opened outcome”というのは，答えが決まっていない（学校の問題点や，オンラインショッピングのほうが良いと主張する理由等については学習者の考え次第）という意味で，「誰が犯人かを推測する」，「バラバラの物語の一部を正しい順序に並び替える」といった答えが決まっている問題解決型のタスクとは異なるという意味（だと思われます）。

意思決定タスクは合意に向かう議論になりすが，意見交換型タスクは自分の立場を主張し，相手に反論するだけで，合意形成は求められないというのが大きな違いです。この2つのタスクについて言いたいことがあるのですが，とりあえずそれは後で述べるとして，結果のまとめとして下記の表を見てください。

2つのタスクを比較して，統計的な有意差が認められたのはcognitiveとsocialのみでした。emotionalについては，タスク中の発話に基づく分析も，質問紙に基づく分析（本文中のTable 3）もともに統計的な有意差は認められず。この結果は，goal orientationがdivergentかconvergentかでタスク中のやりとりに違いが認められるということを示すとともに，Pica et al. (1993)で言われているように，divergent型の意見交換型タスクは学習者のインタラクションを促進するかという観点において”least effective”であるということを示していると著者は結論づけています。

LREについては，意思決定タスクのほうが高いという結果が出ていますが，そもそもの回数が少ないので結果の解釈には注意が必要だと述べられています。意思決定タスクでも，1回のタスク中(10分)で平均して2.44回しかLREは出現していません（しかもSDが平均値に近いくらいの値なので，0回というペアもかなりあったことが推測されます）。

Emotional engagementについては，goal orientationが違うことはあまり影響しないという結果でした。意見交換型のタスクでも，質問紙の結果では10段階で平均8.2（意思決定タスクは8.45）ですから，どちらのタスクもemotional engagementは高いのだろうと思われます。ただし，どちらもSDが5を超えている点には注意が必要になります。

タスクの問題点

意見交換型タスクが意思決定タスクに劣ったというのは，予め立場が決められていたことが問題なのではないかと思います。自分が与えられた立場に同意できればともかく，ディベートの場合必ずしも自分の意見と一致する立場で主張を述べなければならないことも多く（コレ自体はcritical thinking的な意味で言えばそこまで問題とも思わないが），それがengagementを低くしてしまったという点もあるように思います。ディベートはどちらの立場からも意見を述べられるようなトピックを扱うのだと言われたらそれはそうかなと思いますが。

また，意思決定タスクが自分たちの学校についての問題であるのでトピックに対する親密度も関係があったのではないかという点も指摘ができるかもしれません。モノローグタイプのタスクではありますが，トピックの親密度が高いほうが発話が豊かになるという指摘もあります(Qiu, 2019)。

意見交換型はビジネスの問題で，普段からこの問題に関心がある学生だったのかどうかがわかりません。ビジネス系の学生であれば背景知識も豊富でたくさんのidea unitが出てきたでしょうけれど，そうではない場合にこの問題を語るのは難しい気もしますし，英語の熟達度的にもこちらのほうが専門的な用語が多く必要となってくるのではないでしょうか。もっとも，p.7のセクション2.4のすぐ上のパラグラフで

With regard to practical reasons, both tasks were included in the learners’ syllabus and course materials, and the teachers of the participants reported to have used them frequently in their previous teaching activities. The two task topics (university issues and shopping) matched the themes covered in the learners’ theme-based course materials. To reduce a possibility that task topic might have impacted learner engagement, the two topics were selected based on the informal survey that reported university and shopping topics as the learners’ two most favorite topics.

という記述はあります。査読者に指摘されたのか，あるいは最初から書いてあるのかは定かではありませんがトピックの親密度という観点についてはディフェンスしてあります（つまり，著者もそういうことを言われるだろうという認識はある）。

とはいえ，あえてトピックを変えなくとも学校の問題点と解決策というトピックに固定して，意思決定型は合意を求め，意見交換型はおのおのが思う問題点と解決策をペアでシェアするという構成でもよかったように思います。というか，そちらのほうが「意見交換型」としては個人的には問題なく受け入れられます。ただし，debateという相手への反論が要求されるようなものでなければ，今回観察された以上に意思決定型との差が大きくなってしまうかもしれないとも思います。debateという形式を取ることで，相手の言ったことに対してただ単に「へー」で終わらせることができなくなっているという点はあるでしょう。そうした点で，合意を求めずともインタラクションが活発になるように仕組むための工夫がdebateを持ち込むという結果になったのかもしれません。

もう一つ個人的なことを言えば，ディベートという形式を取らない私が考えているような意見交換型タスクであれば，多様な意見がかわされればかわされるほど盛り上がることが見込まれるので，2人よりは3人，3人よりは4人というグループ構成で行ったほうが議論が盛り上がるのではないかと思います。1人で様々な角度から物事を分析的に考えて意見を提示できるような学習者同士のやりとりであれば2人でも議論は大いに盛り上がるでしょうけれど，大学生1年生や2年生でもそうしたことが2人で成立することがそこまで一般的に当然として考えられるとは言えないと思うからです。

この論文のポジティブな点

とまあいろいろ言いましたが，この論文の著者の狙いとは違うかもしれませんが，この論文を自分がポジティブに受け止めている点もあります。それは，タスクに関わる変数ではなく，タスクのタイプを主題として取り上げていることです。もちろん，上のTable 1のようにタスクをある観点（変数）で見たときに違いがあるということではあるのですが，実際にはdivergent-convergentという2つの異なるタイプのタスクを比較しています。これまでのタスク研究は，良くも悪くもタスクを操作する際の要因に着目して細かく検証することが多かったように思います。それも意味のあることで，準備時間の有る無しであったり，タスクの難易度を操作してみたり，というのは教育的示唆という観点でも有益でしょう。これらの要因は教師が操作することができるわけですから。一方で，現実的にタスク・ベースのコースを作ろうとシラバスを考え始めたとき，そのベースになるのはタスクを調整する変数ではなく，どのようなタイプのタスクにどのような順番で取り組ませるべきなのかということになるのではないかと思います。直感的に，意思決定タスクと情報伝達タスクを比較したら前者のほうが難しいから情報伝達が先にくるべきだろうのようなことは考えられます。ただし，タスクタイプの観点から見て，タスクの難しさやその要因を整理するということについていえば知見の蓄積がまだまだ乏しいように思います。

私が今関わって作っている教材もタスクタイプごとに整理していますが，タスクタイプという切り口は直感的に捉えやすく，異なるタスクの比較が見えやすくなります。そういうタスクのタイプという要因を正面から取り扱っているという点で，この後に続く研究が楽しみになってくるかなと思っています。ただし，従属変数のengagementについてはもう少し何か他の変数がないのかなということを思ったりしています。

おわりに

タスク系に正面からタックルした研究というのをなかなかできていないので，こういう論文を参考に何かできないかなと考えたりしています。

なにをゆう　たむらゆう。

おしまい。

参考文献

Pica, T., R. Kanagy and J. Falodun. 1993. Choosing and using communication tasks for second language instruction and research. In G. Crookes and S. M. Gass (eds.), Tasks and language learning: Integrating theory and practice, 9–34. Clevedon: Multilingual Matters.

Qiu, X. (2019). Functions of oral monologic tasks: Effects of topic familiarity on L2 speaking performance. Language Teaching Research. Advance Online Publication. doi:10.1177/1362168819829021

タスクにおける”sub-goal”という概念

1件のフィードバック

はじめに

下記の本を月例の研究会で1章ずつ読んでいます。

Recent Perspectives on Task-Based Language Learning and Teaching

Ed. by Ahmadian, Mohammad / García Mayo, María del Pilar

この本全体については，Cognitive-Interactionist, Sociocultural Theory, Complexity Theory, Pedagogic and Educationalという4つのperspectivesからなる12章の本で，個人的には通読するよりも気になった章だけつまみ食いするという読み方がいいかなと思います。正直言ってあまりおもしろくない（質があまり高くない）チャプターも結構ありますので。

第7章がおすすめ

この本の第7章は，Martin Bygateが書いた”Dynamic Systems Theory and the Issue of Predictability in Task-Based Language: Some Implications for Research Practice in TBLT”という論文です。タイトルにDynamic Systemsと書いてありますが，そこまでDSTを推しているということではなく，「タスクってさ，何かやらせてみてもどんなことが起こるかわからないしリアクティブに教えるのがいいっていうけどやっぱそういうの不安だもん」みたいな言説について，predictabilityが一応ありますよっていうことを言うための理論的基盤としてDSTを持ってきているという印象です。それをベースにして，ケーススタディ的にデータを見てみるというようなのがこの論文の流れです。

この章を読むまでは，「この本は失敗だったかもしれない」と思うほどがっかりさせられるようなものが多かったのですが，この第7章は面白いなと久しぶりにワクワクしました。もちろん，ちょっとそれはどうなのと思うところもあるにはありました。ただ，それを差し引いても面白かったです。

何がそんなに面白かったか

一言で言えば，この記事のタイトルにもしている”sub-goal”という概念を導入している点が個人的にはこの論文で一番inspringだと思ったところです。示しているデータはおそらく過去の研究のものでしたし，特に分析をしっかりしているということではないのですが，それでもこの”sub-goal”というものはTBLTの研究でいろんなことができそうだなと思えた，そう思わせてくれるような内容でした。もちろん，実践においても示唆があることだと思いました。

sub-goalとはなにか

TBLTをご存知の方には馴染みのあることだと思いますが，タスクにはゴールがあります。spot-the-difference taskなら2つの絵の間にある違いをすべて見つけ出すことがゴールですし，picture description taskなら絵（または写真）を見ずに口頭で描写し，もとの絵（や写真）にできるだけ近いものを完成させるというのがゴールになります。この章で例として用いられているタスクは，6コマ漫画を6人で分割して1人が1コマずつ持ち，見せ合わずに正しい順番に並び替えるというものです。この場合，「正しい順番に並び替える」というのがゴールになります（注1）。

Bygateが言っているのは，このゴールに向かう前の段階にいくつかのphaseがあるということです。どんなphaseかというのを説明する際にBygateは，pragmaticとかdiscourseとかいう言葉を説明の際に使っています。少し長いですが，このphaseについて説明している箇所を本文から引用します。

A phase was defined in terms of the pragmatic coherence of a stretch of discourse which while not in itself achieving the overall task goal, likely contributed to achieving a useful enabling sub-goal. For instance, descriptions of the individual pictures in random order would contribute to the sub-goal of sharing information about the pictures, but would not themselves achieve the overall goal of sorting out the sequence and telling the story (even if by chance the students did actually provide the descriptions in the exact sequence of the narrative). Similarly, discourse during which students exchanged information about what they thought was going on in their respective pictures could not be interpreted as ‘telling the story’ either. Where students spent time suggesting potential sequencing of the pictures (still without seeing them), possibly accompanied by brief justifications, this kind of talk too contributes to a potentially useful subgoal, but still does not constitute the ‘telling of the story’. Hence the macro-purposes of the different discourse phases were inferred in relation to the pragmatic criterion: what are the speakers jointly trying to do at this point? Identification of phases enabled an assessment of the trajectories that the groups followed (p.155).

上の引用中では，”(sorting out the sequence and) telling a story”というのがタスクの最終的なゴールで，そこに到達するために有効なやりとりや言語行為をphaseとしています。複数コマ漫画の並び替えならば，まずは個々人の持っている写真を描写することからスタートすると予測されるので，それが一つのphaseになるというわけです。そして，自分の写真とグループメンバーの写真についての情報を全員が持った状態で，それぞれの写真に描かれている情報の違いを見つけることになります。そして，「いったいどんなストーリーなのだろうか」という話をしながら前後関係を特定していくことになると予想されます。これらの段階もすべてphaseであると。そして学習者はこういった複数のphaseを経て，最終的なゴールに辿り着くというわけです。

Bygateは，複数コマ漫画並び替えタスクでは次の5つのphaseがあるとしています。

Description
Comparison
Interpreting gist
Sequencing
Narrative

ちょっとなんでだろうなと思ったことは，タスクの特性などから予測してこのphaseを導出したのではなく，実際の発話の書き起こしを分類してそれぞれのラベルを貼ったという点です。その後に，結果の解釈として，「複数のグループでタスクをやらせたけど，ほとんどのグループのタスク遂行中の発話に5つのphaseが見られた」みたいな議論に持っていっているのです。そして，このことから学習者たちのやりとりは予測可能なtrajectoryを通ってゴールに向かうという話につなげています。もともと発話データから導出した概念なのだから，導出に用いたものと同じ発話データにphaseが見られるのは，複数グループで見てみたとはいえある程度当たり前なのでは…という話です。さらに，もし仮にそこに違いがあり，違うグループでphaseの種類や用いられた数が異なっていたとすれば，最初に設定した5つのphase自体がそもそも分析に役に立たない枠組みだということになりますよね。この点については謎です。

また，個人的に気になったのは，最終的にタスクを達成できたかどうかと，用いられたphaseの数自体には関連が見られなかったという点です。例えば，分析している5つのグループのうちで3のgetting gistが見られなかったグループが1つ，5のnarratingが見られなかったグループが1つ，2のcomparisonと4のsequencingが見られなかったグループが1つという記述がありますが，この3つのグループはいずれも最終的なゴールである並び替えには成功しているというのです。この部分については，例えばcomparisonがなかったグループはもしかするとズルして絵を見せあっていたのかもしれないというような考察がなされています（このグループは終わるのも早かったらしいです）。しかし，もし仮にタスクの最終的な達成と何も関連がないのであるとすれば，このsub-goalという考え方自体がそんなに大事なものなのか？という疑問も湧いてきます。

さらに，言語使用面についてはphaseによって特徴的な部分が見られなかったと考察しています。つまり，同じphaseなら同じような言語表現が用いられるというようなことはなく，同じcomparisonというphaseでもグループごとに様々な表現を用いて行っていたと書かれています。ただし，”linguistic domains“については予測が可能かもしれないとしています。このdomainの例として，下記のようなものがあがっています。

the language for expressing impressions, inferences and approximations; the language of description and for identifying similarities and differences; the language for expressing motivations and consequences; the language for sequencing; and the language used for checking understandings (p. 160).

素人考えでちょっと微妙だなと思うのは，このdomainというのはほとんどphaseのラベルと同じようなものなのではということです。会話分析みたいなことに明るいわけではないのですが，ここまで抽象度があがってしまうと，それが予測できたことで何に活かされるだろうかということは疑問です。

sub-goalという考えのなにがそんなに大事？

さて，なんか，sub-goalってなんか別にそんな大事じゃないじゃんと思っておられる方もいるでしょう。私もここまでは批判的に書いてきています。ここからは，「そうはいっても結構色々なところに通じる概念じゃないかな」ということを書きたいと思います。

先ほど，「タスクの達成とは関係ない」という議論がされていると書きましたが，もし仮にそれがそうだったとしても，教室場面での教育介入を考えた際にはsub-goalという概念は大事だと思います。まずは，授業の準備段階でsub-goalは役に立ちます。

タスクの作成・計画段階で有益

これはタスクに限ったことではないのですが，どのような言語活動を仕組むにせよ，教師は活動を考え，その手順を構想し，最終的にどこに辿り着くことを目指すのかを思案しますよね。その際に，活動に取り組ませたときにどのようなことが想定されるかを全く考えない教師はいないと思うのです。「きっとこんなことが起こるだろうな」とか，「こういうことになったらどうしようか」などと考えながら，事前に準備しておいたほうがよいことについては仕込んでおき，指示の与え方や順序を工夫したほうがよさそうならそのように対策を打っておくはずです。このとき，例えば事前にタスクのsub-goalがわかっていれば，学習者が起こす行動の予測がつきやすくなるといえます。冒頭にも書きましたが，タスクは（特にやりなれていないものをやる場合は）出たとこ勝負の部分もあり，何が起こるかわからないから事前にあれこれ教えてこちらの想定内でやってほしいという教師の思いも理解はできます。しかし，今後sub-goalという枠組みで様々なタスク遂行中に発生するsub-goalsが明らかになってくれば，「このタスクをやる際にはおおよそA, B, C, Dのような4つのphaseを通過すると考えられます」みたいな提案ができますよね。これが事前にわかっていれば，自分の教えている学習者との兼ね合いで準備が必要な部分や，そのタスクに取り組む前にやらせたほうが良いことを前時にやっておくというようなことができるのではないでしょうか。もっと言えば，sub-goalが目標になるような”sub tasks” を用意して，それらのタスクに取り組ませた後のもっと大きなチャレンジとしてsub-tasksが複合的に必要となるような別のタスクを用意するというようなことも考えられます。このように，タスクを構想したり，授業の計画を立てたりする際に，sub goalsが明確になっているということは大事だと思っています。

タスク遂行中の介入指導で有益

次は，実際に教室場面での指導において，sub-goalがわかっているということが役に立つ場面を考えたいと思います。あるタスクを与えて，学習者がそれに取り組んでいるとき，なかなかうまく言っていないことに教師が気づいたとします。例えば，複数コマ漫画の並び替えタスクで沈黙してしまっているグループがあったとしましょう。このとき，どのように促せばタスクのゴールに向かえるでしょうか。このときも，sub-goalはヒントになり得ると思います。例えば，5つあるphaseの序盤でつまづいているようならば，「まずは全員の持っている絵について描写して，自分の持っているものと他のメンバーの持っている絵の違いがどこにあるかを特定してみよう」という指示ができると思います。つまり，descriptionとcomparisonというsub goalを明示するということです。その先の，みんなの持っている絵の違いはわかったけど，そこから先に進めないというグループがいたら，「全員の絵の情報を統合して，ストーリーを考えてみよう」という指示も可能でしょう。もちろん，phaseは順番にこなさなければいけないということではありませんが，指針としてその場で与える分には問題ないでしょう。

そんなめんどくさいことしなくても，「じゃあ最初から，『まずは描写，そして比較，あらすじの解釈，並び替え，ストーリーの完成』というphaseをすべて提示してそのとおりにやらせればいいではないか」という意見もあるかと思います。学習者のレベルによってはそうした道筋を示すことも必要になってくるかと思いますが，Bygateは，phaseに完全な順序があることや，まったくoverlappingがないということを否定しています。

it is important to note that the phases do not imply total predictability. For one thing, the phases sometimes occur more than once in a single transcript, with students going backwards and forwards between, say, finding the gist and trying out a sequence (p.160).

また，「たとえsub goalsが明示されなくとも学習者たちは多かれ少なかれphaseを経てゴールに到達する（＝予測可能性がある）」ということを言っています。つまり，phaseは与えられなくてもある意味でタスク達成に向かう試行錯誤の中で創発するということですね。それを手助けしてやることはあったとしても，最初からこの通りにやりなさいというのはtoo much interventionかなと個人的には思います。「正しい手順」や「理想的な手順」のようなものがあると学習者が思ってしまい，それに囚われすぎてしまう可能性があるからです。例えば，2. comparisonからいきなり4. sequencingに入ることも十分にありえることです。「まって，私の絵ではりんごは食べかけで，Aくんの絵ではりんごは丸々1つあるから，きっと私の絵はAくんの絵よりあとにくると思う」のような発話が起こることは歓迎されるべきで，「まって順番考えるより先にストーリーをつかもうよ」となってしまっては学習者の自由な発想が抑制されてしまうかもしれません。よって，sub goalを与えてそれに沿ってタスクを行わせることは有効な手立てとは言えません。

つまり，事前に教えてそのとおりにやらせることができるから役に立つというわけではありません。そうではなく，リアクティブな指導がやりやすくなるということです。教師自身がsub goalsを把握した上でタスクを用いれば，そのグループの状況に沿って，またはぶつかっている困難点に合わせてリアクティブに介入を行うことができると個人的には思っています。

事後のフィードバックで有益

sub goalという考えは，事後のフィードバックにとっても有効かもしれません。もしも，時間内にうまく課題を達成できなかったグループがあったとして，そのタスクにおいてsub goalsをいくつ達成できたかという点で見てみると彼らの課題が見つかるかもしれないからです。Bygateの示したデータでは，すべてのグループがタスクを達成したため，「phaseとタスク達成の関係」は完全には明らかになっていません。タスクを達成できなかったグループがいたとして，そのグループがもし仮にすべてのphaseを通過したのにできなかったとすれば，phaseはirrelevantということになります。しかしもしかすると，どこかでつまずいたことが原因でタスクを達成できなかったという学習者がいるかもしれません。絵の微細な点について，描写しなかった（またはできなかった）けれども実はその点が他の絵との違いで，その情報を全員で共有していればタスクが達成できたかもしれないということはありえます。別のケースで，sequencingでつまづいて終了してしまったとします。このときに，follow, precede, come before, come after, first, next, then, before, afterのような前後関係を表す表現がうまく使えなかったので並び替えができなったということがわかれば，その学習者たちに必要なのはこうした前後関係を表現する言語リソースが足りていないということになり，そこがteaching pointになるでしょう。言語面については，varietyが大きすぎて一貫性は見られなかったというのがBygateの結論でしたが，具体的な場面での話に限定すれば指導のヒントにはなるでしょう。

研究への示唆

研究という視点では，このBygateの論文からもう少し発展させた研究が必要だと思います。例えば，他のタスク（意思決定タスクなど）でも同じようにphaseの共通性は高いのかどうかや，同一タスクでタスクの諸条件（複数コマ漫画並び替えタスクにおけるコマの数やグループの人数の組み合わせ）が変わってもphaseに変化はないのか，などが気になっています。

また，Bygateは会話の書き起こしからphaseを導出していますが，そうではなく，教える側があるタスク中に発生すると考えられるphaseを予測し，それがどの程度実際の会話で起こるのかといったこともpracticalな意味で関心があります。

あとは，少し非現実的かもしれませんが，実験的な操作を加えて群間比較するというデザインも思いつきます。たとえば，複数のphaseの中で特定の1つを禁止するような指示を与えてみて，そのグループがどれだけタスク達成に困難を抱えるかを比較することで，タスク達成に寄与しやすい（または必須かもしれない）phaseを特定するというようなこともできるかもしれません。

おわりに

以上，Bygateが提案した，taskのsub-goalという点について，批判的に検討し，その後に，意義があると思われる点についていくつか述べました。やはり，タスクの中身，つまりタスク遂行中に何が起こっているのか，そうしたことを，sub-goalという概念で整理することを試みたことにこの論文の意義があると思います。DSTの枠組みにうまくfitしているかという点についてもやや疑問があったのですが，あまり詳しく批判できるほどの知識を持ち合わせていなかったのでそのあたりはまた別の機会にということにしようと思います。ということで，今回は久しぶりにTBLTに関するお話でした。

なにをゆう　たむらゆう。

おしまい。

注1. もちろん，仮にオリジナルのストーリーとは違う順番であったとしても，こちらの想定を超えたイマジネーションで別の順序でも筋の通った物語になるということがあれば，そしてそれを説明できれば，「正しい」順番ではなかったとしてもタスクのゴールを達成したと評価することもできると思います。

理論に暗示的知識が内包されたときのジレンマ

1件のフィードバック

以前，教育効果を測定する目的で明示的知識と暗示的知識を測定し分けることの是非についてのエントリーを書きました。

https://tam07pb915.wordpress.com/2016/08/25/implicit-explicit-instruction/

そのときの結論は，「教育効果を測定するのに明示・暗示の話は持ち込まなくていいだろう」というものでした。ただ，理論のスコープが暗示的知識を含むととき，そうも簡単にいかない問題がそこにはあるなと最近（といっても書こうと思ってずっと書けてなかったので少し前）思ったので，その話を書きます。きっかけは以下の論文。

Zhang, X., & Lantolf, J. P. (2015). Natural or Artificial: Is the Route of L2 Development Teachable? Language Learning, 65, 152–180. doi:10.1111/lang.12094

ここで取り上げる理論とはいわゆる処理可能性理論（Processability Theory）です。これが理論足りうるかどうかはとりあえず置いてきます。処理可能性理論とは何かということは上記の論文を読んでいただくか，あるいは同じ号に提唱者のPienemannが書いた論文が載っていますのでそちらをお読み下さい。ざっくりいうと，学習者の言語発達は心理的・認知的な処理能力によって規定されていて，ある段階を飛び越えて次の段階に進んだりはしないという理論です。この理論と同じく紹介されるのが教授可能性仮説（Teachability Hypothesis）というものです（注1）。これは，教育的指導介入によって発達段階をスキップすることができず，学習者が今いる段階よりも上のレベル（正確には2レベル以上高いレベル）の言語規則を教授してもそれは習得されることはというものです。Zhang and Lantolf (2015)の論文は，この教授可能性仮説にそぐわないデータが得られたことを報告するというような趣旨の論文です。

こうした言語の発達段階や発達順序に関する研究が主たる関心としているものは，学習者の暗示的知識の発達であると考えられています。つまり，意識的な知識として知っているかどうか，明示的知識を持っているかどうか，ということではなく，暗示的な知識の発達に段階を規定するものです。例えばRod Ellisなんかは，暗示的知識の発達には発達段階による制約があるため，明示的な文法指導介入はそうした発達段階の制約を受けないと考えられる明示的知識の獲得を主たる目的とすべきであるという立場です。明示的知識は間接的に暗示的知識の習得を促す（weak-interface）というのが彼の立場なわけですから，この主張もうなずけます。

問題は，この「発達段階を教育的介入によってスキップできるかどうか」を問題にする場合，暗示的知識の測定が不可欠になってくるわけです。なぜなら，発達段階があるのは暗示的知識であって，明示的知識ではないと考えられているからです。実際，Zhang and Lantolf (2015)でも，guest editorのRod Ellisから「この研究の結果は明示的知識の発達を示しているだけで暗示的知識の発達であるとはいえないんじゃないか？」みたいなツッコミがあったそうです（p.174）。筆者たちの反論は，Pienemannたちが使っているような測定具と発達段階の決定規準（emergence criteria）を使っているのだから，もしこの研究がその点で批判されるのだとしたらそれは処理可能性理論や教授可能性仮説についても当てはまるじゃないかというような反論をしています。

で，一応Pienemann自身は同特集号の論文の中で，まず教授可能性仮説は処理可能性理論に含まれる必須の要素というわけではなく，理論というよりは実践の話で，いくつか研究でサポートされたからまぁプラクティカルにそうなんじゃねーのかみたいにしているだけで処理可能性理論はもっと緻密に作られた理論であるというようなことを言っています。つまり，教授可能性仮説は捨てても処理可能性理論は守られるっていう話なんですね。なんか強がりっぽいこと言ってますけど。でも多分なんですけど，SLA研究者のほとんどは処理可能性理論と教授可能性仮説に関連性あると思っているしむしろ理論の一部か派生かくらいには思ってるんじゃないですかね（実際僕もそう思ってました）？「みんな俺の理論を誤解している」ってそういうことなんでしょうか？百歩譲ってそうだったとしても，測定具の話は処理可能性理論にも及ぶわけなので，そこはちゃんと反論しなくてはいけませんよね。

測定具の話に関してPienemannは，elicited imitationとspontaneous productionを同一視してはいけない。elicited imitationはダメだがspontaneous proudctionは違うんだみたいなことを言っています。これって反論したようで実は全然反論できていなくて，前回も書きましたが，行動データで暗示的知識測定しようとしたらもう「産出データじゃ無理なんじゃね？」っていうのがここ最近の流れです。spontaneous productionってのが「elicited imitationとは違うものを測っている」というのならば，それが測っているものが暗示的知識かどうかも検証されないといけないですよね。でも，実際何が暗示的知識を測っているのかっていう問題の闇は深くて，そんな簡単なことではありません。

処理可能性理論のことを血眼になって研究している人ってこの問題どう考えているんですかね？もちろん，この問題は処理可能性理論についてだけではなくて，「言語発達の制約を受けるのは暗示的知識」という主張をするすべての研究者に当てはまります。この問題ってどうやったら論理的に，あるいは実証的に回避できるのか，有効なアイデアは考えてもパッと思いつきません。熟達度がそれほど高くなく，spontaneous productionで暗示的知識と弁別できないような明示的知識を使えないような学習者ならspontaneous productionでは暗示的知識を測定できるとかでしょうか？実際問題として処理可能性理論が対象にするような学習者は超高熟達度の学習者ではないわけですし。でもあまり有効な反論とはいえないですね。結局はパフォーマンス上に明示的知識の介入がないことを示さないといけないわけですから。うーむ。みなさんどう思います？

なにをゆう　たむらゆう。

おしまい。

注1. Pienemannは同じ特集号の論文で，” …theTeachability Hypothesis is not a corollary of PT.” (p. 138)と言っていて，教授可能性仮説はPTの一部ではないようなことを言っています。

PPPいいよっていう論文

1件のフィードバック

ELT Journalから，PPPいいよっていう論文が出たようです。

Anderson, J. (2016). A potted history of PPP with the help of ELT Journal. ELT Journal. Advance Online Publication. doi: 10.1093/elt/ccw055

今年の全国英語教育学会のシンポジウムでもPPP vs TBLTが取り上げられますよね。タイミング良いというかなんというか。読んだらまたここに追記しようと思います。

なにをゆう　たむらゆう

おしまい。

LMM？

コメントを残す

Language Teaching ResearchでTaskの特集号が出ていました（裏話によると後づけで採択された論文を集めた特集号らしい）。そこで，とある論文を見たら，”linear mixed model analysis (LMM)”が使われたと書いてありました。

Focus on form through task repetition in TBLT

いわゆるLMEのことかな？と思いつつ読んでいると，固定効果とランダム効果をいれたモデルでうんぬんと書いてあるのでやっぱりそうかと。general linear modelというのは一般線形モデルなので普通の回帰分析や分散分析と同じだけれど，ランダム効果をいれたものは（general） linear mixed-effects modelと呼ばれる（ただし普通GLMMはgeneralized linear mixed-effects model）。つまりmixed effectsとつくものは変量効果をいれたもの。ちなみにgeneralized modelというのは確率分布が正規分布以外のもの。

結果のところを読んでいると，なんかF値とか報告されています。3つの2次交互作用と1つの3次交互作用がモデルに入っていると書いてあるのに交互作用項がどうなったのかとかの報告が一切ありません。そしてランダム効果の推定値も報告されていません。分析に用いたソフトウェア（RなりSPSSなりSASなり）の報告もありません。

？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？

え？ていうかこれただ分散分析やっただけじゃないのか？

ちなみに，「GLM (general linear model）で分析しました」みたいなことが書いてある論文も以前みたことがあります。それって結局ただの分散分析ですよねみたいな。普通GLMはgeneralized linear modelの略です（APA第6版のp.119にもそう書いてある）。別に分散分析やったなら分散分析やったでいいからそう報告してほしいですね。なんか変にかっこつけてるのかなんなのか知らないですけど素人騙しでmixed-model使ったとかそういうの本当にやめてほしいです。ていうか査読でチェックされなかったんかいなこれっていう…

あまりLTRをdisると同じ号に載ってる先輩の論文にまで飛び火するのでこの辺にしておきましょう（※彼の論文は何も悪くありません）。

なにをゆう　たむらゆう。

おしまい。

Schulz (2001)の感想

コメントを残す

6/6に，名古屋大学にて第14回日英・英語教育学会（JABAET)研究会が開かれることになりました（詳しい内容はこちらから）。

そこで，論文批評というのがあり，私が文法指導のビリーフに関する次の論文の概要報告を担当することとなりました。

Schulz, R. A. (2001) Cultural differences in student and teacher perceptions concerning the role of grammar instruction and corrective feedback: US – Colombia. Modern Language Journal, 85, 244 – 258. doi: 10.1111/0026-7902.00107

私の概要報告のあと，JABAETの会長である安間一雄先生（獨協大学）より論文の批評があります。私に与えられたのは15分のみで，私のコメントは本番で話すことはなさそうなので，ここに論文を読んだ私の感想を書いておきます。

質問紙調査というものを用いた調査としては極めて質が低いと言わざるを得ない。結果的に質問紙の1項目ずつのパーセンテージを恣意的に定めた10%という基準の差がみられたか否かの報告に終始していて，結局なにを測りたかったのが不明のまま。
本来，質問紙によってある構成概念を測定することを試みる場合，それが適切に測定できているかの検証を行う必要がある。Schulz(1996)においてもそのような手順を経て質問紙の開発を行ったという記述が一切ない。また，文化的に異なる2群と，学習者・教師という2群が設定されているが，それぞれの質問紙が同じ構成概念を測定しているのかどうかも定かではない。したがってそのような質問紙を用いて得られた結果を比較することに本当に意味があるのかどうかも疑わしい。
質問紙項目のワーディングにかんしても，”formal study of grammar”と”study of grammar”が指すものは同じなのか違うのか，あるいは”communicative ability”と聞いたときに回答者が思い浮かべるものは同じであるのかが疑問。
さらに，タイトルに有るのは”role of grammar instruction”であるのにもかかわらず，質問紙ではinstructionという言葉は使用されていない。教員側の質問では，なぜか”学習者がどう思っているかを教師がどう思うか”というような質問項目があり，これがなぜ”the role of instruction”に関する教師のビリーフを測定しているといえるのかも不明。学習者側からのlearningと，教師側からのteachingが完全に一致することはないとはいえ，教師側の設問文をみると教師の指導観に関する質問であったり学習者の教師観に関する質問であったり，一見してこれらが教師のビリーフを測定しているのかが疑問である。ただし，理論的な背景に基づいて教師の指導観という構成概念の下位尺度として，教員の指導観と学習者が教師や教師の行う指導に対してどのように感じていると思うか，という2つの構成概念を仮定するならば話は別であるが。
誤りの訂正に関しても同様で，recastsのような暗示的訂正から，規則の説明までも含むようなかなり明示的訂正までかなり幅がある上に，スピーキングとライティングというモードの違いでも訂正の出し方，またその訂正のあと学習者になにを要求するかもかなり変わってくる。2001年時点でもCFでこのような区分がされていなかったということはないはず。
「明示的指導」にも様々なバリエーションがあるのと同様に「誤り訂正」にもバリエーションは豊かである（むしろ前者のバリエーションはかなり無視されている感があるが）。これらの指導効果のメタ分析をするにあたっても，調整変数分析で細かく検討されるわけで，「明示的指導」や「誤り訂正」に対するビリーフといった構成概念を測定する場合にも，これらが捨象されてはかなりぼやけたものしかみることができないはずだ。
こうした「粗さ」がすべてと言っても過言ではない。何度もいうが，結果的になにが明らかになったのかがわからない。この項目ではこっちの差があってこの項目では差がなかったとか言われても質問紙（とも呼べない代物だが）の1項目の1反応（の5段階をさらに3段階に圧縮している）の差（10%だったら差ありで9%だったらなしという恣意的基準に基づく）なんてもので何かを言おうとするな。私自身が「測ること」に対して厳しいところにいるからとかそういう問題ではなく，この質問紙に何も思わないって人がいたら結構ヤバイだろうと思う。
この研究の成果を結局どこに還元したいのかが不明瞭。実際に教室で言語を教える実践者に対して，学習者と教師自身のビリーフが異なっているようなことはないか，そこに気をつけるべきであるということなのかと思って読み進めると，最後には教員養成のおいての，というような話も出てくる。教師のビリーフがSLAの文献に基づいているかそれとも自身の学習経験に基づいているか，というアメリカとコロンビアの比較も，そもそも文化的差異というよりかは教員養成プログラムにおいてSLAや応用言語学，外国語教育研究の文献を読んだ経験があるかどうかが大きいはずである。研究の成果はほとんど英語で書かれているわけであるから，教えている言語は違えど，アメリカの教師（英語母語話者）がそのような文献にアクセスして読むことと，英語を外国語または第二言語として学習した教師が英語の文献を読むことを比べれば，明らかに前者の方がハードルが低いはずである。日本に限って言えば和書でSLAや外国語教育研究の概説書もそれなりに出版されているわけだが，英語教員の中で，教員養成の段階で（実際に教壇に立ってからでもいいが）どれほどの人が「研究の成果を参照しながら自分の指導を考える」というような経験をしてきたのだろうか。修士課程を出て教員になったり，または大学院に戻って勉強したという教員ならば，学術書や専門書を手にとることもあるだろうが。
自身の経験に基づいて教えることがなぜダメで（ダメとははっきり言っていないがこういう対比されるとそう読めてしまうのは深読みし過ぎかもしれない），どうしてSLAを参照している方がよいのかという観点も述べられておらず，外国語環境で教える語学教師は自身のビリーフに依っていてアメリカではSLAちゃんと参照しているとか言われても（しかもそれが少人数のインタビューと自分の身の回りにおいての話だけに基づく主張），だからなんなのかとなるしそれが明らかになったところで分野がどうなるのかと思う。常に知識をアップデートし続けるべきなのだというのならばそれはうなずけるわけだが，SLAといっても玉石混交で細かい部分では「ジャスティス大会」がずっと続いており，「どの文献を参照すべきか」は研究者でも難しい問題なのではないだろうか（いわんや教師をば）。

とにかく表が多くて項目ごとにパーセンテージをひたすら比較するだけで読みづらく，何がわかったかもあやふやで，それがどう説明されるということもなく，悶々させられました。10年以上も前だからしょうがないよねって感じでもないしModern Language Journalは昔は今ほどレベル高くなかったというのはこういうことなんだなぁと思ったのでした(遠い目

おしまい。

なにをゆう　たむらゆう

読解や聴解と語彙サイズ

コメントを残す

Language Teachingにまたこれ系の論文出ましたね。

Schmitt, N., Cobb, T., Horst, M., & Schmitt, D. (2015). How much vocabulary is needed to use English? Replication of van Zeeland & Schmitt (2012), Nation (2006) and Cobb (2007). Language Teaching. Advanced online publication. doi: 10.1017/S0261444815000075

僕自身語彙とかの研究やっているわけではないのですが，「現場受け」しそうだよなぁという印象はありますこういうの。Language Teachingは明示的にreplicationとうたっている研究が最近多い感じしますね。それはいいことだと思います。

ちなみに，今年度後期の授業でvan Zeeland & Schmitt (2012)のレビューをしました。資料はこちら。

読解にしろ聴解にしろ，「読めた」「聞けた」「理解できた」とするためには正答率何％が適切なのか？またそれはどのような基準で決めるのか。というのがすごく難しい問題だよなという印象です。

なにをゆう　たむらゆう

おしまい。