はじめに
大修館書店の『英語教育』誌の特集記事の1つとして,私の記事が掲載されました。紙幅の都合で丁寧に議論できなかった部分について,このブログ記事で補足したいと思います。ちなみにですが,書いていたら本編の数倍の量になってしまったので,もはやどっちが本編かわからない感じになりました。ただ,ああいう短い原稿の背後にはこれだけ書けるくらいの話があるということは思っていただいていいかもしれません。また,ネタバレ的になりますがこのブログ記事ではフィードバックの話まで結局たどり着けませんでしたし,3つ目のQについての補足も書いていません。よって,本来であればこの記事よりもさらに長い文章を書いてようやく自分としては満足かな,という感じです。
英語教育2023年5月号
「裏付け」という言葉との向き合い方
この特集記事の執筆依頼を受けたときの最初の気持ちがこのツイートです。
この特集のタイトルが「新学期の指導に裏付けをー言語習得なぜなに相談室」というタイトルになっていることからもわかるように,この特集の意図は,ある指導の選択をする際に,それが何らかの科学的知識に基づいている方がよいだろうという前提があるように思います。そのうえで,その科学的知識を専門家が解説する記事を書く,という感じですね。
最初に私がラフ原稿的に書いたものの中では,「はじめに」の節は次のように書いていました。
この特集記事の執筆依頼を受けた時,最初に考えたことは,「大学院生の頃,『タスク・ベースの指導をめぐる疑問と解決への道』という章を分担執筆で書いたなぁ」ということであった。5年以上も前に書かれたその本は,今でもTask-based Language Teachingについての和文文献としてもっとも優れたものではないかと思っている。
本稿では,そこでは触れなかった疑問を取り上げ,私なりの回答を書こうと思う。ただ,今回は「指導に裏付けを」という特集だということを聞いたとき,実のところ私はあまり執筆に前向きな気持ちになれずにいた。なぜなら,私は指導の問題は「裏付け」のようなもので正当化することになじまないと思っているからである。
後述するように,私は学習者の誤りはすべて訂正されるべきとは思っていないが,英語教師の中には学習者が誤りを犯すのは教師の指導が足りないからであり,学習者の誤りは教師が正してやり,誤りがなくなるまで徹底的に練習に付き合うのが教師の仕事だと考えている方もいるかもしれない。そのような意見の対立に,「裏付け」のようなものは無意味である。もし仮に,徹底的に学習者の誤りを訂正し,誤りを許さない鬼教官のような教師のもとで学ぶ教室と,誤りの訂正はときおり受けるが,誤りを犯すことが悪いことだとみなしていない教師のもとで学ぶ教室を比較した大規模ランダム化比較実験があったとしよう。その結果,前者の教室で学ぶ学習者のほうが言語能力が統計的に有意に伸びることが明らかになったとする。そのような「裏付け」が仮に得られたとして,私は次の日から鬼教官になって誤りを徹底的に訂正する英語授業を展開するだろうか。答えは否である。なぜか。私はそのような指導を受け入れられないという信念があるからだ。
下記の質問と私の回答も,いくつかの文献を引用しながら述べるが,だからといって私は「裏づけがある」とは言わない。本稿をお読みいただいた上で,どのようにすべきかは読者の方々に判断していただきたい。
例が少し長いのと,ちょっと誤解を招く可能性もあるかもしれないなという指摘を受けたので,最終的には事実判断と価値判断を同一視してはいけない,という話に変えました。
言語習得研究において,指導の「裏付け」となるような科学的知識が提供されたとして,それが直接的に教室での指導の変更を迫るものであったり,あるいはすでに採用されている指導の直接的な後押しになるかというと,正直微妙ではないかと思っています。また,よくpedagogical implication(教育的示唆)なんかが研究発表や論文で求められる場合がありますし,質疑応答でそういう質問を受けることもあります。ただ,その「示唆」というのが結構厄介で,教育的示唆を出そうとすると価値判断に踏み込むことを避けられないというか,無意識のうちに価値判断をしてしまうこともあると思います。
例えば,私が記事の中で紹介したEllis et al. (2019)についても,研究の結果からわかったことは,ある特定の文法項目の指導を事前に受けることによって,その項目へ注意が必要以上に向けられた結果,その他の文法項目の正確性が下がってしまうことで,全体の文法の正確さが下がってしまうという可能性でした。また,正確さへの注意が促進されたことで,流暢さが下がってしまう可能性も示唆されました。ここで私が「可能性」と書いたのは,この結果はあくまで個別の研究の結果だけだからです。よって,そこまで強い言明はできないという留保はつけるべきです。
そして,この研究結果を引用して「事前の文法指導は避けたほうがいい」と私は書きました。これは明らかに価値判断です。Ellis et al. (2019)の結果(ケース1ですが科学的知識とします)と,「事前の文法指導は避けたほうがいい」という価値判断の間には,「特定の文法に学習者が注意を向けた結果として全体のパフォーマンスが下がるのであれば,それは好ましい指導介入ではない」という別の命題が隠れています。
「なぜなに相談室」という特集のタイトル
これは絶対に原稿には書けなかったことですが,そもそも「なぜなに相談室」という特集の名前自体が読者と著者の対立を煽っているように思いました。つまり,読者は「教えてもらう」側で,書き手は「教える」側だという構造です。4月発売の号なので,4月から新しく教壇に立たれる新任の先生方向けの企画なのだろうということは思っています。それはわかった上で,この雑誌の読者の多くは「現場」の先生方であることを考えると,そういう先生方に(仮に新任の方をターゲットにしていたとしても),大学教員の私が上から目線で何かを説くというような企画自体も,私が執筆をためらった理由の一つでもあります。teacher-researcherの対立は昔から言われていて,最近だとModern Language Journalで関連する話題の特集号も組まれていたと思います。もちろん『英語教育』誌の著者は大学教員だけではないわけですが,読み手が常に何かを教えてもらう立場であるということを暗示するような企画は個人的にはどうかなぁと思います。
そういうことを思っていても依頼が来た時点では何も言わずに原稿執筆していて,さらに原稿料ももらってる時点で私も同罪というか,こんなところで批判したところであまり意味はないのですけれど。
書き起こしについて
Q2についての回答で,書き起こしについて言及しました。このトピックの研究や,具体的な方法,実施の問題について詳述できませんでしたので,少し細くします。
発話を書き起こすという行為を学習行為として位置づけたLynch (2001)は,書き起こすという行為を導入しようと考えたきっかけとして,アウトプット活動や学習者の活動によって授業時間がいっぱいいっぱいになった結果,学習の振り返りの機会が失われてきていることへの危惧に言及しています。また,学習者が自身のパフォーマンスを改善していくという学習の営みにおいて,高熟達度の学習者だけが何を改善しているのかという自分自身のパフォーマンスの分析がよくできており,低熟達度の学習者には教師からの手助けが必要である(そうでないとうまくできない学習者が存在する)という自身の経験にも触れています。
やや余談ですが,このLynch (2001)が掲載されているのはELT Journalという雑誌でどちらかというと実践色が強いです。統制した実験研究とか,群間比較の介入研究とかよりはこういう教師の実践に基づいた論文が載っているイメージですね。ただ,かといって書き起こすという行為に何ら研究の知見が応用されていないかというとそういうわけでもありません。中心的なのは気づき仮説ですね。言語形式への気づきが第二言語学習を促進するという。ちなみに昔気づき仮説に関してこんな記事を書いたこともあります。
https://tam07pb915.wordpress.com/2014/07/29/explain-noticing/
脱線しました。このLynch (2001)が実際にどのようなことをやったのかという話をしましょう。Lynchはこの以前にやっていた実践で,”proof-listening”という活動をやっていたそうです。誰かの発表を録画しておき,それを再生しながら改善点をコメントしたりすることを繰り返していく活動のようです。しかし,現実的な問題として,コメントで指摘が入ったことに対して「言った言わない問題」が発生することがあったそうです。この問題の解決策の1つとして,学習者に書き起こしをさせよう,ということです。
私は寄稿した記事の中で,次のように書きました。
(前略)書き起こしをすることによって,活動中には気づくことのできなかった学習者の誤りを指導する機会にもなりうる。
これは,いくら教室での観察にエネルギーを注いでもすべてを聞き取れるわけではないので,書き起こしとして活動後に残るものがあれば,形式面の指導を事後的に行う際の参考になりうるという意図で書きました。ただし,学習者の書き起こしは不正確であるために注意が必要であるという指摘もあります(Stillwell et al., 2010)。
“In some instances, there were substantial portions of the recording missing from the student transcript, in which case the entire chunk was counted as only one error. The prevalence of these errors suggests that student transcriptscanprovideanindicationofperformance,buttogetaclear picture of what is really happening during task work, there is no substitute for engaging with students and monitoring classroom interaction firsthand.”
(Stillwell et al., 2010, p. 448)
学習者によってかなりのばらつきはあるようですが,書き起こしの指示とある程度の練習,そして学習者に対して,どういうものを教師が求めているのか,そしてそれをなんのためにやっているのかを説明すること,が重要かなというのは,個人の経験からも言えます。
実践的な話
書き起こしをするためには,録音・録画をするための機材が必要になります。それも,1台や2台とかではなく,モノローグであれば学習者一人ひとりに1台ずつ,ペアであればクラスの人数の半分必要になります。一昔前であれば,そんなことはLL教室でもなければ無理だったかもしれません。今は,公立学校でもタブレット端末が一人に一台あるような環境もありますよね。また,高校であれば携帯を持っている学習者もかなり多いでしょう。もちろん,個人のプライベートな端末を授業に利用することに関しては否定的な向きもあるかと思いますが。ただ,教師が数十台のICレコーダーを配る,というようなことをしなくてもいいような環境にはあるような気はしています。
タブレット端末はあるけど,有効な活用法がなかなか思いついていない,というような場合は,書き起こしというのはデバイスを活かす一つの手段ではあると思います。
もう一つ,実践上で論点となりそうなのは,おそらく時間でしょう。例えば発話が数分と短くても,実際に書き起こしをしようと思えばその数倍以上の時間がかかると思います。活動にもよりますが,数分で完結するようなものよりも10分あるいはそれ以上の会話が必要となるスピーキング課題もあると思います。そうなると,それをすべて書き起こすのは労力もかかりますし,途中で飽きてしまうこともあるでしょう。先述のLynch (2001)では,ロール・プレイタスクの中の90秒~120秒を選んで書き起こしをさせています。その後,書き起こしたものに言語的な修正を施させたあとにワードに打ち込ませて教師に渡し,教師がさらに言語的な部分の修正をした上で返却し,自分たちが打ち込んだものと教師から直されたものを比較する,というプロセスで進んでいきます。
書き起こしたものを修正させるプロセスで,Lynch (2001)が報告している4ペアの修正はpositiveな改善(incorrect -> correct)が平均で20ほどであったと報告されています(correct -> correct, correct -> incorrectの修正も合わせると平均で28)。90秒から120秒でもそうなるということですね。ちなみに,学習者が修正をしたあとにも語彙を中心に教師がさらなる修正をする必要があるという点にも言及があり,4ペア合計で,学習者6:教師4の割合で修正があったと報告されています。教師がどこまで修正をするかというのは次節の誤りの訂正にも関わる問題ですが,Lynch (2001)のようにするには日本の多くの環境ではクラスサイズの問題でできないでしょう。ただ,仮に教師が介入しなかったとしても,学習者自身でできたpositiveな改善は70%ほどであり,学習者の修正が誤っていた場合は全体の9%です。つまり,この9%を正しい修正にすることに注力するだけでも,つまりそれ以外は直さなかったとしても,学習上で大きな問題はないと言えるかもしれません。
ただし,Lynch (2001)の参加者は年齢は明らかにされていませんが,EAP(English for Academic Purpose)クラスの学生でTOEFLが520点くらいと書いてあるので,論文中では熟達度はそこまで高くないと言われていますが,個人的には,そしておそらく日本で英語を教える多くの方からすれば,むしろ熟達度は高いほうだと思われるでしょう。つまり,学習者のレベルが低い際にはこれほど多くの気づきが起こり,そして学習者たち自身で正しく修正できるかどうか,ということは留意が必要でしょう。また,ポスター・プレゼンテーション形式で発生したインタラクションを録音して書き起こしをさせたStillwell et al. (2010)では,学習者の誤った修正は1度目で32%,2度目で20%と報告がありますし,修正の回数もLynch (2001)で報告されているものより少ないです。Stillwell et al. (2010)とLynch (2001)では様々な違いがありますが,日本の大学1年生を対象にしているという点では,前者のほうが参加者は日本で英語を学ぶ学習者に英語を教える方々(『英語教育』誌のメイン読者)にとっては参照しやすいのかなと思います(ただ,かといって安易にLynchの実践は日本ではうまくいかないとか参考にならないとかそういう短絡的な話をする意図は全くありません)。
いくつかの研究
Hsu (2019)
記事内で言及したHsu (2019)は,タスクの繰り返しの効果と,タスク後の書き起こしがスピーキングの複雑さ,正確さ,流暢さ(Complexity, Accuracy, Fluency, いわゆるCAF)にどう影響するか,ということを調査した研究です。デザインとしてはスピーキングタスクを繰り返すだけのグループ(Task reperition; TR),繰り返しに加えて書き起こしもするグループ(Task repetition and post-task transcribing; TRPT),コントロール群の3つに学習者を分け(n = 13),同じタスクの繰り返しと,同じタイプの新しいタスクでCAFを比較するというものです。用いられたのは,6コママンガの描写です。全部で3つのタスクがあり,TR群とTRPT群は1回目->1回目の繰り返し+2回目->2回目の繰り返し+3回目というように合計で5回スピーキング課題に取り組み,コントロール群は3つのタスクを1度ずつしか行っていません。
書き起こしの指示は次のようになっています。
“Please download your own audio files, listen to each phrase repeatedly, transcribe the actual words (including mistakes, false starts, repetitions, and reformulations) you used as closely as possible in a MS Word document. Save it as “Original transcription”. Then, check the transcription and correct any mistakes you made regarding grammar, sentence structure, and vocabulary (please use the track change function). Save it as “Corrected transcription”. Post both the original and corrected transcription onto i-Learning. You have a week to have this assignment done.”
(Hsu, 2019, p. 187)
自分の聞いたものを間違えとかも含めてすべて書き起こし,Word上で変更記録をONにして気づいたものはなんでも修正をかける,ということが求められています。ポイントは,書き起こしがスピーチの全体に対してであること(1コマにつき最低4文でという指示で時間制限はないので,全体の分量がどれくらいかは不明)と,書き起こしに1週間という期間が与えられている点です。
分析の対象になったのは2回目の繰り返しと,3回目の新しいタスクのパフォーマンスです。同じタスクを繰り返した場合には,TR群とTRPT群ではCAFの指標のうちで有意差が見られたのは正確さの指標であるerror-free clausesのみでした(正確さについては有意になってないけど効果量が中程度とか議論されていますが,そういう効果量の解釈はダメ,ゼッタイ,なので無視します)。
一方で,新しいタスクにおいては3つの正確さの指標(Error free AS-units, Error-free clauses, Accurate verbs)のすべてにおいてTRPT-TR群の間に統計的に有意な差があり,accurate verbs以外の2つではTRPT群はコントロール群とも有意差がありました。しかしながら,TR群とControl群の間には3つの指標全てで統計的に有意な差は確認されていません。また,複雑さと流暢さでも3つのグループ間には有意差はありませんでした。正確さのみに違いが現れたことは,Skehanのトレード・オフ仮説で説明されていました。余談ですが,CAFってほんと指標の選択が恣意的で厄介なので,取り扱いには注意が必要です(cf. Fukuta et al., 2022)
また,TR群とコントロール群の間に差が見られなかったことについては次のような説明があります。
“One possible explanation is, as Gass et al. (1999), Kim (2013), and Kim and Tracy-Ventura (2013) suggested, learners’ disinterest in the tasks given to them when the tasks have been carried out before. It is possible that when repeating the same task, the learners may just want to get the task done and thus did not take advantage of the content familiarity and devote effort to attend to the language formulation aspect of the task, leading to limited L2 development in the new context.”
(Hsu, 2019, p. 183)
この話って,普通の言語教師が教室でタスクの繰り返しをしようとした際には起こらないだろうことなので面白い(皮肉)ですよね。ただのモノローグ・タスクを,聞き手のいない状態で何回も繰り返したらそりゃあ繰り返すことの意味を感じないでしょうね,という話です。これが例えば,与えられた6コマ漫画の内容を知らない相手に対して伝えるという課題で,聞き手側が変わる(つまり別の聞き手に同じことを説明する)のような工夫がされているだけでも,話し手側がどのようにその課題に取り組むかは変わってくるはずです。
実際,話し手が存在し,さらにペアの相手が変わるような仕組みがある前述のStillwell et al (2010)は,タスクの繰り返しに対して学習者は肯定的にとらえていたという質問紙の回答結果を報告しています。
このHsu (2019) の研究の解釈の注意点は,タイトルにもあるようにあくまでタスクを繰り返すということとの”combined effect”であるという点です。本来ならば,2*2のデザインで次のようなデザインをするほうがベターなのでは思いますし,私ならそういう計画をすると思います。
- TRなし・PTなし
- TRなし・PTあり
- TRあり・PTなし
- TRあり・PTあり
こうすることで,TRのみの効果と,PTのみの効果を分けることができるので,同じ時間的な制約のなかで,同じタスクを繰り返すべきなのか,それとも繰り返しを書き起こしにするほうがいいのか,みたいな問いにも答えることができるようになると思います。TRなしといっても,同じタスクの繰り返しはないだけなので,厳密に言うとTR要因はprocedural repetition vs. exact repititionということになるでしょうけど。
さあ!Instructed SLAが好きな方はぜひこれで実験やってみてください。
Hassanzadeh-Taleshi et al. (2023)
さて,先のHsu (2019)の結果に対して,同じようなデザインで逆の結果を出しているのがこのHassanzadeh-Taleshi et al. (2023)です。こちらの研究の特徴は,タイトルにもあるように,タスク後「すぐに」書き起こしをさせることの効果です。前述のとおり,Hsu (2019)では1週間という期間がありました。ということで,書き起こしとタスクの繰り返し(exact repetition)をすぐにやったらどうなるか,というのがこの研究です。
参加者は38名で,19名ずつがタスクの繰り返しのみのグループ(TR)と,タスクの繰り返し直後に書き起こしをするグループ(Task repitition and immediate post-transcribing; TRIPTに分けられました。この研究での課題はトムとジェリーの動画を見てそれから内容を口頭で説明するモノローグ課題でした(制限時間はなし)。両グループともに,1週目(実際には1週目に熟達度テストがあるので2週目だが)に同じタスクをやり,次の週にもう一度同じタスクを,今後はビデオを見ることなしに行いました。TRIPTグループはその直後に書き起こしをしましたが,書き起こしを修正したり,それに対して訂正フィードバックはもらっていません。その後にもう一度同じタスクを繰り返しました。TRグループは,書き起こしをせずに1回目のあとにすぐに2回目のスピーキング課題を行いました。さらにその1週間後に両グループともにもう一度ビデオを見て同じタスクを繰り返しています。そして,直後の繰り返しと,1週間後の繰り返しの時点での発話データをCAFの指標で分析して群間比較を行っています。
結果として,CAFのどの指標でも両グループの間には統計的に有意な差は確認されませんでした。Hsu (2019)とは異なる結果が得られた理由について,著者らは次のように述べています。
“Despite the fact that compared to the TR group, the TRIPT had more time but they had to use the time available to transcribe their first oral performance in its entirety. The time and post-transcribing were only enough for the TRIPT group to detect their oral errors through comparison, but not enough to integrate the correct form into their second and third performances. This is despite the fact that the discrepancies that the participants managed to notice had already been part of their interlanguage system. In Hsu’s(2019) study, the learners were given a considerably longer time, i.e. a week. The time given to the L2 learners allowed them to transcribe their task rehearsal, correct their mistakes, to spend time reflecting on the post-task transcription. This may in part have led to stronger treatment effects on accuracy.”
(Hassanzadeh-Taleshi et al., 2023, p. 141)
書き起こしによって誤りに気づいた可能性はあるが,それが直後の,そして1週間後のパフォーマンスに影響をもたらすには十分ではなかった,ということですね。1週間の時間があれば,書き起こして,間違いを直して,そして自分のパフォーマンスを振り返るのに十分な時間があったはずで,だからこそHsu (2019)では正確さがあがったのだろうと考察しています。
また,繰り返しを求められることが参加者には明かされていなかったので,繰り返し時のパフォーマンスがより即興的であったことも原因として言及されていました。個人的には,動画を見て,そしてその内容を記憶した状態での再話と,絵を見ながらの描写はぜんぜん違う活動であり,前者(Hassanzadeh-Taleshi et al., 2023で用いられたもの)のほうが負荷が高くより記憶力が要求される課題であったことも大きな要因ではないかと思っています。実施の条件がこれだけ違えば,結果が異なっていたとしても不思議ではないというのが本音です。いわゆる「トップトップ」のジャーナルの論文じゃないから,と切り捨ててしまうのは簡単ですが,こうした介入研究を積み重ねたところで果たして「裏付け」といえるものが得られるのだろうか,というところは,ISLA研究者は問われると思います。
おわりに
誤り訂正については多くの研究の蓄積がありますが,そのあたりにも全体としての傾向についてしか言及できておらず,その中身や具体的な研究には言及できませんでした。この部分もブログで補足しようと思っていたのですが,ここまでですでに補足というよりこっちが本編ではみたいな長さの文章になってしまいましたので,またいつかの機会にしたいと思います(本当はここまででもう力尽きただけです)。
なにをゆう たむらゆう。
おしまい。
引用文献
Fukuta, J., Nishimura, Y., & Tamura. Y. (2022). Pitfalls of production data analysis for investigating L2 cognitive mechanism: An ontological realism perspective. Journal of Second Language Studies. https://doi.org/10.1075/jsls.21013.fuk
Hassanzadeh-Taleshi, M., Yaqubi, B., & Bozorgian, H. (2023). The effects of combining task repetition with immediate post-task transcribing on L2 learners’ oral narratives. The Language Learning Journal, 51(2), 133–144. https://doi.org/10.1080/09571736.2021.1901967
Hsu, H.-C. (2019). The combined effect of task repetition and post-task transcribing on L2 speaking complexity, accuracy, and fluency. The Language Learning Journal, 47(2), 172–187. https://doi.org/10.1080/09571736.2016.1255773
Lynch, T. (2001). Seeing what they meant: Transcribing as a route to noticing. ELT Journal, 55(2), 124–132. https://doi.org/10.1093/elt/55.2.124
Lynch, T. (2007). Learning from the transcripts of an oral communication task. ELT Journal, 61(4), 311–320. https://doi.org/10.1093/elt/ccm050
Stillwell, C., Curabba, B., Alexander, K., Kidd, A., Kim, E., Stone, P., & Wyle, C. (2010). Students transcribing tasks: Noticing fluency, accuracy, and complexity. ELT Journal, 64(4), 445–455. https://doi.org/10.1093/elt/ccp081