なぜ問いを評価するのか?
“Judge a man by his questions rather than by his answers.”
これは18世紀のフランスの思想家ヴォルテールの言葉です。なぜ、答えよりも問いの方がよりよくその人を判断できるのでしょうか?私が思うに、答えは問いによって限定されますが、問うことには無限の可能性があるからではないでしょうか。つまり、問いは対象を限定し問題を定めてしまいますので、その答えはその問いの範囲の中でのその人の知識や理解しか見ることはできません。しかし、その人が何を問うかは自由であり、そのためにその人がどのような対象に関心を持っていて、それについてどこまで理解しているのかを如実に示します。ですので、その人の答えよりも問いの方が、その人そのものをよりよく知ることができます。
しかし逆に、問いは無限の可能性を持っているために、その良し悪しを判断する、すなわち評価することは難しいとも言えます。なぜなら評価するためには良し悪しを判断するための基準が必要になりますが、問いは様々な可能性をもっているために、問いを評価するための明確な基準を定めることが難しいからです。例えば、問いはその人の好奇心の現れですが、どのような問いがどのくらいの好奇心の強さを示しているのかは一概には決められません。また、「なぜリンゴは落ちるのだろう?」という子どもじみた問いをニュートンがしたからと言って、ニュートンが子ども程度しかこの宇宙について理解していなかったとは言えません。
このように、問いを評価するための基準が曖昧模糊としているために、これまでの試験やテストのほとんどは、その人の問いではなく答えによってその人を判断してきました。設問や問いによって問題を規定することによって、その人の答えが、その問題をどれだけ適切に解決できるかを判断しやすくなります。つまり評価基準を明確にできます。このため、これまでの試験やテストは、それが筆記試験であれ面接試験であれ、その人の問いではなく答えを評価し続けてきました。しかし答えを評価する方法の場合、答えを知っていれば評価は当然高くなります。受験者は過去問を勉強して答えを覚え、試験する側はこれまで出題されていない問題を作るというイタチごっこが昔から続けらてきました。
そもそも答えを評価するというやり方は、評価基準が立てやすいがために、受験者の対策も立てやすくなります。このため、丸暗記された答えなのか、本当に考え出された答えなのかを判別することができなくなります。また、受験者の本当の興味関心はなんなのか、どのくらい好奇心があるのか、といった学びや探究にとってもっとも大事なことも見ることはできません。安易に答えを評価し続けることをやめ、問いを評価する方法を真剣に模索していくのがこの研究です。
どのように問いを評価するか?
答えは問いによって限定されますが、問いには際限がなく自由です。しかし、問いの自由さゆえに、問いの良し悪しを判断するプロセスは複雑であり、それを明確に表現することは困難なように思われます。そこでディープ・ラーニング(深層学習)、いわゆるAIによって問いを評価できないかと考えています。すなわち、問いのデータをたくさん集め、学習データと評価データとに分け、学習データは人が評価を付与し、AIにその評価を学習させ、評価データを用いて学習精度を検証します。これにより、問いに対する人の直感的で複雑な判断プロセスをAIに学習させるのです。
しかしその前にAIに問いとはどのようなものであるかを学習させる必要があると思っています。というのも、「AはBであるかどうか疑わしい」といった疑問文の形になっていない問いもあれば、逆に、「AはBだと言えるのか?」といった疑問文の形をした主張もあるからです。
何を問いの評価基準にするか?
しかしながら、人が問いを評価するためにはやはりなんらかの基準が必要です。というのも、ニュートンは「なぜリンゴは木から落ちるのか?」という問いを抱いたことで、万有引力を発見したと言われていますが、当時の人たちからすればこの問いはあまりにも馬鹿げた問いであり、万有引力を知っている今の私たちからすれば陳腐な問いです。このように既存の知識や偏見、価値観などが問いの評価基準に含まれてしまうと、問いを適性に評価することができません。問いは問いそのもの中に評価基準をもつ必要があります。
問いを創造するとはどういうことか?
一方で、問いは知識と知識のギャップを認識することにより生まれます。例えば、ニュートンは、「月は落ちてこないのに、なぜリンゴは落ちるのか?」という問いを抱いたことが万有引力の発見につながったと言われていますが、これは「リンゴは落ちてくる」という知識と、「月は落ちてこない」という知識とのギャップを認識することにより生まれた問いだと言えます。またアインシュタインは、「宇宙は友好的か?」という問いを抱いたことによって、相対性理論を確立する動機になったと言われていますが、この問いも宇宙に関する知識と友好性に関する知識とのギャップによるものです。これまでに人類は膨大な知識を創り出してきましたが、これらの知識と知識の間には、奇想天外な新しい価値を生み出すようなギャップが埋もれていると考えられますしかし、この膨大な知識を人がすべて関係づけることは不可能と言ってよいでしょう。そこでコンピュータによって、膨大な知識を関係づけ、創造的な問いを発見することができるのではないかと考えています。
研究計画と進捗状況
2019年度
問いを収集するためのWebサイトを開発し、約10名の大学生を対象に試験的に問いを収集し、問い内容に応じた分類を行なった。また、社会人を対象とした問い力調査を実施し、約千名から約5千件の問いデータを回収し、不良データの削除と修正を行なった。これらの問いは、人によって多面的かつ複合的に評価し、その評価データと元の問いデータの対を、コンピュータによって深層学習させる。この深層学習の結果が問い評価アルゴリズムとなるため、良質かつ大量の問いデータの収集は本研究の核である。また、問い評価アルゴリズムの精度を向上させるためには、さらに学習データとなる問いを収集する必要があり、その収集方法の検証としても意義のあるものである。また、問いを人により多面的かつ複合的に評価するために、質的データ分析のためのソフトウェアと大型モニタを購入し、環境整備を図った。これらの環境は、試験的に収集した本学学生約10名分の問いの分析に活用することができ、問い評価のノウハウを蓄積することができた。さらに、次年度に開発する予定の問い評価アルゴリズムの統計的検証に必要な統計解析のための環境を整備するとともに、問い力を含めた多様な能力や資質に関する書籍や文献を整備することができた。一方、問い力は文字だけでは十分に評価することができず、特に対人能力やコミュニケーション力を見るためには、問いに伴う身振り手振り、態度、表情、声色なども重要な手がかりとなる。このような情報を得るために、音声や映像を記録し分析するための環境も整備した。
2020年度
問いを評価する基準を開発し、その基準に基づいて収集した問いのデータの一部を評価します。これを学習データとしてディープ・ニューラル・ネットワーク(Voltaire)に学習させ、残りのデータをテストデータとして学習精度を検証します。
一方で、受験者の問いを評価するためのテスト問題を開発します。
2021年度
開発したテスト問題を用いて、全国の高校生を対象にした模擬テストをオンラインで開催します。ここで集めた問いを、開発したVoltaireによって自動評価し、その結果を受験者にフィードバックする。そして受験者の問いの能力とその他の資質や能力、学力などとの相関を分析する。
研究成果
- 池田文人,岩間兼徳,飯田直弘,鈴木誠,高校・大学・社会を繋ぐ追跡調査のためのコンピテンシー・テスト問題の開発,高等教育ジャーナル : 高等教育と生涯学習,No.27,pp.27-43,2020.
- 池田文人,岩間兼徳,飯田直弘,橋村正悟郎,鈴木誠,フロンティア人材評価システム~主体性を含む学力3要素のコンピテンシーに基づく多面的・総合的評価~,大学入試研究ジャーナル,国立大学入学者選抜研究連絡協議会,第29号,2020.
問いに関する文献
書籍
題名、著者、出版年、出版社、ISBN、概要
論文
著者、題名、論文等名、発表年、概要、PDF(あれば)
本研究は以下の補助金の支援を受けて行っています。
科学研究費 2020年度 挑戦的研究(開拓)
課題番号:20K20420
研究課題名:質問力を測定する評価指標と試験環境の開発
研究代表者:北海道大学高等教育推進機構 教授 池田文人