« Christmas dinner 2010 | メイン | mochitsuke! »

December 28, 2010

model selection and t value

先日MM君から言われて,インテリジェンス事件高裁決定をまじめに読んでみた。金判1354号26頁右側の「イ」の部分が確かにひどすぎる。
東京高裁がなんと言っているかというと,

結果的に,ジャスダック指数の変動率を説明変数として用い(ダミー変数を用いる),かつ,α値(定数項)を含まないものが,最も決定係数およびt値が高く

といって,interceptなしのモデルを採用してる。

あらららら。これは,「間違いはどこだ?」って統計入門の授業の宿題に出してもいいレベル。

まず,ここで言っている「決定係数」って,R^2じゃなくて,adjusted R^2だよね。パラメタを増やしたらR^2は絶対に下がることはないから,パラメタの増加分のペナルティを課したadjusted R^2じゃないと,下がることはない。

で,問題は,interceptを含まないモデルの方がadjusted R^2であっても低くなることってあるの? ってこと何だけど,そんなこと普通ではまずあり得ない。たいていのOLS regressionでinterceptって一番有意に出る係数だからねぇ。そうすると,ここでこんな異常な計算結果が出ているのは,何が原因なんだろう,って不思議になる。
もちろん単純な計算ミス(あるいは入力ミス)っていう可能性もあるけれど,それがないと仮定すれば,最も可能性があるのは,上の引用中の「(ダミー変数を用いる)」っていう部分だ。
estimation windowの中から,特定日を排除することは,①恣意的なデータ操作につながる危険性が高いし,②R^2が高くなりすぎるから,イベント・スタディにおいては好ましくない,って9月の商事法務論文で書いたけれど,そこでだめ出ししたのと同じ(ただしestimation windowの時期自体はOK)やり方をやっていることになる(ちなみに,商事法務で批判した対象も,このインテリジェンス事件高裁決定が依拠しているNERA社のもの)。
異常な株価変動かどうか(=情報効果があるかどうか)を分析しようとするイベント・スタディと,「あり得べき株価」の推定・予測を行おうとする本件のようなケースとでは,目的が違うので(ちなみに,NERA社が,テクモ事件で依拠していたペーパーAktas et alは,イベント・スタディについてのものなので,何で本件でも同じ手法を使おうとしているのかは謎),商事法務で書いた批判が本件でそのまま当てはまるわけではないけれど,また違った不自然さが出てくる。
つまり,ダミー変数を使って排除されるのは,インテリジェンスに固有の情報開示があった日だから,それ以外の取引日というのは,インテリジェンス株価とインデックスとがほぼ連動し,それ以外の要素による影響がほとんどない可能性が高い。その場合には,インテリジェンス株価のvariationの大部分は,インデックスのvariationによって吸収されてしまい,interceptという新たなパラメタを追加することによって追加的に説明できるvariationの割合がとても低くなる。おそらくこれが,interceptを含めたspecificationでのadjusted R^2が低くなるという異常事態が発生する理由だろう。

けれども,この手法には,2つの難点がある。
その1。そもそも,「あり得べき株価」の推定・予測を行おうとする場合に,adjusted R^2を比較することに意味があるのか,という点。イベント・スタディでは,R^2の高いモデルを使うと,統計的有意性が出やすくなってしまい,恣意的なデータ操作を疑われる危険があるけれど,「あり得べき株価」の推定・予測の場合には,その危険はない。むしろ,正確な推定・予測を行うためには,ちょっとでも関連しそうな説明変数は全て放り込んでおくことの方が望ましい。一つ一つの説明変数のcoefficientの有意性が低くても,「これは理論的に全く関係がない」と断言できるもの以外は全部放り込んだ方が,より正確な推定・予測になる(マクロ経済予測の実証モデルとかVARとか,みんなそういう発想だ)。だとすれば,adjusted R^2じゃなくて,R^2が高いモデル(=より多くのパラメタを使っているモデル)を選ぶ方がいい。東京高裁の理由づけは,まるで,MBA向けの入門クラスの統計の教科書の最初の方に書いてあるところだけ読んでいて,実際のmodel selectionのコツを知らない素人のような感じを受ける。
その2。そもそも,estimation windowからインテリジェンス固有の情報開示を除いた日でモデルを推定する,っていうのは,「あり得べき株価」の推定・予測に有用なのか,疑わしい。だって,その推定・予測期間の間にも,インテリジェンスに固有の情報開示はありえて,その情報開示には,株式交換とは無関係の情報――たとえば,業績修正とか,新製品の発表とか――もあるだろうから,そういった日のリターンの推定には,このモデルは使えないことになってしまうからだ。そういった日も含めてリターンを推定したいのなら,estimation windowはフルに使ってしまった方が好ましい。

と,ここまでですでにおかしいところがいろいろあるのだけれど,初心者でも一番最初に気づくのは,「最も…t値が高く」という理由でinterceptなしのモデルを採用している点。これはいくら何でもまずい。まずすぎる(もちろん,Bayesianな立場からすれば,t値なんて言っている時点で「はぁ?」と言われかねないけれども,とりあえずここではclassicalな立場で我慢)。
いやだって,t値は,当該係数(ここでは多分βのこと?――実は決定文にはここの特定もないので本当は意味不明)が0と有意に違うかどうか,ということの指標に過ぎず,モデルの精度の良さの指標でも何でもない。それに,パラメタの数が減れば(そして,削ったパラメタαが残したパラメタβとプラスの相関をしていれば),残されたパラメタβのt値が増えるのは,当たり前じゃんねぇ,というだけのこと(つまり,αとβで説明していたvariationを無理矢理βだけで説明しようとすれば,βの絶対値が大きくなるのは当たり前)。
にもかかわらずこういう判決文を書いてしまったということは,「t値」っていう言葉の意味が全然理解できていない,ってことになる。

というわけで,統計入門的にまずい決定なんだけれども,

どうしてこうなった

のは,裁判官が統計ダメダメだったのか,意見書を書いたNERA社の時点でダメダメだったのか,あるいは,抗告人側代理人の裁判所に対する説明があまりにダメダメで裁判官が理解できなかったのか,どれなんだろう?

うちの米村さんがしょっちゅう「裁判官は医学が分かってない!」って吠えているのを見ている経験からすると,裁判官の統計ダメダメ仮説も否定しきれないところが怖い。

トラックバックURL

このエントリーのトラックバックURL:
http://www.law.tohoku.ac.jp/~hatsuru/cgi-local/mt/mt-tb.cgi/2236

コメント

分かりやすい解説ありがとうございます。初心者な私は「t値〜」のところがまずおかしいだろうと。

何となくですが、この意見書を書いた方は裁判所がt値やadjusted R2に(間違って)反応すると分かっていたんじゃないかという気もします。うがった見方ですが。

なるほど。そんな深読みができるとは。

でも,ポイントは,そういう調整をしたからといって結論がどれだけ変わるのか,ですね。

直感的には,閾値を超えるかどうかで結論が全然変わる仮説検定ではなくて,ただの推定・予測であれば,モデルが多少違っても,たいした結論の違いには至らないことが多いので,決定のロジックとしてはともかく,結論的にはあまり問題はないし,当事者がモデルの選択を恣意的に操作しようとするインセンティヴはあまり生じないはずです。
ただ,ほかのモデルで推定してみた場合に,高裁が採用したモデルより低い推定値が導出されるのだとすると,その深読みのように,意図的に裁判所をだまそうとしたんだ,というシナリオの妥当する蓋然性が高まりますね。

読み返してみると、よく分からない、少なくとも上の読みはストレートには当たってないような気がしてきました。

1.NERA意見書は抗告審で会社側が出した
2.NERAの推定値>会社が出した別の報告書(「ヒューロン報告書」)の推定値
3.ヒューロン報告書は原審で出して、否定された(この理由づけもなんか微妙なんですが...)
4.原決定は株式交換計画公表前1ヶ月の株価の平均で価格を決定(NERAの推定値よりも高い)。
5.申立人側のこの種の評価は見当たらない

2を考えると、そもそもこの意見書を出すのも妙な気もします。あえて標準的ではない手法を使ってまで、何をしてかったのか、テクモの時ほどはっきり分かりません。

あえていうなら「今回はもっと『信頼できる』推定をもってきました。しかもより株主よりです」ということなのかもしれませんが、そのためにこんな変なことをするのか、と。

コメントする