３三将棋（９マス将棋）の難問２

将棋ソフトは間違えないと思われている風潮

　以前の記事で、３三将棋アプリをより深く読むようにしたことで最善手が変わった例を紹介しました。今回もその続きで他の例を紹介しようと思います。
　今まで３三将棋アプリの初期配置パターンリストに載せる問題を選ぶときは、なるべくアプリで正解（と思われる手）を指せる問題を優先的に採用していました。アプリが間違えるとユーザーを失望させると思ったからです。世間的には「３三将棋程度なら将棋ソフトで正解を出すのは簡単だろう」と思われているでしょうから。今回紹介するのはそういう採用を見送っていた（ボツにした）配置です¹。

No.141

（画像はクリックで拡大）

　上の初期配置は３三将棋アプリのNo.141のものです。これを以前のバージョン（1.0.7.0未満）の長考モード同士で対戦させると以下のように後手が勝ってしまいます。先手が千日手を打開しようとして負けている感じです（２４手）。

　以前のバージョン（1.0.7.0未満）の瞑想モードだと以下の手順で千日手になります（２５手）。正解はおそらく千日手なのですが、上のように長考モードで間違えているのでボツにしました。

　深く読めるように改良したバージョン（1.0.7.0以降）だと、長考モードでも瞑想モードでも千日手になります。
　面白いのは３通りの千日手になる手順が全て異なっていることです。最新バージョン（1.0.8.0）の瞑想モードだと数手一組の手順が手番を変えて以下のように循環します（４８手）。

　３三将棋（９マス将棋）では２一と２三の地点にお互い金がある以下のような形はほぼ千日手になるようですが、

駒の種類によっては変化があるみたいで、本当に千日手を打開することが出来ない（打開すると負ける）のかは分かりません。

No.144

　下の配置の先手の最善手は何でしょうか？後手の玉は自分の駒（歩）が頭を押さえつけていて狭いので人間にとっては結構分かりやすい問題に思えるのですが、以前のバージョン（1.0.7.0未満）では正解出来ませんでした、初手に１二銀と指してしまいます。

　以下のように先手が負けるのでボツにしました。

　初手の最善手は（おそらく）３二角と打つ手です。バージョン1.0.7.0以降だと以下の手順で先手が勝てます（１３手）。

　初手３二角、同銀、同玉、２三角と進んだ以下の局面で、２三同玉と角を取ってしまうと（逃げれば大丈夫）１三歩成、同玉、１二銀で先手玉は詰んでしまいます。

　上の局面まで誘導してあげれば以前のバージョン（1.0.7.0未満）でも先手が勝つのですが、初手に角を打つ手は指せませんでした。読みが深くなった新バージョン（1.0.7.0以降）だと長考モード（９手読み）でも瞑想モード（１０手読み）でも初手３二角が打てます。
　新バージョンでは初期配置から３二角、同銀、同玉、１三歩成、２一歩成、１二玉、２二とと７手で詰む（９手読みが必要）手順が見えているからこそ初手に角を取らせる手を指せるのですが、旧バージョンでは読む深さが足りずにその手順が見えていないため、初手で角を損する手は選べずに銀で歩を取ってしまいます。

　以前ボツにしたけど深く読むように改良してから正解が出せるようになった（と思っている）配置は他にもあるので、順次アプリに追加していこうと思います。但し今でも正解が分からないものやＡＩが示す手が正解と思えない初期配置もあります。ＡＩが最善手を指せる初期配置を開発者が選別している時点で、現在の３三将棋アプリはまだまだ人間を超えていないと言えそうです。

駒得しか考慮していない評価関数の限界

　旧バージョンでは深く読めないために初手を間違えたわけですが、深く読めなくても評価関数の出来が良ければ最善手を指せる可能性はあると思います²。No.144の初期配置を見た時に、ある程度の棋力がある人なら後手玉が動けない状態だから銀で歩を取るのは相手玉を逃してしまうことになって損だと判断出来ると思います。しかし、現状の駒得しか考えていない評価関数だとそういう考え方が出来ません。「角を捨てるわけにはいかない」「銀がただで取られる前に歩を取ろう」となってしまいます。機械学習の手法を使ってＡＩに学習させれば人間のように経験値を高めて「玉が狭い」なんていう概念をあたかも理解しているかのように振舞わせることが出来るかもしれません。
　最新の将棋ソフトを３三将棋（９マス将棋）に対応させたら全問最善手を指せるのでしょうか？作業量の割にメリットがないので誰もやらないと思いますが、もしやってみても学習型のＡＩだと初期配置が違うパターン全てに対応させるのは大変だと思います。またアプリを強くするためには評価関数の出来は悪くても、データ構造を変えたりコンパイラ言語を使ったりしてより深く広く読むようにするアプローチもあると思います。そちらの方が現実的かもしれませんが、androidアプリにするには開発環境も制限されますし、どちらの方法が効果的かは難しいところです³。
　自分は、５五将棋アプリのスタンダード配置に的を絞って学習型のＡＩを試してみたいと思っていて、三目並べで試していたモンテカルロ法⁴ではなくTD学習を使ったＡＩが良さそうだと思ってるのですが、それに関してはまた別の記事に書いてみたいと思います⁵。

Version1.0.8.0で追加した初期配置パターンNo.141〜No.145です。 ↩
でも本将棋ほどの精度は必要ないと思っています。いろんなケースを試してきて、やはり３三将棋（９マス将棋）は評価関数の出来より読みの深さだと思います。 ↩
現状の思考ルーチンのCoffeeScriptのソースをKotlinに移植するのは容易なのですが、Kotlin(Java)は再帰関数の扱いに制限があってこのアプローチは止めました。C++でライブラリ書いてandroidアプリから呼び出せば可能？ ↩
「三目並べと同じ方法でオセロや将棋を作れるか」、「三目並べでニューラルネットワーク（正）」参照 ↩
三目並べと違って教師データを作成する良い方法がわからないので、他のやり方も模索中です。 ↩