AobaZero

AobaZero は、AlphaZero の将棋の実験の追試を行うことを最終目的とした将棋人工知能プロジェクトです。
ユーザ参加型のコンテンツは現在準備中です。もうしばらくお待ちください。


将棋の知識を獲得していく過程を棋譜から確認できます

1万棋譜追加されるごとの自己対戦の棋譜 ページの先頭が最新の棋譜です。1日おきに更新予定。

上の棋譜は自己対戦の学習中の棋譜で「序盤30手まではひどい悪手を指す」ことがあります。
また「Rootの手にノイズを加えて最善手でない手でも選びやすい」ようになっています。

序盤30手まででひどい悪手を指してる場合はコメントで確認できます。
例えば、下なら本来なら△23歩打、が最善なのですが、4/800 の確率で△31銀を指してます。
-4231GI,'800,0023FU,731,1314FU,23,5152OU,7,4231GI,4

64x15bは2000棋譜ごとに4000回 64 minibatchで学習してweightを更新していました。
256x20bは10000棋譜ごとに20000回 64 minibatchで学習してweightを更新しています。
18万棋譜(ランダム含め30万棋譜)の段階で、自己対戦だと1万棋譜ごとに+180 Eloほど強くなっています。
(乱数の影響で短手数で終わる将棋があるので80手以上の棋譜から選んでいます)。
w448まではネットワークのサイズは 64 x 15 block です。w449から 256 x 20 block です(2019年4月21日以降)。


大雑把な感想です。
26万棋譜
'no000000261480 03/30/19 w70?
ほぼ駒の取り合いが分かっていて、飛車取りを避けます。
そして駒がお互い駒が2枚利いてる場所に金を打ち込んで王手をかけ
飛車を打って王手角取りをかけて角を取り、
なんと送りの手筋(金を王手で捨てて銀を取る)まで指してました。 

26万棋譜
'no000000261161 03/30/19 w70
自分の1手詰はうっかりする。まだ完璧に1手詰が分かってるわけではないらしい。

27万棋譜
w080 同士の棋譜
大駒の使い方を覚えた感じです。角道を空けるような
手が多いです。駒の損得はかなりしっかりしてきた感じです。
まだ歩の価値は怪しいですが。
つまり大駒、金銀の価値は分かってきてるが歩は分かってない、感じです。
ちゃんと将棋を指してる、感じがします。
竜を切って3手詰、が分かってる。でも飛車の不成はまだある。

30万棋譜
w95
終盤でそっぽに手が行かない
駒得を中心にして速度計算ができてる振りをしている。
3手詰を防いで受ける。
王をどちらか側に囲う、というのを覚えないまま相がかりのような戦型が増える
飛車先の歩を交換にしに行くことを覚える
32金33銀42金の形に組む。その好形を崩す22歩の叩きが指せる
88玉78金77銀の形に組む。矢倉を見つけた?
結果的に美濃囲い(左側で金は58金)になる
送りの手筋は軽くさせる
とにかく攻撃的、攻める攻める。

CSA選手権のアピール文書
GitHub まだ空っぽです。すみません。
棋譜

現時点での強化学習で作成した棋譜はこちらです。
棋譜集(xz形式で圧縮されています。1つ100MBぐらいです)
arch000000000000.csa.xz から arch000000450000.csa.xz まで

棋譜の
no000000000000.csa から
no000000121031.csa
まではニューラルネットワークを使わずにプログラムが乱数をPolicy,Valueに与えて800playoutで作った棋譜です。
実際にニューラルネットを使った棋譜は
no000000121032.csa
以降になります。
no000001017999.csa までは 64x15block、過去10万棋譜からのサンプリングで作った棋譜です。
no000001018000.csa からは 256x20block、過去50万棋譜からのサンプリングで作ってます。