AobaZero は、AlphaZero の将棋の実験の追試を行うユーザ参加型の将棋人工知能プロジェクトです。


ソース、実行環境を公開しました(2019/05/01)。
ご興味がある方は、ぜひ参加をお願いします。Google Colabを使えばどなたでも棋譜生成が可能です。

GitHub ソース、実行ファイルはこちらです。


2019年5月26日 11時47分現在(30分毎に更新)
過去1時間のユーザ数 29人、 1060棋譜
過去1日間のユーザ数 68人、 25474棋譜
合計 1836095 棋譜。貢献ありがとうございます!
過去1000棋譜の平均手数 117.1手、先手勝率 0.614
過去 50万棋譜の平均手数 117.5手、先手勝率 0.599

将棋の知識を獲得していく過程を棋譜から確認できます

1万棋譜追加されるごとの自己対戦の棋譜 ページの先頭が最新の棋譜です。1日おきに更新予定。

上の棋譜は自己対戦の学習中の棋譜で「序盤30手まではひどい悪手を指す」ことがあります。
また「Rootの手にノイズを加えて最善手でない手でも選びやすい」ようになっています。

序盤30手まででひどい悪手を指してる場合はコメントで確認できます。
例えば、下なら本来なら△23歩打、が最善なのですが、4/800 の確率で△31銀を指してます。
-4231GI,'800,0023FU,731,1314FU,23,5152OU,7,4231GI,4

(乱数の影響で短手数で終わる将棋があるので80手以上の棋譜から選んでいます)。


棋力の推移。一つ前のweightとの自己対戦を元にしたグラフです。縦軸がELO。横軸が1万棋譜ごとのweightです。floodgateは右側の縦軸です。
2019/05/24 時点です。1万棋譜で +13 Eloの上昇を予想しています。今後自動更新させる予定です。

先手勝率と平均手数(右軸)です。先手勝率は0.63ぐらいから一度0.53まで落ちてまた上昇しています。
平均手数は開始直後は300手を超えていましたが、現在は118手ぐらいです。1000局ごとです。2019/05/18時点

1000局ごとの引き分けの数です。開始直後は半分の480局ほどが引き分けでしたがすぐに減り、現在は10局ほどです。2019/05/18時点

25分ごとに追加された棋譜の数です。リリース直後から1.5倍ほどに増えています。貢献感謝です!2019/05/02時点

CSA選手権のアピール文書
大雑把な感想

棋譜

現時点での強化学習で作成した棋譜です。
xz形式で圧縮されています。1つ100MBぐらいです。2週間ごとぐらいで最新版を追加します。
arch000000000000.csa.xz から arch000001560000.csa.xz まで

棋譜の
no000000000000.csa から
no000000121031.csa
まではニューラルネットワークを使わずにプログラムが乱数をPolicy,Valueに与えて800playoutで作った棋譜です。
実際にニューラルネットを使った棋譜は
no000000121032.csa
以降になります。
no000001017999.csa までは 64x15block、過去10万棋譜からのサンプリングで作った棋譜です。
no000001018000.csa からは 256x20block、過去50万棋譜からのサンプリングで作ってます。
ネットワークの重み

w000000000001.txt.xz から w000000000504.txt.xz まで
w448まではネットワークのサイズは 64 x 15 block です。w449から 256 x 20 block です。

w001  ...  64x15b, 64 minibatch, 学習率 0.01,  wd 0.00005, momentum 0.9,   120000棋譜
w156  ...  64x15b, 64 minibatch, 学習率 0.001, wd 0.00005, momentum 0.9,   430000棋譜
w449  ... 256x20b, 64 minibatch, 学習率 0.01,  wd 0.0002,  momentum 0.9,  1018000棋譜
w465  ... 256x20b, 64 minibatch, 学習率 0.001, wd 0.0002,  momentum 0.9,  1180000棋譜
w448までは 2000棋譜ごと( 4000回学習ごと)にweightを更新。
w449からは10000棋譜ごと(20000回学習ごと)にweightを更新。