DEV Community

loading...

AlphaZeroの美しい勝利

Cong
I play chess/shogi ❤️ work with CI/CD, NLP/RL/ML 😎 speak Vietnamese, Japanese and English, forgot Russian 🤠 majored in Operations Research 🤓
・1 min read

Chess.com, FortuneITmediaが報じたように、AlphaZeroがコンピュータチェスチャンピオンのStockfishに1,000ゲームのマッチで圧倒的にかつ華麗に勝ちました。

昨年末のマッチでも勝ちましたが、そのときは短いタイムコントロールで、Stockfishに不利と噂がありました。今回は持ち時間それぞれ3時間という長いタイムコントロールです!しかも、AlphaZeroにその10分の1の時間だけ与えても、勝っていました。

DeepMindによると、AlphaZeroの最初の自己対局ゲームセットの作成には5,000 TPUs、その後の深層強化学習には 16 TPUs が使われました。約4時間の学習でStockfishを超えるようになり、9時間経過で完全に圧倒しました。

特に、今回のゲームマッチでは、AlphaZeroがポーン(歩)を単独に敵陣深く侵入させることがよくあり、この棋風はオープンソースの Lc0も同様に自己学習で生み出しました。人間のチェスプロはあまり指さない棋風です。また、一見して大胆なサクリファイス(捨て駒)をして、後々有利な形成を作っていく華麗なゲームが多く見られ、元世界王者のカスパロフも大絶賛しています。

Discussion (0)