AlphaZero

AlphaZero
מפתח	DeepMind
מחזור חיים	2018–הווה (כ־7 שנים)

AlphaZero היא תוכנת מחשב שפותחה על ידי חברת המחקר הבריטית DeepMind, המתמחה בבינה מלאכותית, במטרה להגיע לרמות חשיבה גבוהות במיוחד במשחקי שחמט, שוגי וגו. האלגוריתם של AlphaZero מבוסס על גישה דומה לזו של AlphaGo Zero.

עובדות מהירות מפתח, מחזור חיים ...

ב-5 בדצמבר 2017 הציגה החברה את AlphaZero, שהצליחה תוך 24 שעות בלבד של אימון עצמי להגיע לרמת משחק על-אנושית (אנ') בשלושת המשחקים. היא גברה על תוכנות מהחזקות בעולם באותם זמנים – stockfish בשחמט, Elmo בשוגי, וגרסה מתקדמת של AlphaGo Zero בגו. בכל המקרים נעשה שימוש במעבדי TPU – יחידות עיבוד טנזורים ייעודיות שפותחו על ידי גוגל. היא הוכשרה באמצעות משחק עצמי בלבד, ללא גישה מוקדמת לספרי פתיחות או לשולחנות סיום. לצורך ההכשרה השתמשו החוקרים במקביל ב-5,000 מעבדי TPU מהדור הראשון ליצירת המשחקים, וב-64 מעבדים מהדור השני לצורך אימון רשתות נוירונים. לאחר ארבע שעות בלבד של אימון, העריכו החוקרים כי רמתה של AlphaZero בשחמט גבוהה מזו של Stockfish 8; לאחר תשע שעות אימון, נערך טורניר של 100 משחקים מול Stockfish 8, שבו ניצחה AlphaZero 28 פעמים, סיימה 72 פעמים בתיקו – ולא הפסידה כלל^[1]^[2]. התוכנה המאומנת הריצה את האלגוריתם שלה על מכונה אחת בלבד, שהכילה ארבעה מעבדי TPU.

המאמר המדעי של DeepMind אודות AlphaZero פורסם בכתב העת "Science" ב-7 בדצמבר 2018. בשנת 2019 פרסמה החברה מאמר נוסף שבו הוצג אלגוריתם מתקדם בשם MuZero, המסוגל להכליל את עקרונות AlphaZero גם למשחקים שבהם כללי המשחק אינם ידועים מראש, בהם משחקי לוח וגם משחקי וידאו ממשפחת אטארי^[3].

[1]

[2]

[3]

AlphaZero

הערות שוליים

Wikiwand - on