שאלות נפוצות
ציר זמן
צ'אט
פרספקטיבה
AlphaGo Zero
מוויקיפדיה, האנציקלופדיה החופשית
Remove ads
AlphaGo Zero היא גרסה מתקדמת של תוכנת AlphaGo למשחק הגו שפותחה על ידי חברת DeepMind. בשונה מגרסאות קודמות, AlphaGo Zero אומנה ללא שימוש בנתוני משחקים של בני אדם, והצליחה להגיע לרמה גבוהה יותר מכל גרסה קודמת.

במאמר שפורסם בכתב העת Nature באוקטובר 2017, תיאר הצוות של DeepMind את תהליך האימון שעברה AlphaGo Zero: בשלושת הימים הראשונים היא הפסידה 100 משחקים לעצמה, ולאחר 21 יום הגיעה לרמת המשחק של AlphaGo Master. תוך 40 ימים נוספים היא עברה כל גרסה קודמת של AlphaGo.[1]
שיטת האימון העצמי הזו, ללא נתוני משחקים אנושיים, יכולה להוביל לפריצות דרך בפיתוח בינה מלאכותית עם יכולות על-אנושיות. מייסד DeepMind, דמיס הסביס, אמר שמה שהוכיחה AlphaGo Zero שהיא אינה מוגבלת עוד על ידי הידע האנושי.
בהמשך פותחה גרסה כללית יותר, AlphaZero, שמסוגלת לשחק גם שחמט ושוגי ברמה גבוהה. AlphaZero הצליחה לנצח גרסאות קודמות של AlphaGo, וכן תוכנות מובילות בשחמט ובשוגי.
היכולת לאמן בינה מלאכותית ללא נתונים אנושיים עשויה להוביל להתקדמות משמעותית בתחום.

Remove ads
אימון המודל
הרשת העצבית של AlphaGo Zero אומנה באמצעות TensorFlow, עם 64 מעבדי GPU ו-19 שרתי פרמטרים של CPU. רק ארבעה TPU שימשו להסקת המסקנות.
בתחילה, הרשת העצבית לא ידעה דבר על המשחק מעבר לכללים הבסיסיים. בניגוד לגרסאות קודמות של AlphaGo, Zero קיבל את המידע הבסיסי של האבנים על הלוח, ולא היו לו כמה מקרים נדירים מתוכנתים על ידי אדם כדי לעזור לזהות עמדות יוצאות דופן של לוח Go. הבינה המלאכותית עבדה עם למידת מכונה מסוג למידת חיזוק, וכך היא שיחקה נגד עצמה ולמדה מכישלונות עד שהצליחה להבין איך המהלכים שהיא ביצעה השפיעו על תוצאות המשחק.[2] בשלושת הימים הראשונים AlphaGo Zero שיחק 4.9 מיליון משחקים מול עצמה ברצף מהיר.[3] ונראה שהוא פיתח את הכישורים הנדרשים כדי לנצח את בני האדם המובילים בתוך ימים ספורים בלבד, בעוד שה-AlphaGo המוקדם יותר לקח חודשים של אימונים כדי להגיע לאותה רמה.[4]
לשם השוואה, החוקרים הכשירו גם גרסה של AlphaGo Zero באמצעות משחקים אנושיים, AlphaGo Master, וגילו שהיא למדה מהר יותר, אך למעשה תפקדה באופן פחות טוב לטווח הארוך. DeepMind פרסמה את הממצאים הראשוניים שלה במאמר ל-Nature באוקטובר 2017.[5]
Remove ads
עלות חומרה
עלות החומרה עבור מערכת AlphaGo Zero יחידה בשנת 2017, כולל ארבעת ה-TPU, הוערכה בסכום של 25 מיליון דולר.[6]
יישומים
לפי חסביס, האלגוריתמים של AlphaGo עשויים להועיל ביותר לתחומים הדורשים חיפוש מושכל דרך מרחב עצום של אפשרויות, כמו קיפול חלבון או הדמיה מדויקת של תגובות כימיות.[7] הטכניקות של AlphaGo כנראה פחות שימושיות בתחומים שקשה לדמות, כמו לימוד נהיגה במכונית.[8] DeepMind הצהירה באוקטובר 2017 כי היא כבר החלה בעבודה אקטיבית על ניסיון להשתמש בטכנולוגיית AlphaGo Zero לקיפול חלבון, והצהירה כי בקרוב תפרסם ממצאים חדשים.[9][10]
קבלה
AlphaGo Zero נחשבה באופן נרחב כמקדמה משמעותית, גם בהשוואה לקודמו פורץ הדרך, AlphaGo. אורן עציוני ממכון אלן לבינה מלאכותית כינה את AlphaGo Zero "תוצאה טכנית מרשימה מאוד" וציין כי "גם היכולת שלהם לעשות זאת וגם היכולת שלהם לאמן את המערכת תוך 40 יום, על ארבעה TPU". ה"גרדיאן" כינה זאת "פריצת דרך גדולה לבינה מלאכותית", תוך ציטוט של אלני ואסילאקי מאוניברסיטת שפילד וטום מיטשל מאוניברסיטת קרנגי מלון, שכינו זאת הישג מרשים ו"הישג הנדסי יוצא דופן" בהתאמה. מארק פסה מאוניברסיטת סידני כינה את AlphaGo Zero "התקדמות טכנולוגית גדולה" שלוקחת אותנו ל"טריטוריה שלא התגלתה".[11]
בתגובה לדיווחים על ביצועי המערכת, אמר המאמן גו הדרום קוריאני של לי סידול, "הגרסה הקודמת של AlphaGo לא הייתה מושלמת, ואני מאמין שבגלל זה נוצרה AlphaGo Zero". לגבי פוטנציאל הפיתוח של AlphaGo, לי אמר שהוא יצטרך לחכות ולראות אבל גם אמר שזה ישפיע על שחקני גו צעירים"
Remove ads
השוואה לתוכנות קודמות
Remove ads
AlphaZero
ב-5 בדצמבר 2017, צוות DeepMind פרסם הדפסה מקדימה ב-arXiv, והציג את AlphaZero, תוכנית המשתמשת בגישה המוכללת של AlphaGo Zero, שהשיגה תוך 24 שעות רמה על-אנושית של משחק בשחמט, שוגי ו-Go, תוך ניצחון על תוכניות אלופי העולם, Stockfish, Elmo.
AlphaZero (AZ) הוא גרסה כללית יותר של אלגוריתם AlphaGo Zero (AGZ), והוא מסוגל לשחק שוגי ושחמט כמו גם Go. ההבדלים בין AZ ל-AGZ כוללים:
- ל-AZ יש כללים מקודדים להגדרת היפרפרמטרים של חיפוש.
- הרשת העצבית מתעדכנת כל הזמן.
- שחמט (בניגוד לגו) יכול להסתיים בתיקו; לכן AZ יכולה לקחת בחשבון את האפשרות של משחק שוויון.
ישנה תוכנת קוד פתוח, Leela Zero, המבוססת על הרעיונות מהעיתונים של AlphaGo. הוא משתמש ב-GPU במקום ב-TPU שהגרסאות האחרונות של AlphaGo מסתמכות עליהן.
Remove ads
קישורים חיצוניים
הערות שוליים
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads