מגה לוגיסטיקה
ניוזלטר מגה לוגיסטיקה
מגה לוגיסטיקה 232
לעמוד קודם

רובוטים השולטים בריבוי משימות

24/06/2024
זמן קריאה: 2.5 דק'

תארו לעצמכם רובוט שיכול לעבור באופן חלק בין לחיצה על מסמר להפיכת פנקייק. חוקרים ב-MIT הופכים את זה למציאות, עם טכניקה חדשה המשלבת AI יצירתי כדי לאמן רובוטים למגוון משימות וסביבות.

האתגר באימון רובוטים טמון בהטרוגניות של הנתונים. מערכי נתונים רובוטיים מגיעים במגוון צורות, מתמונות צבע ועד טביעות מישוש, ואפשר לאסוף אותם באמצעות סימולציות או הדגמות אנושיות. כל מערך נתונים מתמקד בדרך כלל במשימה יחידה בתוך סביבה ספציפית. בשל יעילותם לתרחיש מסוים, רובוטים שאומנו על נתונים מוגבלים כאלה נאבקים להסתגל למצבים חדשים או לכלים לא מוכרים.

כדי לטפל במגבלה זו, חוקרי MIT פיתחו שיטה בשם Policy Composition - PoCo - הממנפת AI גנרטיבי, במיוחד מודלים של דיפוזיה, כדי לשלב מידע ממספר מערכי נתונים.

מדיניות רובוטית היא למעשה אסטרטגיה, מערכת הוראות המאפשרת לרובוט לבצע פעולה על סמך תשומות נתונות. באופן מסורתי, מדיניות זו מאומנת באמצעות מערכי נתונים קטנים וספציפיים למשימה.

"רוב מערכי הנתונים הרובוטיים מוגבלים בהיקף", מסביר לירוי וואנג, חוקר MIT והמחבר הראשי של המאמר. "מחסנים מייצרים כמויות אדירות של נתונים, אבל זה ספציפי לפעילות שלהם. זה לא אידיאלי ליצירת רובוטים למטרות כלליות."

PoCo מתמודדת עם אתגר זה על ידי פירוק משימות מורכבות לרכיבים קטנים יותר הניתנים לניהול. החוקרים מאמנים מודלים נפרדים של דיפוזיה על כל מערך נתונים. מודלים של דיפוזיה, המשמשים בדרך כלל ליצירת תמונות, מאומנים לחדד באופן איטרטיבי את הפלטים עד שהם דומים לדוגמאות בתוך מערך אימון.

בהקשר של רובוטים, במקום לייצר תמונות, מודלי הדיפוזיה לומדים ליצור מסלולים - רצף התנועות הדרושות להשלמת משימה. על ידי הוספת רעש לנתוני המסלול הקיימים והקפדה על הסרת מודל הדיפוזיה בהדרגה, החוקרים למעשה מאמנים את המודל "לבטל את הרעש" שלו אל דפוס התנועה האופטימלי.

ברגע שמודלים יחידים של דיפוזיה מאומנים על מערכי הנתונים שלהם, PoCo משלבת את המדיניות המלומדת שלהם. "שילוב משוקלל" זה מביא בחשבון את החוזקות של כל פוליסה. לדוגמה, מדיניות מאומנת על נתונים מהעולם האמיתי עשויה להצטיין במיומנות, ואילו למדיניות מאומנת בסימולציה עשויות להיות יכולות הכללה מעולות.

"היופי של PoCo הוא שהיא מאפשרת לנו לשלב את ההיבטים הטובים ביותר של פוליסות שונות", אומר וואנג. "אנחנו יכולים ליצור רובוטים עם מיומנות מנתונים מהעולם האמיתי ומיומנויות הכללה מסימולציות."

לגישה מודולרית זו מספר יתרונות. משתמשים יכולים להתאים את מערך הכישורים של הרובוט על ידי שילוב מודלים ספציפיים של דיפוזיה, ואפשר לשלב בקלות אופני נתונים או תחומים חדשים על ידי הכשרת מודלים נוספים של דיפוזיה.

היעילות של PoCo הוכחה הן בסביבות מדומות והן בסביבות בעולם האמיתי. כאשר נבדק על זרועות רובוטיות המבצעות משימות כגון דפיקת מסמרים והפיכת חפצים עם מרית, PoCo הביא לשיפור של 20% בביצועים בהשוואה לשיטות מסורתיות.

"התוצאות היו ברורות", אומר וואנג. "המסלולים המשולבים היו עדיפים בבירור על אלה שנוצרו על ידי מדיניות אינדיבידואלית."

החוקרים צופים ליישם את PoCo במשימות מורכבות יותר הכוללות כלים מרובים ופעולות עוקבות. שילוב מערכי נתונים רובוטיים גדולים ומגוונים יותר הוא תחום מפתח בפיתוח עתידי.

"ההצלחה ברובוטיקה מסתמכת על שלל נתונים - נתוני אינטרנט, נתוני סימולציה ונתוני רובוטים בעולם האמיתי", אומר ג'ים פאן, חוקר בפוקו.

עם היכולת שלה למנף מערכי נתונים מגוונים ולטפח יכולות ריבוי משימות, PoCo סוללת את הדרך לדור חדש של רובוטים שיכולים להסתגל ולהצטיין במגוון רחב יותר של תרחישים. המחקר הזה טומן בחובו פוטנציאל עצום ליישומים בייצור, בלוגיסטיקה ואפילו משימות סיוע אישי, ומקרב אותנו לעתיד של עוזרים רובוטיים מגוונים.

 

לפרטים נוספים

 

תגובות
הוספת תגובה
הוספת תגובה
 
כותרת
תוכן