מודל AI מאחורי ההגה
תחום הנהיגה האוטונומית התקדם מאוד בשנים האחרונות, ממערכות מבוססות חוקים למודלים של רשתות נוירונים. אלא שגם מודלים מקיפים מקצה לקצה חשופים לחסרונות ממשיים: הם מתקשים להבין ידע מהעולם הרחב, מתפקדים פחות טוב בתרחישים נדירים או עמומים ומספקים שקיפות מוגבלת מאוד לגבי תהליך קבלת ההחלטות שלהם. מנגד, מודלים שפתיים גדולים (LLMs) מצטיינים בהסקה, בהבנת הקשר ובפירוש הוראות מורכבות, אך הפלט שלהם טקסטואלי ואינו ניתן ליישום ישיר בשליטה ברכב. הפערים האלו מדגישים את הצורך במסגרת חדשה המשלבת תפיסה רב־מודלית עם החלטות מובנות ובנות־ביצוע המעוגנות בלוגיקת נהיגה מוכרת.
צוות מחקר מאוניברסיטת ג'יאו טונג (Jiaotong) בשנחאי, המעבדה לבינה מלאכותית של שנחאי, אוניברסיטת צ'ינגחואה (Zhinghua) ומוסדות שותפים, פיתח את DriveMLM - מסגרת מבוססת מודל שפה רב־מודלי לנהיגה אוטונומית ברשת סגורה. DriveMLM משלבת תמונות ממצלמות מרובות, ענני נקודות מחיישני LiDAR, הודעות מערכת והנחיות משתמש, ומפיקה מצבי תכנון התנהגותיים המתיישבים ישירות עם מודולי תכנון תנועה קיימים. כך מתאפשרת שליטה בזמן אמת ברכב לצד הפקת הסברים מילוליים לכל החלטה.
האתגר המרכזי שבו מטפלת DriveMLM הוא תרגום חשיבה לשונית להתנהגות נהיגה אמינה. המסגרת מיישרת את פלט ה־LLM עם מצבי תכנון התנהגותיים הנהוגים במערכות מודולריות כגון אפולו (Apollo) הן בהחלטות מהירות - שמירה על מהירות, האצה, האטה או עצירה - והן בהחלטות מסלול כגון המשך נתיב או מעבר נתיב שמאלה או ימינה.
לשם כך פותח טוקנייזר (רכיב שתפקידו לפרק מידע גולמי ליחידות בסיסיות) רב־מודלי ייעודי, המעבד תמונות מרובות־זווית לאורך זמן, נתוני חיישני LiDAR, כללי תנועה והנחיות משתמש לייצוג אחיד. מודל השפה הרב־מודלי חוזה את מצב ההחלטה המתאים ומייצר בו־בזמן הסבר מילולי, מה שמבטיח יכולת פעולה ופרשנות והבנה אנושית.
לשלב האימון נבנתה תשתית נתונים רחבת היקף שיצרה כ־280 שעות נהיגה בשמונה מפות וב־30 תרחישים מאתגרים, כולל אירועי בטיחות נדירים. המערכת תייגה החלטות מהירות ומסלול באופן אוטומטי, ושילבה תיקונים אנושיים והרחבות מבוססות GPT ליצירת אנוטציות הסבר עשירות.
"המחקר שלנו מראה כי מודלים שפתיים, כאשר הם מיושרים למצבי החלטה מובנים, עשויים לשמש כמתכנני התנהגות עוצמתיים לרכב אוטונומי", ציין צוות המחקר. "DriveMLM חורגת מציות לכללים: היא מבינה סצנות מורכבות, מסיקה לגבי תנועה ומסבירה את החלטותיה בשפה טבעית - יכולות חיוניות לבטיחות ולאמון הציבור."
DriveMLM מדגימה כיצד מודל שפה יכול לשפר שקיפות, גמישות ובטיחות בנהיגה אוטונומית. המבנה המודולרי מאפשר שילוב קל במערכות קיימות כגון אפולו או אוטופיילוט (Autopilot), ללא שינוי ארכיטקטורה מהותי. היכולת להבין הנחיות בשפה טבעית פותחת דלת לעוזרי נהיגה אינטראקטיביים ול־AI מותאם אישית לנהגים. מעבר לכך, המערכת מציגה כיוון ברור לעתיד של מערכות אוטונומיות מבוססות היגיון, המסוגלות להבין סביבה מורכבת, לצפות סיכונים ולהצדיק את פעולותיהן - תנאי מפתח לפריסת בינה מלאכותית אמינה במערכות תחבורה אמיתיות.
