Post by Israel Levkivker

AI-driven Senior Developer & Tech Lead | AI builder | 9+ years builder at startups | built AI based product with 3M+ ARR 👉 Follow me ✨ - sharing content about people, hiring, architecture, leadership & AI agents

תם עידן הRAG 🤯 ומשהו חדש מתחיל 🔥 הפעלה של LLM חכמים ומדהימים אך מוגבלי קונטקס על סטים ענקיים של דטאה התאפשרה לנו עד היום רק בזכות החיפוש הסמנטי. חיפוש RAG מתוחכם מבוסס קשרים בין קבוצות מילים שמסננת עבור הLLM החכם אך המוגבל את קטעי הטקסט הרלוונטים לחיפוש שלנו. אך גם הRAG היעיל לא חף ממגבלות: 1. כמה תוצאות אופטימליות להחזיר למודל, ועד כמה מרחק סמנטי לאפשר? מצד אחד אפשר להחזיר 1000 קטעי טקסט ובמרחק סמנטי יחסית גבוה מהחיפוש של המשתמש, אנחנו נרוויח שלא נאבד דבר, אך בדרך נסתום למודל את הקונטקסט ונבלבל אותו עם המון תוכן לא קשור. ומצד שני אפשר להגביל רק ל10 תוצאות וקרובות ביותר, אך להסתכן בלאבד מידע חשוב שלמודל לא תהיה גישה אליו. כך או כך זו תמיד תהיה החלטה שרירותית שנשלם עליה את המחיר שנסכים להתפשר עליו בהתאם לדרישות של המוצר - דיוק של המודל בזול עם סיכון לאבד מידע חשוב, לעומת הסיכון של מודל מבולבל עם זמן שליפה ועלויות שימוש גבוהות. 2. כל חלון צ'אט חדש שנפתח, לא משנה כמה כח עיבוד יקר ומשמעותי, ודיונים עם המודל שהשקענו בחלון הקודם - הכל מתחיל שוב מחדש, שריפת כח עיבוד, ושריפת הזמן והאנרגיה שלנו. 3. במקרים רבים מאד קטע טקסט יקבל תוצאות סמנטיות קרובות מאד לחיפוש נפוץ למרות שתוכן הטקסט עצמו אינו באמת קשור לחיפוש. ובכל זאת זה לא ימנע מחיפוש הRAG להמשיך להביא למודל את אותן תוצאות שוב שוב. מה שעולה בשריפת זמן, כח עיבוד, ו'לכלוך' קבוע של הקונטקסט היקר. 🤷 וכאן נכנס לתמונה ‏Andrej Karpathy‏ 👑, אחד ממומחי הAI המובילים בעולם. אנדריי מציע קונספט חדש לגמרי 💎 הLLM Wiki 🎁 תחשבו כדוגמה על הקוספט של הסקילים, כמה כח נותנת לנו השכבה של הסקילס על הקודבייס שלנו ביחס לפתיחת צ'אט ישירה ללא שימוש בסקילס. אנדריי מציע לתת לLLM עצמו ללעוס כל פיסת מידע חדשה שנכנסת למאגר המידע, ולייצר ממנה שכבת ויקיפדיה. הויקיפדיה עובדת כשכבות על שכבות של קבצי md, עם קובץ ראשי של תוכן העניינים, עם היפר לינקים בין הקבצים, וכן הפניות למאגר המידע עצמו. הויקיפדיה של מאגר המידע מתעדכנת על ידי הLLM בשלוש הזדמנויות: א. בהכנסה של מידע חדש. הLLM לומד אותו, מצליב אותו מול המידע הקיים, ומשבץ אותו כולל קישורים בתוך הויקיפדיה הקיימת. (תחשבו על זה כמו מחשבה עמוקה שלכם אחרי פוסט מעניין בלינקדין שקראתם, ויצירת קישורים של המידע החדש למה שידעתם עד היום). ב. אחרי שליפה מורכבת של מידע. הLLM ינסה לאפטם את הויקיפדיה, האם נדרש להוסיף ערכים חדשים בהתאם לשאלות שהוא נשאל. ערכים חדשים שמעניינים את המשתמש שהוא לא חשב עליהם מראש. (תחשבו על זה כמו הוספת אינדקסים בDB כשאנחנו רוצים שליפות מהירות). ג. בצורה מתוזמנת. במטרה לתקןס לתמצת ולארגן מחדש את הויקיפדיה. (תחשבו על זה כמו העיבוד שמתרחש במוח שלנו בזמן שינת החלום). גישת הוקיפדיה הזו מאפשרת לLLM להשיב בזמן אמת על שאלות מורכבות מתוך מאגר מידע עצום במהירות גבוהה מאד, בדיוק גבוה, במינימום רעש, עם שימוש אופטימלי בטוקנים. כעת תעצרו לקרוא שוב את החסרונות של RAG ותראו איך זה מכסה אותן. רוצים לקבל לינק למאמר של אנדריי רוצים לקבל לינק לפרק פודקאסט שמתאר את המוח הזה בפעולה? שימו תגובה בפוסט, תכתבו לי בפרטי ואשלח לכם! קראתם עד לכאן? זה כנראה אומר עליכם שאתם יסודיים, סקרנים ואוהבי טכנולוגיה וAI בואו לאכול (לעבוד) איתי! סטאראטפ רפואי Guardoc Health עם מוצריך בפרודקשיין ובסקייל, מוצר Core AI שהגיע תוך שנה ל3M$ ARR. דברו איתי בפרטי 📞