Эпизоды
-
בפרק הזה דניאל ארונוביץ', מדען נתונים ותיק, מספר על המסע האישי שלו בתעשיית הטכנולוגיה לאורך 15 שנים. ניגע בהבדלים הבולטים בין העבר להווה, בכלים שהשתמשו בעבר לעומת הכלים שמשתמשים בהם היום שמחברים את המדע ישר לפרודקשן.
דניאל מתאר את השינויים במיומנויות הנדרשות ממדעני נתונים, מיכולת ניתוח בלבד להכרח להבין תהליכי פיתוח וניהול גרסאות. נשוחח על האתגרים הטכניים, השינויים בפרקטיקות העבודה, וכיצד התפתח התחום מימי האלגוריתמים הקלאסיים ועד לתפקידי הדאטה המודרניים בעולם התוכנה.
Dataflint/Spark
לינקדאין של דניאל
-
החודש גוגל פרסמו את NotebookLM, שירות AI שמייצר שיחת עומק מוקלטת בין שני דוברים לא אמיתיים.כדי לבדוק את העניין, העלנו תמלול של "רק לא RAG" פרק הטיפים של אורי גורן מארגמקס על נסיונו עם ארכיטקטורת הRAG.והתוצאה, הפילה אותנו מהרגליים.נשמח לשמוע מה דעתכם? האם אפשר למכור את המיקרופון והציוד הקלטה ביד2?
-
Пропущенные эпизоды?
-
בפרק הזה, דוד שוקרון,
Head of DS & AI
בביטוח ישיר, מספק הצצה לעולם מדעי הנתונים בתעשיית הביטוח. נשמע ממנו על ההבדלים בין אקטואריה ל-Data Science,
ועל איך משלבים DS במערכות ותיקות של חברות ביטוח
דוד יסביר על יישומי DS בתעשייה עתירת נתונים כמו ביטוח, בשימוש בכלים ומודלים שונים, כולל השאלה אם יש צורך בכלים ייחודיים או שניתן להסתפק במוצרי מדף קיימים. בנוסף, נבין איך מודלי שפה משפיעים על תעשיית הביטוח, ומה הכיוונים העתידיים שמעצבים את התחום בעקבות החידושים האחרונים.
.
-
בפרק זה, אנחנו נשוחח עם אלעד נחמיאס
CTO של Bridgewise,
על השימוש במודלי שפה גדולים (LLMs) בתחום ההשקעות. אלעד יסביר לנו איך משלבים טכנולוגיות מתקדמות כדי לשפר תהליכי הייעוץ והאנליזה, תוך התמודדות עם אתגרים כמו דיוק הנתונים, הטיות פוטנציאליות ושמירה על פרטיות המידע.
נשמע על האתגרים הטכניים והאתיים של יישום
LLMs, איך Bridgewise מוודאת שהפתרונות שלה נשארים שקופים ואחראיים, ומה החזון העתידי שלה לשימוש בטכנולוגיה זו בתעשיית ההשקעות.
-
בפרק הזה, נצלול יחד עם לירון יצחקי אלרהנד ל
Interleaving Retrieval with Chain of Thought (IRCoT)
שיטה לשיפור מערכות שאלה ותשובה על ידי הרחבה איטרטיבית של תהליך חשיבה ואחזור מידע רלוונטי. נדבר על טכניקות שונות של אחזור אדפטיבי, נשווה את יעילותן על סמך מורכבות השאלה, ונדגיש את החשיבות של בחירת הגישה הנכונה לתרחישים שונים
המלצות של לירון למי שמועניין ללמוד עוד:
https://arxiv.org/abs/2212.10509
https://github.com/StonyBrookNLP/ircot/tree/main
https://colab.research.google.com/github/pathwaycom/pathway/blob/main/examples/notebooks/showcases/mistral_adaptive_rag_question_answering.ipynb
https://arxiv.org/abs/2403.14403
-
לא רק היופי הוא בעיניי המתבונן, מסתבר שגם הדימיון הסמנטי
בפרק הזה ענבל תספר לנו איך התגלגלה מטוקיו ל
בגונג senior staff researcher
כשחושבים על אמבדינגז, הרבה פעמים חושבים על חיפוש וקטורי וRAG
נדבר על החשיבות של אמבדינג טוב דווקא בשלב הכרת הדאטא ובחירת דוגמאות מעניינות לאימון.
נסקור את ההיסטוריה של אמבדינג, ללא הקשר, עם הקשר, ועדTask aware embeddingשהוא צעד ביניים למודל שפה מלא
לינקדאין של ענבל
E5
MTEB
-
בפרק זה ריאיינו את אורי גוטליב ונטע בר על המעבר שלהם לעולם ה data science במסגרת ההכשרה שלהם ב YData.על הפער העצום בין התאוריה לעבודה מעשית ועל הפרויקט שעשו שהביא אותם לעבודה הנוכחית שלהם.
קישורים:
אורי גוטליבנטע ברwids il facebookWids-linkdinקהילת באות -
אינטל העולמית נמצאת השבוע בכותרות בעקבות ההצהרה על הצמצומים, וזו הזדמנות מעולה להזכיר על הפעילות המדהימה של קבוצת הדאטא סיינס של אינטל ישראל.החודש פורסם כי הקבוצה
AI Solutions Group
זכתה בפרס הארגון המצטיין העולמי של אינטל.
בפרק זה ד"ר אמיתי ערמון יספר לנו על התפקיד שלו בתור ה
Chief Data Scientist
של הקבוצה, מה היא עושה? מה האתגרים היחודיים שלהם? ואיך מתנהלת העבודה של 250 עובדים שבונים ביחד מוצרים מבוססי בינה מלאכותית?
נדבר על פרוייקטים לדוגמא, על ללמים ועל המאמר שכתב
Tabular Data: Deep Learning is Not All You Need
שהגיע השבוע לאלף ציטוטים.
Tabular Data: Deep Learning is Not All You Need
עמוד הלינקדאין של אמיתי
-
קוד פתוח זה נושא מורכב, יש כמה סוגים של רשיונות כמו GPL, Apache, MIT וכו׳.העניינים מסתבכים עוד יותר כשמדברים על מודלים פתוחים, האם קוד המודל פתוח? אולי רק המאמר? אולי רק המשקולות פתוחות? ומה לגבי הדאטא?בפרק זה עופר חרמוני, יועץ בתחום הAI וחבר בLinux foundationיספר על הקריטריונים של הארגון למודלים פתוחים, ונמנה מספר מודלים כאלו.עולם הAI מתקדם בקצב מסחרר, והמחוקק לא תמיד מצליח לעקוב - בשיחה עם עופר דיברנו על המירוץ וההשלכות החוקיות על שימוש במודלים פתוחים, והתוצרים שלהם.LF AI & Data website: https://lfaidata.foundation/AI Open Source landscape: https://landscape.lfai.foundation/Generative AI Commons website: https://genaicommons.org/Generative AI Commons - Get Involved guide: https://docs.google.com/presentation/d/1Ie0NKJ4N5u3UINUdiwoA7pBYtaRrUdH0gEcMUo9M9Y0/edit?pli=1#slide=id.g2c0160abebd_0_72OSI - open source AI initiative - latest definition: https://opensource.org/deepdive/drafts/the-open-source-ai-definition-draft-v-0-0-8OSI - Open Source AI initiative discussion forum: https://discuss.opensource.org/Connect with me on LinkedIn: https://www.linkedin.com/in/ofer-hermoni/
-
גיא אדלר מחברת אקסיליון יחלוק איתנו מנסיונו בפיתוח ושימוש במערכות סימולציה לעולם התחבורה.
אקסיליון מפתחת מוצר לעיריות לצורך אופטימיזציה של רמזורים ותנועה, כדי שכולנו נבלה כמה שפחות זמן בפקקים.
נדבר על האתגרים בתחזית של אירועים נדירים כגון מזג אוויר, הופעות, ושיבושי תנועה.
ועל החשיבות של עבודה משותפת עם מומחי תוכן ואינטגרציה עם מערכות אמיתיות של עיריות כבר בתהליך הסימולציה.
סימולציה היא דבר יקר, וגיא חולק איתנו מאתגריו בפיתוח מערכות יעילות בc++ כדי שהמערכת תוכל לרוץ בזמנים סבירים. -
פרק פיצוץ על איך סימולציות יכולות לעזור לנו לחזות תגובה של חומרי נפץ במתחים שונים.בפרק זה רותם תספר לנו על המחקר האקדמי שלה בשיתוף עם רפאל, ועל איך סימולציות עזרו לחסוך המון כסף וזמן על ניסוי שטח.נדבר על ההבדלים בין סימולציות סדרתיות, ובין סימולציות אגרגטיביות.ומדוע סימולציות הם הכלי הנכון לבדוק את המודל שלנו בכל מיני מקרי קצה נדירים, או שטרם קרו. קישור ללינקדין של רותם
-
סימולציות היו פעם כלי הניבוי המרכזי, והיום הוחלפו על ידי מודלי למידת מכונה.האם מדובר בכלי מיושן ולא רלוונטי, או באומנות עתיקה שנשכחה.בפרק זה נדבר על המוטיבציות לסימולציות אל מול הרצת ניסויים על דאטא אמיתי, ונדבר על החוזקות והחולשות מול מודלי למידת מכונה. קורס חינמי של אוניברסיטת חיפה על סימולציות
-
מערכות המלצה נתפסות לרוב כבעיית רגרסיה או קלאסיפיקציה, בפרק זה פרופסור עומר בן פורת מהטכניון ואורי ינהלו דיון טכני על האתגרים במידול סטטי כזה.נדבר על יצירת העדפות, ועל האחריות המשפטית של מערכת ההמלצה.מערכת המלצה אמורה למדל אנשים, ואנשים הם לא יצור רציונאלי או עקבי - כיצד מערכת ההמלצה אמורה להתמודד עם זה?ונדבר על החשיבות של סימולציה למדידה ואימון מערכות המלצה, גם כאשר יש הרבה דאטא. קישורים:Duelling banditsRecsimטווח ארוך לעומת טווח קצר במערכות המלצה
-
למודלי שפה (גדולים) יש שלושה תת-מודלים: הטוקנייזר, הטרנספורמר, ואלגוריתם הפענוח.
אלגוריתם הפיענוח בדרך כלל אינו נלמד, אלא הוא איזה שהיא יוריסטיקה סדרתית של חיפוש בעץ על סמך ההסתברויות של הטרנספורמר.
אבל מי מבטיח שהיוריסטיקה הזו היא הדבר האידיאלי לעשות בהנתן הפלט של הטרנספורמר.
Consistency LLMs מנסים לקשור את שתי הקצוות, ולהתאים את ההטרנספורמר לאלגוריתם הפענוח.
מרוויחים מזה מודלים יעילות יותר, ואפשרות למיקבול.
מייק יספר לנו איך הקסם הזה קורה -
ערכים חסרים הם נחלתו של כל מי שעוסק בעיבוד מידע טבלאי, הפעם נתמקד בהשלמת ערכים רציפים עם Predictive mean matching.
אחת השיטות הנפוצות MICE, לא היתה זמינה עד לאחרונה למשתמש פייתון - וכעת נמצאת במודול הexperimental של scikit learn.
נעשה סקירה קצרה על מתי כדאי להשלים ערכים חסרים ומתי לא, ונדבר על השיטות הנפוצות להשלמה. -
הרבה מאיתנו שמעו בכותרות על KAN פה, KAN שם - ולא היה ברור מה המהומה.
Kolmogorov Arnold network
זו ארכיטקטורה שמאיימת לשנות את איך שאנחנו חושבים על רשתות נוירונים, החל במבנה של נוירון ועד יכולת ההסבר.
בנוסף, לרשתות כאן יש פי עשר פחות פרמטרים והן דלילות יותר - נשמע מדהים.
אבל, הפוטנציאל הוא גדול אבל המציאות היא בפרטים הקטנים - אותם נכסה בפרק הזה -
מי לא שמע על RAG, נראה שכולם מדברים, מממשים ומאפטמים ראגים לכל שימוש.
בפרק זה אורי שוטח את משנתו על ראגים, וטוען שהם בשימוש יתר בתעשייה (יש יגידו הייפ), ואלו הן הסיבות
1. אתם אחראיים (משפטית) על הפלט שלהם - אם אין בן אדם בלופ - יש בעיה
2. שאילתות סמנטיות לא מתאימות להמון מקרים, חיפוש וקטורי הוא לא התשובה לretrieval
3. זה נראה כאילו חיפוש וקטורי נועד לחסוך עלויות, אבל האם באמת LLM עדיין כ״כ יקרים שצריך אותו?
4. האם זו בעיית איחזור או בעית שאלה-תשובה? בהרבה מהמקרים פשוט לא צריך LLM בקצה
5. הסיבה ההנדסית - בראג יש שני מודלים שונים, שלא בטוח מדברים זה עם זה, צריך לוודא שיש תרומה הדדית -
מירב גרימברג עוסקת למחייתה בפיתוח מנוע החיפוש הוקטורי של רדיס, הגיעה לספר לנו תובנות מבפנים.
לאחרונה רואים שיותר ויותר דאטאבייסים ״מסורתיים״ מוסיפים פונקציונאליות של חיפוש וקטורי, רדיס הוא אחד מהם.
רדיס, הוא היום שירות ברירת המחדל לחיפוש key-value מהיר בזמן אמת. וגם מנוע חיפוש וקטורי המממש את אלגוריתם הhnsw לחיפוש וקטורי מקורב.
מירב תספר לנו על האילוצים מעולם התוכנה כדי לגרום למנוע חיפוש וקטורי לעבוד ממש מהר, יחד עם יכולות פילטור ועדכון.
על הטריידוף בין זכרון, מחיר ומהירות - וכמובן על שימושים בretrieval augmented generation יחד עם מודלי שפה. -
עכשיו כשהעולם רועש סביב מודלי שפה גדולים וחזקים שאינם טרנספורמרים (מאמבה, rwkv) - הגיע הזמן להיזכר מה הוא הטרנספורמר ומה היו המוטיבציות ליצירתו.
פרק זה הינו שידור חוזר של פרק מ2020, האזנה מרתקת לאזניים של 2024. -
בוריס גורליק, יועץ דאטא מנוסה עם רקע ניכר בדאטא טבלאי, ויזואליזציה וסדרות זמן - ידבר איתנו על דווקא על נושא אחר: Soft skills.מדעני נתונים, הם לא רק אנשים טכניים שיודעים להריץ פייתון ולאפטם מודלים - הכוונה ב״כישורים רכים״ זה לכל יכולת התקשורת בארגון ובצוות, ובעבודה במשותף כחלק מאתגר גדול יותר.נדבר על אתגרים נפוצים בחיי הDS ועל איך נכון לבנות מצגת בצורה לא תשעמם את המאזינים.בוריס הוא גם המנחה של הפודקאסט הפופולארי ״השבוע במזרח התיכון״, שם תוכלו להיווכח איך בוריס מיישם את התאוריה בפועל.קישור לספר שבוריס הזכיר
- Показать больше