⬅ חזרה לאינדקס

שימוש בRL על השוק

🕒 פורסם בתאריך: 25/11/2019 17:30
מתכנתים, מתמטיקאים ושאר מעניינים,



אני רוצה לפתוח קבוצה פנימית שתעשה ניסויים באלגוריתמים שונים של RL על השוק



המטרות:



לכיף, בשביל הספורט ולכו תדעו... אולי גם ייצא מזה משהו.



מה צריך לעשות:



+ לבנות פלטפורמה שתאפשרהרצה בקלות של RL על מידע מהשוק



+ להוסיף אלגוריתמים מובנים שניתן לשנות את האינפוט שלהם בקלות גם לחסרי ידע בתכנות



יש עוד שותפים שמתעניינים ורוצים להרים את הכפפה יחד?



* לאלו שתוהים אם אני מחפש מישהו שיבנה הכל בשבילי, לא ,אני מתכנת מקצועי ומתמטיקאי חובב והמטרות הם באמת בעיקר לכיף, למזלי אין לי המון זמן פנוי ואני מניח שרובכם גם אנשים עסוקים ולכן צריך קבוצה בה מעט הזמן של כל אחד יוכל להצטרף למספיק לפרוייקט
🕒 פורסם בתאריך: 25/11/2019 17:42
RL?
🕒 פורסם בתאריך: 25/11/2019 19:09
אני חושב שהוא מתכוון ל-reinforcement learning
🕒 פורסם בתאריך: 25/11/2019 21:29
יש פלטפורמות ל RL. יש לאמזון, לאינטל, ועוד. גם לקחת את שוק ההון כדטה למשחקים\מאמרים לא בדיוק נדיר.
🕒 פורסם בתאריך: 26/11/2019 00:10
בשביל RL אתה צריך לבנות סימולציה מהימנה של השוק. עד כמה שאני יודע - אין כזו.
🕒 פורסם בתאריך: 26/11/2019 07:03
נניח שניקח מניה אחת ויש לך הרבה שחקנים ששמים פקודות, קניה מכירה. אנו יודעים מתי עיסקה מתבצעת בין 2 שחקנים ואנו יודעים מה המחיר החדש שיהיה.



אז נראה שכן יש פה סימולציה מהימנה. מה שכן תצטרך לאמן במקביל הרבה רשתות שיתחרו בינהן כדי לייצג מספר רב משתתפים (שבעולם האמיתי הוא מיליונים, אבל פה נצטרך להסתפק בפחות). זה יכול לגזול המון משאבים...
🕒 פורסם בתאריך: 26/11/2019 08:10
אכן RL =reinforcement learning



חשבתי האמת להשתמש בדאטה אמיתי (פיד של שוק ההון היסטורי ועכשווי) ואז אין לנו בעיה של יצירת שחקנים או יצירת סימולציה, יש נתונים ישנים שלא מתשנים וחדשים שזורמים כל הזמן וממשיכים להיערם.



המשאבים בסופו של תהליך אכן רבים אבל כצעד ראשון,לייצר מודול לא אמור לקחת המון משאבי מחשוב, האימון שלו לא חייב להיות ביליונים, בואו נתחיל עם משהו שבנוי נכון ועובד ואחר כך נתפנה לפתור את הבעיה של משאבי האימון.
🕒 פורסם בתאריך: 26/11/2019 08:52
המטרה היא ללמד סוכן כיצד להתנהג בעולם האמיתי.

כנראה שאתה מפספס נקודה מהותית ב-RL. אם תייצר סימולציה לא מהימנה הסוכן שלך ילמד לסחור במערכת לא רלוונטית לעולם האמיתי. תנסה גישות סטנדרטיות (RNN) קודם לכן.
🕒 פורסם בתאריך: 26/11/2019 16:16
למה חייבים סימולציה?



למה מידע אמיתי לא מספיק טוב? איך מידע אמיתי הופך להיות לא אמין?
🕒 פורסם בתאריך: 26/11/2019 18:47
יש לך גישה ל"נקודות" שהובילו להחלטה של משקיע זה או אחר?
🕒 פורסם בתאריך: 27/11/2019 08:15
לא, אבל זה לא אמור להיות משנה.



יש אינסוף נקודות והחלטות שונות של שחקנים, כולם מגיעים בדיליי, אחרי מספיק אירועי ק/מ האג'נט אמור ללמוד את הדיליי עצמו.
🕒 פורסם בתאריך: 27/11/2019 09:54
אם יש לך מספיק מידע היסטורי, תשתמש ב-RNN.
🕒 פורסם בתאריך: 27/11/2019 14:32
האם אתה יודע איזה משקיע נחשף לאיזה מידע ?



האם אתה יודע איזה משקיע לא נחשף למידע בכלל?



אני מנסה להבין, מה נותן לך שמישהו לחץ "מכירה" ומישהו לחץ "קנייה" כשאתה לא יודע עם איזה מידע הם ניגשו להחלטה
🕒 פורסם בתאריך: 27/11/2019 15:07
בכל נקודת זמן הסוכן רואה את מצב השוק בתקופה שלפני נקודת הזמן (מחירים של מניות, טרנדים של מניות וסטטיסטיקות אחרות). לאחר מכן הוא נוקט פעולה לפי המדיניות הנוכחית שלו כמו קניה או מכירה של מניה או לא לעשות כלום (מניחים שלפעולה זו אין השפעה על השוק). אחרי הפעולה ניתן לכמת עד כמה היא הייתה טובה או רעה ולשפר את המדיניות.
🕒 פורסם בתאריך: 27/11/2019 15:50
אבל שיפור המדיניות לא משפיעה על ההווה ולא על העתיד



מה תפקידה?



ומה קורה עם מדיניות שנמדדת בטווח השקעה ארוך שבה למרות שיש צורך בשיפור (לפי נתוני העבר) אבל יש יותר צורך במיצוי הליך הזמן



לכן, לכל משתתף יש גם את המידע שהוא חשוף אליו וגם את המידע האישי שלו שהוא לא חושף עם אף אחד



אפשר יהיה לשתול משקיעים עם "סט רצונות" בהשקעה שלהם, ואז להריץ אותם בהתאם לזה



אני מתקשה להתמודד עם העובדה לנתוני העבר יש משמעות כלשהי להחלטות מסוימות



אני חושב שצריך להתמקד דווקא במה שהוביל להחלטה שלהם ואז להעריך כמה מקבלי החלטות יש (ועל סמך מה הם מתבצעות) ולנסות להסיק סבירות גבוהה מספיק שידעו לתפקד ולבצע פעולות "צפויות" שאפשר להתממשק אליהם וליצור "מודל" של מתי הסבירות הכי גבוהה להיות אחד מהשחקנים הללו ובאיזו נקודת זמן הכניסה (והיציאה) האופטימלית עבורם
🕒 פורסם בתאריך: 27/11/2019 16:07
מה שאתה מציע זה כיוון מעניין אבל אין לנו דרךלמדל דבר כזה (זה הופך למורכב מידי ודורש משאבים גדולים מידי).



אני חושב שמעניין לתת לסוכן דווקא לבצע מהלכים קצרי טווח ולא ארוכי טווח ואז ניתן ללמוד מהעבר רבות, נניח הסוכן אולי ילמד לזהות טרנדים, או סייקלים מורכבים בין חברות שונות ועוד דברים בסגנון, האתגר מונח בללמד את הסוכן חישוב של רווח טווח ארוך מול קצר, פרופיל סיכון, והכנסת עלויות כחלק מחישוב התועלת.



בעיקר מעניין להתחיל לגלגל את זה ולראות לאן זה לוקח אותנו...
🕒 פורסם בתאריך: 27/11/2019 16:59
בהנתן מדיניות ניתן לתת לסוכן לפעול על פיה בזמן אמת. אם המדיניות ״טובה״ הסוכן ירוויח כסף. ההנחה המובלעת היא שמדיניות שנלמדה על מידע מהעבר טובה גם עבור מידע מהעתיד. אם העבר לא היה מספיק רחוק זה אולי נכון, לדוגמא ללמוד על השעה האחרונה ולפעול בשעה הנוכחית. כל זה כמובן לא אומר שזאת שיטה טובה אלא שזאת פשוט השיטה.



שיטות RL וDL לא נפוצות באלגוטריידינג מהסיבה שניצול המידע הנלמד צריך ליהות מהיר ואחרי זמן קצר המדיניות הופכת ליהות לא רלוונטית כיוון שהמידע זמין לכולם ואימון סוכנים ורשתות לוקח זמן.
🕒 פורסם בתאריך: 29/11/2019 08:13
מה כן נפוץ?



ועל כמה מהיר אנחנו מדברים?