Tuesday 16 January 2018

التداول استراتيجية تعزيز التعلم


تعلم تعزيز استراتيجية التداول
نوصي بالترقية إلى أحدث إصدارات سفاري أو غوغل كروم أو فيريفوكس.
سحب الطلبات 1.
تاريخ جيثب اليوم.
جيثب هي موطن لأكثر من 20 مليون مطورين يعملون معا لاستضافة ومراجعة التعليمات البرمجية، وإدارة المشاريع، وبناء البرمجيات معا.
استنساخ مع هتبس.
استخدام جيت أو الخروج مع سفن باستخدام ورل على شبكة الإنترنت.
يستخدم هذا المشروع التعزيز التعلم في سوق الأوراق المالية وكيل يحاول تعلم التداول. والهدف من ذلك هو التحقق مما إذا كان وكيل يمكن أن تتعلم قراءة الشريط. ويكرس المشروع للبطل في الحياة عظيم جيسي ليفرمور واحدة من أفضل إنسان أعرف ريان بوث جيثب / ريانابوث.
نقطة واحدة أن نلاحظ، رمز داخل الموتر التعزيز هو أحدث رمز ويجب أن تكون القراءة / تشغيل إذا كنت مهتما في المشروع. ترك أدلة أخرى، وأنا لا أعمل عليها الآن.
إذا كنت تعمل على استخدام مل في الاستثمار / التداول وترغب في التعاون لا تتردد في الكتابة لي deepender281190 @ جوجل. بلدي أحدث مشروع جيثب / ديبندرسينجلا / deep_portfolio، فقط المصدر الأول مفتوح المصدر.
أ) سد الموتر التعزيز.
ب) إنشاء دليل save_networks داخل tensor_reinforcement لانقاذ الشبكات.
c) بيثون dqn_model. py.
أ) سد الموتر التعزيز.
ب) إنشاء دليل save_networks داخل tensor_reinforcement لانقاذ الشبكات.
c) بيثون pg_model. py.
في البداية بدأت باستخدام تشاينر للمشروع لكل من الإشراف والتدعيم التعلم. في منتصف ذلك جاء ألفاغو (research. googleblog2018 / 01 / ألفاغو-اتقان-القديمة لعبة من go. html) بسبب ذلك تحولت إلى قراءة كتاب ساتون على رل (webdocs. cs. ualberta. ca/
سوتون / بوك / ذي-book. html)، ألفاغو والأوراق ذات الصلة، محاضرات ديفيد الفضة (www0.cs. ucl. ac. uk/staff/d. silver/web/Teaching. html، فهي كبيرة).
أنا أعود إلى المشروع بعد بعض الوقت الكثير قد تغير. كل الأطفال بارد حتى ديبميند (الآلهة) بدأت باستخدام تنسورفلو. وبالتالي، أنا خندق شينر وسوف تستخدم تنسورفلو من الآن. أوقات مثيرة في المستقبل.
وسوف أبدأ مع شبكة تغذية إلى الأمام بسيطة. على الرغم من ذلك، أنا أيضا يميل إلى استخدام التلافيفي سبب الشبكة، فإنها تفعل بشكل جيد جدا عندما تغيير طفيفة في المدخلات لا ينبغي تغيير أوبوت. على سبيل المثال: في التعرف على الصور، تغيير قيم بكسل صغيرة لا يتم تغيير الصورة ميم. أرقام الأسهم أنوتيلي تبدو نفس لي، تغيير صغير لا ينبغي أن يؤدي إلى التجارة ولكن مرة أخرى المشكلة هنا يأتي مع التطبيع. مع التطبيع سيتم تغيير التغيير الكبير في عدد إلى صغيرة جدا في المدخلات وبالتالي من الجيد أن تبدأ مع تغذية إلى الأمام.
أريد أن أبدأ مع 2 طبقة أولا، نعم أن الفانيليا فقط ولكن دعونا نرى كيف يعمل من التحول إلى شبكة أكثر عمقا. على الجانب الإخراج وسوف يتم استخدام الدالة غير الخطية السيني للحصول على قيمة من 0 و 1. في طبقة خفية جميع الخلايا العصبية ستكون ريلو. مع 2 طبقات، وأنا أفترض أن الطبقة الأولى W1 يمكن أن تقرر ما إذا كان السوق صعودي، هبوطي ومستقر. ويمكن للطبقة الثانية أن تقرر ما هي الإجراءات التي يجب اتخاذها استنادا إلى الطبقة القائمة.
وسوف تشغيل x حلقة من التدريب، وسوف يكون كل ذ الفاصل الزمني على ذلك. شبكة السياسة يجب أن تجعل x * y مرات قرار ما إذا كان عقد أو شراء أو قصيرة. بعد هذا استنادا إلى مكافأتنا وسوف تسمية كل ديسيسون سواء كان جيدا / سيئة وتحديث الشبكة. وسوف مرة أخرى تشغيل حلقة x على شبكة محسنة وسوف تبقي تفعل ذلك. مثل مكتس حيث الامور في المتوسط ​​إلى المستوى الأمثل سيبدأ سياستنا أيضا اتخاذ قرار أكثر إيجابية والقرار أقل سلبية على الرغم من أن في التدريب سوف نرى السياسة اتخاذ بعض الخيارات الخاطئة ولكن في المتوسط ​​سوف تعمل بها لأننا سوف تفعل الشيء نفسه مليون مرة.
أعتزم البدء بالتدريب العرضي بدلا من التدريب المستمر. والسبب الرئيسي لهذا هو أنني لن يكون لحساب مكافأة بعد كل عمل الذي سيجعل الوكيل الذي هو معقدة للقيام به في التداول، ويمكنني أن أجعل مجرد مكافأة محطة على أساس قيمة محفظة بعد حلقة بأكملها (القيمة النهائية للمحفظة - الصفقة التكلفة تحدث داخل الحلقة - القيمة الأولية للمحفظة). السبب الآخر للقيام بذلك أنني أعتقد أنه سوف تحفز عامل لتعلم التداول على الحلقات، مما يقلل من خطر أي أحداث خارجية أو تغيير المشاعر في السوق.
وهذا يعني أيضا أن علي التحقق من فرضية:
أ) حلقات من طول مختلف.
ب) على مكافأة المكافآت مكافأة محطة مختلفة أو المكافآت بعد كل خطوة داخل حلقة أيضا.
كالمعتاد مثل كل المشاريع منظمة العفو الدولية، سيكون هناك الكثير من ضرب والمحاكمة. يجب أن أكتب أفضل رمز جيد وتخزين جميع النتائج بشكل صحيح بحيث يمكنني مقارنتها لمعرفة ما يعمل وما لا. فكورس الفكرة هي التأكد من أن الوكيل لا يزال مربحا أثناء التداول.
لتشغيل هذا الريبو مباشرة، استخدم مصدر البيانات هذا وكنت كل الإعداد: drive. google/open؟id=0B6ZrYxEMNGR-MEd5Ti0tTEJjMTQ.
&نسخ؛ 2017 جيثب، Inc. شروط الخصوصية تعليمات حالة الأمان.
لا يمكنك تنفيذ هذا الإجراء في الوقت الحالي.
لقد سجلت الدخول باستخدام علامة تبويب أو نافذة أخرى. أعد التحميل لتحديث الجلسة. لقد سجلت الخروج في علامة تبويب أو نافذة أخرى. أعد التحميل لتحديث الجلسة.

أزواج التداول استراتيجية التحسين باستخدام طريقة التعلم التعزيز: نهج التكامل المشترك.
سعيد فلحبور حسن حكيمان مؤلف البريد الإلكتروني خليل طاهري إحسان رمضانيفار.
وتظهر الدراسات الحديثة أن شعبية استراتيجية التداول أزواج قد تزايد ويمكن أن تشكل مشكلة مع فرص التجارة تصبح أصغر بكثير. ولذلك، فإن الاستفادة المثلى من استراتيجية التداول أزواج اكتسبت اهتماما واسع النطاق بين التجار عالية التردد. في هذه الورقة، باستخدام التعلم التعزيز، ونحن ندرس المستوى الأمثل من أزواج مواصفات التداول مع مرور الوقت. وبشكل أكثر تحديدا، وعامل التعلم تعزيز يختار المستوى الأمثل من المعلمات من أزواج التداول لتحقيق أقصى قدر من وظيفة الهدف. يتم الحصول على النتائج من خلال تطبيق مزيج من طريقة التعلم التعزيز ونهج التكامل المشترك. ووجدنا أن تعزيز مواصفات تداول الأزواج باستخدام المنهج المقترح يزيد كثيرا على الأساليب السابقة. النتائج التجريبية على أساس البيانات اللحظية الشاملة التي يتم الحصول عليها من S & أمب؛ P500 الأسهم التأسيسية تؤكد بكفاءة من طريقتنا المقترحة.
نقلها V. لويا.
الامتثال للمعايير الأخلاقية.
تضارب المصالح.
ويعلن أصحاب البلاغ أنه لا يوجد تضارب في المصالح فيما يتعلق بنشر هذه المادة.
المراجع.
معلومات حقوق التأليف والنشر.
المؤلفين والانتماءات.
سعيد فلحبور 1 حسن حكيميان 1 كاتب البريد الإلكتروني خليل طاهري 2 إحسان رامزانيفار 3 1. قسم المالية، كلية الإدارة جامعة طهران طهران إيران 2. مختبر الروبوتات المتقدمة والأنظمة الذكية، كلية الهندسة الكهربائية والحاسوبية، كلية الهندسة جامعة طهران طهران إيران 3. إدارة المالية كلية إدارة الأعمال والاقتصاد ماستريخت هولندا.
حول هذه المقالة.
توصيات شخصية.
اقتباس المقال.
المراجع المرجعية ريس ريفوركس زوتيرو.
.BIB بيبتكس جابريف منديلي.
مشاركة المقال.
الوصول غير المحدود إلى المقال الكامل التحميل الفوري تشمل ضريبة المبيعات المحلية إن وجدت.
اقتباس المقال.
المراجع المرجعية ريس ريفوركس زوتيرو.
.BIB بيبتكس جابريف منديلي.
مشاركة المقال.
أكثر من 10 مليون وثيقة علمية في متناول يدك.
تبديل الطبعة.
&نسخ؛ 2017 سبرينجر الدولية للنشر أغ. جزء من الطبيعة سبرينجر.

الشبكات العصبية للتجارة الخوارزمية. بسيطة سلسلة الوقت التنبؤ.
تحديث هام:
هذا هو الجزء الأول من تجاربي على تطبيق التعلم العميق للتمويل، ولا سيما في التداول الخوارزمي.
أريد أن أطبق نظام التداول من الصفر فقط على نهج التعلم العميق، وذلك لأي مشكلة لدينا هنا (التنبؤ السعر، واستراتيجية التداول، وإدارة المخاطر) ونحن ستعمل استخدام أشكال مختلفة من الشبكات العصبية الاصطناعية (أنس) والتحقق من مدى ما يمكن امسك هذا.
الآن أعتزم العمل على الأقسام التالية:
التنبؤ بالسلاسل الزمنية مع البيانات الأولية التنبؤ بالسلاسل الزمنية مع الميزات المخصصة تحسينات هيبرباراميترز تنفيذ استراتيجية التداول، باكتستينغ وإدارة المخاطر استراتيجيات التداول أكثر تطورا، والتعلم التعزيز العيش، وسطاء أبي، كسب (l̶o̶s̶i̶n̶g̶) المال.
أنا أوصي لك للتحقق من رمز و إبيثون مفكرة في هذا المستودع.
في هذا، الجزء الأول، أريد أن أظهر كيف يمكن أن تستخدم ملبس، كننس و رنس للتنبؤ سلسلة زمنية مالية. في هذا الجزء نحن لن تستخدم أي هندسة الميزة. لننظر فقط في مجموعة البيانات التاريخية لتحركات أسعار مؤشر S & أمب؛ P 500. لدينا معلومات من 1950 إلى 2018 حول مفتوحة، وثيقة، وارتفاع، وانخفاض الأسعار عن كل يوم في السنة وحجم الصفقات. أولا، سنحاول فقط للتنبؤ سعر وثيق في نهاية اليوم التالي، والثانية، وسوف نحاول التنبؤ العودة (سعر الإغلاق - سعر مفتوح). تحميل مجموعة البيانات من ياهو المالية أو من هذا المستودع.
تعريف المشكلة.
وسوف ننظر في مشكلتنا كما 1) مشكلة الانحدار (في محاولة للتنبؤ بالضبط سعر وثيق أو العودة في اليوم التالي) 2) مشكلة التصنيف الثنائي (السعر سيرتفع [1، 0] أو أسفل [0، 1]).
لتدريب ننس نحن ستعمل استخدام إطار كيراس.
أولا دعونا إعداد بياناتنا للتدريب. نريد أن نتوقع t + 1 قيمة استنادا إلى N أيام السابقة المعلومات. على سبيل المثال، وجود أسعار قريبة من 30 يوما الماضية في السوق نريد أن نتوقع، ما هو الثمن سيكون غدا، في اليوم ال 31.
نستخدم أول 90٪ من السلاسل الزمنية كمجموعة تدريب (نعتبرها بيانات تاريخية) و 10٪ الأخيرة كاختبار محدد لتقييم النموذج.
وفيما يلي مثال للتحميل، والانقسام إلى عينات تدريبية، والتجهيز المسبق لبيانات المدخلات الخام:
مشكلة الانحدار. MLP.
وسوف يكون مجرد 2 مخفي طبقة بيرسيبترون. يتم اختيار عدد من الخلايا العصبية المخفية تجريبيا، وسوف نعمل على تحسين هيبيرباراميترز في الأقسام التالية. بين طبقتين مخفي نضيف طبقة التسرب واحدة لمنع الإفراط.
الشيء المهم هو كثيفة (1)، التنشيط ('الخطية') و 'مس' في قسم الترجمة. نريد مخرجا واحدا يمكن أن يكون في أي نطاق (نتوقع القيمة الحقيقية) وتعرف وظيفة الخسارة لدينا على أنها خطأ متوسط ​​التربيع.
دعونا نرى ما يحدث إذا كنا مجرد تمرير قطع من 20 يوما أسعار وثيقة والتنبؤ الأسعار في اليوم ال 21. النهائي مس = 46.3635263557، ولكنها ليست معلومات تمثيلية جدا. وفيما يلي مؤامرة من التوقعات لأول 150 نقطة من مجموعة بيانات الاختبار. الخط الأسود هو البيانات الفعلية، واحد الأزرق - توقع. يمكننا أن نرى بوضوح أن خوارزمية لدينا ليست حتى قريبة من حيث القيمة، ولكن يمكن معرفة هذا الاتجاه.
دعونا مقياس البيانات باستخدام طريقة سكلارن preprocessing. scale () لدينا الوقت سلسلة صفر يعني وحدة التباين وتدريب نفس ملب. الآن لدينا مس = 0.0040424330518 (ولكن على البيانات المقاسة). على مؤامرة أدناه يمكنك ان ترى الفعلية تحجيم سلسلة زمنية (أسود) وتوقعاتنا (الأزرق) لذلك:
لاستخدام هذا النموذج في العالم الحقيقي يجب أن نعود إلى سلسلة زمنية ونزكاليد. يمكننا أن نفعل ذلك، عن طريق ضرب أو التنبؤ بالانحراف المعياري للسلاسل الزمنية التي استخدمناها للتنبؤ (20 خطوة زمنية غير منسقة) وإضافة القيمة المتوسطة:
مس في هذه الحالة يساوي 937.963649937. هنا هو مؤامرة من التنبؤات استعادة (الأحمر) والبيانات الحقيقية (الأخضر):
ليس سيئا، أليس كذلك؟ ولكن دعونا نحاول خوارزميات أكثر تطورا لهذه المشكلة!
مشكلة الانحدار. CNN.
أنا لن أذهب إلى نظرية الشبكات العصبية التلافيفية، يمكنك التحقق من هذه الموارد المدهشة:
دعونا تعريف الشبكة العصبية التلافيفية 2-طبقة (مزيج من الالتفاف وطبقات التجميع القصوى) مع طبقة واحدة متصلة تماما ونفس الانتاج كما سبق:
دعونا تحقق من النتائج. المشاريع الصغيرة ومتناهية الصغر للبيانات المعززة والمستعادة هي: 0.227074542433؛ +935.520550172. المؤامرات أدناه:
حتى لو نظرنا إلى المشاريع الصغيرة ومتناهية الصغر على البيانات المقيسة، فقد تعلمت هذه الشبكة أسوأ بكثير. على الأرجح، تحتاج العمارة العميقة إلى مزيد من البيانات للتدريب، أو أنها تجاوزت فقط بسبب العدد المرتفع جدا من المرشحات أو الطبقات. وسوف ننظر في هذه المسألة في وقت لاحق.
مشكلة الانحدار. RNN.
كما العمارة المتكررة أريد أن استخدام اثنين من طبقات لستم مكدسة (اقرأ المزيد عن لستمس هنا).
وفيما يلي عدد من التنبؤات: مسس = 0.0246238639582؛ +939.948636707.
يبدو التنبؤ رن أشبه نموذج متحرك المتوسط، فإنه لا يمكن معرفة والتنبؤ جميع التقلبات.
لذا، فإنھا نتیجة غیر متوقعة بعض الشيء، ولکننا نلاحظ أن ھذه الشرکات متعددة الأطراف تعمل بشکل أفضل للتنبؤ بسلسلة الوقت ھذه. دعونا تحقق ما سيحدث إذا كنا سويث من الانحدار إلى تصنيف المشكلة. الآن سوف نستخدم ليس إغلاق الأسعار، ولكن العائد اليومي (سعر إغلاق-- سعر مفتوح)، ونحن نريد أن نتوقع إذا كان سعر وثيق أعلى أو أقل من سعر مفتوح على أساس آخر 20 أيام العودة.
مشكلة التصنيف. MLP.
يتم تغيير رمز قليلا - نغير لدينا طبقة كثيفة الماضي أن يكون الناتج [0؛ 1] أو [1؛ 0] وإضافة سوفتماكس الإخراج إلى توقع الناتج الاحتمالي.
لتحميل المخرجات الثنائية، تغيير في التعليمات البرمجية التالية السطر:
كما نقوم بتغيير وظيفة الخسارة إلى ثنائي عبر إنتوبي وإضافة مقاييس الدقة.
أوه، انها ليست أفضل من التخمين العشوائي (50٪ دقة)، دعونا نحاول شيئا أفضل. تحقق من النتائج أدناه.
مشكلة التصنيف. CNN.
مشكلة التصنيف. RNN.
الاستنتاجات.
يمكننا أن نرى، أن معالجة الوقت المالي التنبؤ سلسلة كمشكلة الانحدار هو نهج أفضل، فإنه يمكن معرفة الاتجاه والأسعار على مقربة من الفعلية.
ما يثير الدهشة بالنسبة لي، أن ملبس معالجة بيانات تسلسل أفضل كما كنز أو رنس التي من المفترض أن تعمل بشكل أفضل مع سلسلة زمنية. أشرح ذلك مع مجموعة صغيرة جدا (
16K الطوابع الزمنية) واختيار دمية هيبيرباراميترز.
يمكنك إعادة إنتاج النتائج والحصول على أفضل استخدام التعليمات البرمجية من المستودع.
أعتقد أننا يمكن أن نحصل على نتائج أفضل سواء في الانحدار والتصنيف باستخدام ميزات مختلفة (ليس فقط سلسلة زمنية متقنة) مثل بعض المؤشرات الفنية، وحجم المبيعات. أيضا يمكننا أن نحاول البيانات أكثر تواترا، دعونا نقول القراد دقيقة تلو الأخرى للحصول على مزيد من البيانات التدريب. كل هذه الأشياء سأفعلها لاحقا، حتى لا تنزعج :)
عن طريق التصفيق أكثر أو أقل، يمكنك أن تشير لنا القصص التي تبرز حقا.
أليكس هونشار.
وآلات التدريس و الراب.
آلة التعلم العالم.
أفضل حول التعلم الآلي، رؤية الكمبيوتر، التعلم العميق، معالجة اللغة الطبيعية وغيرها.

قوة الدفع.
ويستند هذا المنصب على مقالتي السابقة المكتوبة باللغة اليابانية. (nekopuni. holy. jp/؟p=1231)
& # 8211؛ تطبيق التعزيز التعلم لاستراتيجية التداول في سوق الفوركس.
& # 8211؛ تقدير قيمة Q بواسطة محاكاة مونت كارلو (ماك).
& # 8211؛ توظيف أول زيارة ماك للبساطة.
& # 8211؛ باستخدام نسبة شارب قصيرة الأجل وطويلة الأجل للاستراتيجية نفسها كمتغير للدولة، لاختبار استراتيجية الزخم.
& # 8211؛ باستخدام طريقة إبسيلون الجشع لاتخاذ قرار العمل.
أول زيارة ماك.
1. حساب الدولة في اليوم تي (الدولة = نسبة شارب يوم واحد قبل يوم تي)
2. تقرر الإجراء وفقا للدولة (موقف طويل، لا موقف أو موقف قصير)
3. تحديث مصفوفة المكافآت على أساس المكافأة التي تم الحصول عليها في الخطوة القادمة t + 1.
4. تحديث مصفوفة Q مرة واحدة ر يساوي آخر خطوة زمنية T.
حلقة فوق الإجراء حتى تشعر بالسعادة.
رمز بيثون.
هذه المرة أوسجبي يوميا من فريد يستخدم للمحاكاة.
لا يتم تضمين ما يسمى نقطة المبادلة وأي تكاليف المعاملات في هذا الرمز حتى الآن.
لا يزال هذا الرمز يأخذ وقتا حسابا كبيرا بالنسبة لي لذلك يتم إجراء النتائج (Q مصفوفة) أدناه من قبل 1000 فقط التكرارات.
لموقف طويل (العمل = 0)
لموقف شقة (العمل = 1)
لموقف قصير (عمل = 2)
كما رأينا في الأرقام أعلاه، فإن قيمة Q أقل إذا كان لدينا نسبة شارب متوسطة الأجل المتطرفة نسبيا (أقل من -1 وأعلى من 1)
أما بالنسبة للموقف الطويل فإن قيمة Q تكون أعلى إذا كان المدى القصير شارب بين 0.5 و 1.0 بينما بين -0.5 و -1.0 هو أعلى مساحة للمركز القصير.
ويفترض أن هذا الرمز يمكن أن ينظر إليه على أنه استراتيجية زخم متواضعة على الرغم من أنني أعتقد أن هذا يعتمد على فترة العينة.
الشكل أعلاه هو متوسط ​​العائد التراكمي لكل حلقة مع نافذة توسيع.
ويبدو أن هذا يتلاقى مستوى level. idk ..
مهمة أخرى.
معرفة ما إذا كان هذا يعزز التعلم لديه قوة تفسيرية.
& # 8211؛ بيانات السوق الأخرى مثل أزواج العملات الأخرى.

تعلم تعزيز استراتيجية التداول
الحصول على فيا أب ستور قراءة هذه المشاركة في التطبيق لدينا!
التنفيذ الأمثل والتعلم التعزيز.
لنفرض مشكلة بسيطة إلى حد ما: عليك أن تشتري (بيع بيع) عدد معين من الأسهم V في أفق زمني ثابت H بهدف تقليل رأس المال الذي تنفقه (تعظيم تعظيم العائد الخاص بك).
هناك بعض الأبحاث على شبكة الإنترنت التي تدعي أن استخدام خوارزميات التعلم ريفورسيمنت يمكن أن تساعد في اتخاذ القرار. انظر على سبيل المثال:
وتستخدم هذه الأوراق استراتيجيات تخصيص ديناميكية تستند إما على حد الطلب كتاب أو محاولة طرح ينتشر للقيام بذلك. خلافا للورق الكلاسيكي.
فإنها لا تتحمل ديناميكية الأسعار الأمنية التي تستمد منها استراتيجيتها. بدلا من ذلك تستخدم نتائج باكتست على مجموعة اختبار لقياس أداء برنامجهم. وبطبيعة الحال هذا يفترض أيضا تقييد فرضية على ديناميات كتاب ترتيب الحد التي يصعب اختبارها.
سؤالي ذو شقين: هل تعلمون أوراق بحثية جيدة باستخدام التعلم التعزيزي (أو طريقة التعلم الآلي الأخرى) لهذه المشكلة؟ وبحلول الخير أعني أن مجموعة الاختبار كبيرة (وليس فقط بضعة أيام من الاختبار الخلفي) وهناك جهد حقيقي ليكون واضحا حول الفرضية ويكون أقل قدر ممكن.
هل قام أي منك بتطبيقه في بيئة تداول حية أو تعرف شخصا فعل؟
أولا، نحن عدد قليل من كوانتس والأكاديميين لاستخدام مجموعة كاملة من التعلم الآلي: خوارزميات عشوائية، إلى التداول الأمثل. في ما يلي ورقتان على الأقل:
كما يقدم كيرنس ومؤلفوه المؤلفون الكثير من البحوث المفيدة.
نهجنا ليس فقط لمحاولة بعض تقنيات التعلم الآلي، ولكن أيضا لاستخدام الأدوات الرياضية القوية التي سمحت لإظهار كفاءتها لإثبات أن بعض الخوارزميات تتلاقى إلى الحلول المثلى.
أكثر من الناحية الكمية، فإن معظم التعلم الآلي يأتي من أصل الانحدار على الخط على معايير معينة، تلد انحدار التدرج العشوائي. يأتي مؤشر العشوائية من هذا:
تريد تصغير \ $ ماثب | | y-f_ (x) || ^ 2 $ ويث ريسبكت تو $ \ ثيتا $ إف يو بيلدينغ: $$ \ ثيتا (n + 1) = \ ثيتا (n) - \ غاما ( n = \ تيمس \ فراك || y-f_ (x) || ^ 2> $$ ثم إذا كان موجودا، $ \ ثيتا (\ إنفتي) $ هو الحد الأدنى المحتمل للمعايير المحددة في الخطوة 1 الآن فقط بناء $ \ ثيتا (n) $ في وقت واحد مع ملاحظة أزواج $ (x_n، y_n) $: $$ \ ثيتا (n + 1) = \ ثيتا (n) - \ غاما (n) \ تيمس \ فراك (x_n) || ^ 2> $$ في ظل بعض شروط إرغوديسيتي، فإن الحد من هذا $ $ ثيتا $ تكون هي نفسها من السابق (دفعة) واحد (تحتاج أيضا أن $ \ sum_n \ غاما (n) & غ؛ \ إنفتي $ و $ \ sum_n \ غاما (n) ^ 2 & لوت؛ \ إنفتي $؛ إنها نظرية روبنز-مونرو الشهيرة).
انها حقا مناسبة للتداول ألغو، ولكن تحتاج إلى تطبيق هذا النهج لا عمياء إلى أي عملية عشوائية $ (x_n، y_n) $، ولكن إلى إرغوديك منها.
تدفق النظام نسبيا إلى نقطة منتصف يبدو أن أكثر إرغوديك السعر نفسه، وبالتالي ينبغي أن يكون أكثر كفاءة لاستخدام آلة التعلم على البيانات اللحظية بدلا من تلك اليومية.

No comments:

Post a Comment