یادگیری تقویتی

یادگیری تقویتی


بخشی از مقدمه:
حیوانات، انسان ها، اتومات ها و .. از خود رفتار های مختلفی در محیطی که آن ها را احاطه کرده، در شرایط مختلف، از خود نشان می دهند. آن ها کارهای مختلفی را به عنوان باز خورد در جواب ورودی هایی که از محیط می گیرند انجام می دهند. بعضی از این عامل ها رفتار های خود را در طول زمان عوض می کنند. آن ها ممکن است با دادن ورودی های یکسان، عمل های متفاوتی نسبت به حرکت های قبلی خود انجام دهند. چنین عاملی یاد می گیرد. شاخه یادگیری ماشین به مطالعه الگوریتم های یادگیری که مشخص می کند تغییر در ورودی ها چگونه در رفتار عامل تغییر ایجاد می کند می پردازد. الگوریتم های یادگیری به 3 دسته تقسیم می شوند: ...

فهرست مطالب:
معرفی یادگیری تقویتی
برنامه نویسی پویا
اجزا یک سیستم یادگیری تقویتی
 محیط
 تابع پاداش
 تابع مقدار
 Q-Learning
 معرفی
 الگوریتم یادگیری
 مثالی از یک عامل
 مثالی از برج هانوی
 اثبات همگرایی
 یادگیری Q برای MDP غیرقطعی
 روش های مونت کارلو در یادگیری تقویتی
 ویژگیها
 سیاست first visit MC
 کنترل مونت کارلو
 همگرایی مونت کارلو
on line policy و off linepolicy
منابع

تعداد مشاهده: 2554 مشاهده

فرمت فایل دانلودی:.docx

فرمت فایل اصلی: docx

تعداد صفحات: 25

حجم فایل:718 کیلوبایت

 قیمت: 9,000 تومان
پس از پرداخت، لینک دانلود فایل برای شما نشان داده می شود.   پرداخت و دریافت فایل
  • راهنمای استفاده:
    گزارش کاربردی و تصویری و گام به گام
    مناسب جهت استفاده دانشجویان رشته کامپیوتر و فناوری اطلاعات


  • محتوای فایل دانلودی:
    در قالب فایل word و قابل ویرایش