پاورپوینت داده کاوی جريان داده ها با درختهای تصميمگيری (pptx) 18 اسلاید
                                    
                                    دسته بندی : پاورپوینت
                                    نوع فایل :  PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )
                                    تعداد اسلاید: 18 اسلاید
 
                                    قسمتی از متن PowerPoint (.pptx) :
                                    1
دادهکاوي جرياندادهها با درختهاي تصميمگيري 
استاد : جناب آقاي دکتر رهگذر 
                                                                                                 تهيه کننده : يوحنا قديمي - علی عباسی - کاوه پاشايي
2
کلاسه بندی
 فرايندی دو مرحله ای است :
ساخت مدل : 
تحليل يک مجموعه آموزشی که مجموعهای از تاپلهای پايگاه است و مشخص کردن برچسب کلاسهای مربوط به اين تاپلها .
 يک تاپل X با يک بردار صفت X=(x1,x2,…,xn) نمايش داده میشود . فرض می شود که هر تاپل به يک کلاس از پيش تعريف شده متعلق است .
هرکلاس با يک صفت که به آن صفت برچسب کلاس میگوييم مشخص میشود .
 مجموعه آموزشی به صورت تصادفی از پايگاه انتخاب می شود . 
به اين مرحله ، مرحله يادگيری نيز می گويند .
استفاده از مدل :
از طريق يک تابع y=f(X) برچسب  کلاس هر تاپل X از پايگاه را پيش بينی می شود . 
اين تابع به صورت قواعد کلاسهبندی ، درختهای تصميم گيری يا فرمولهای رياضی است . 
3
درخت های تصميم گيری
يکی از روش های کارآمد و با کاربرد گسترده کلاسه بندی است .
مدل حاصل از اين روش به صورت درختهای تصميم گيری است :
هر گره در اين درخت نشان دهنده يک آزمون بر روی يک صفت است .
هر شاخه خارج شونده از يک گره نشان دهنده خروجی های ممکن آزمون است .
هر برگ نشان دهنده يک برچسب کلاس است .
نحوه استفاده از درخت تصميم گيری :
اگر تاپلی چون X که برچسب کلاس آن نامشخص است داشته باشيم صفات اين تاپل در درخت مورد آزمون قرار می گيرند و يک مسير از ريشه به سمت يک برگ که برچسب يک کلاس را دارد ايجاد می شود .
4
مجموعه داده های آموزشی 
5
درخت تصميم گيری برای buys_computer
age?
overcast
student?
credit rating?
no
yes
fair
excellent
<=30
>40
no
no
yes
yes
yes
30..40
6
الگوريتم برای درخت های تصميم گيری
الگوريتم پايه 
درخت به صورت بالا-پايين بازگشتی ساخته می شود .
در آغاز تمام مجموعه آموزشی در ريشه قرار دارند .
فرض می کنيم صفات مقادير گسسته دارند .
صفات به صورت بازگشتی بر حسب صفات انتخاب شده بخش بندی می شوند .
صفات آزمون بر اساس يک روال هيوريستيک مانند بهره اطلاعاتی ، شاخص جينی يا نسبت بهره انتخاب می شوند .
شرايط توقف الگوريتم 
تمام نمونه های مربوط به يک نود متعلق به يک کلاس باشند .
صفتی برای بخش بندی بيشتر باقی نمانده باشد .
نمونه ای باقی نمانده باشد .
7
چالش ها
روش های ساختن درختان تصميم گيری فرض می کنند که تمام مجموعه آموزشی به طور همزمان می تواند در ديسک ذخيره شود .
روش های مذکور بصورت پياپی مجموعه آموزشی را از ديسک می خوانند .
هدف : طراحی درخت های تصميم گيری که هر نمونه آموزشی را فقط يکبار بخواند زمان کوتاه ثابتی را برای پردازش آن صرف کند .
8
نکات کليدی
برای يافتن بهترين صفت در هر گره ، در نظر گرفتن يک زيرمجموعه کوچک از نمونه های آموزشی که از آن گره عبور می کنند کافی است .
با در دست داشتن جريانی از نمونه ها ، اولين نمونه ها برای انتخاب صفت ريشه استفاده می شوند . 
با تعيين شدن صفت ريشه ، نمونه های بعدی به سمت پايين و برگهای مربوطه عبور داده می شوند تا برای انتخاب صفت در آنجا استفاده شوند .
اين عمل به صورت بازگشتی تکرار می شود . 
چه تعداد نمونه در هر گره لازم است ؟ 
از يک نتيجه آماری به نام Hoeffding bound  استفاده می کنيم .
9
Hoeffding Bound
يک متغيير تصادفی با نام r که دارای مقادير حقيقی و برد R است را در نظر بگيريد . 
فرض کنيد که n مشاهده مستقل از اين متغير انجام میدهيم .
ميانگين اين مشاهدات : 
Hoeffding Bound نشان میدهد که ميانگين واقعی متغير r  بعد از اين n مشاهده با احتمال 1-δ حداقل برابر –ε       است که در آن :