خانه آمار اصفهان، پایگاه ارتقا سواد و فرهنگ آماری
سخنرانی آقای دکترامید غیاثوند (جدید)

سخنرانی آقای دکتر امید غیاثوند (جدید)

سخنرانی آقای دکتر امید غیاثوند

با عنوان: Data/Text Mining

دوشنبه27 آذرماه 1396ساعت 18 

 
 
گزارش برگزاری:
 
به مناسبت هفته پژوهش سخنرانی داده‌کاوی و متن‌کاوی توسط آقای دکتر امید غیاثوند در روز دوشنبه 27 آذر‌ماه 1396 ساعت 18 در کلاس 103در خانه آمار اصفهان (شهر علم) ارائه گردید.
در سال 2000 کشف کد ژنتیک و ژنوم‌ها باعث تولید حجم انبوهی از اطلاعات و داده‌ها شد. از آنجایی که حجم اطلاعات الکترونیکی و آنلاین روز به روز بیشتر می‌شود  دسترسی سریع و صحیح به منابع مهم و مورد علاقه، یكی از دغدغه‌های استفاده از این منبع اطلاعاتی بسیار بزرگ است. ارائه ابزارهایی كه با بررسی متون و داده‌ها بتواند تحلیلی روی آنها انجام دهند منجر به شكل‌گیری این زمینه‌ در هوش مصنوعی شده كه به متن‌کاوی و داده‌کاوی معروف است. 
Mining در لغت به معنای استخراج است، هدف از داده‌کاوی کشف الگوهای جالب در داده‌ها و در متن‌کاوی کشف اطلاعات سودمند در حجم انبوهی از منابع است.
آقای دکتر غیاثوند در دو مثال کاربردی نحوه اجرای داده‌کاوی و متن‌کاوی را در داده‌های پزشکی توضیح دادند.
 
داده‌کاوی
شبکه بیزی Bayesian Network انتخاب بسیاری از دانشمندان در مجموعه داده‌های بزرگ برای
1) پیش‌بینی مدل
2) داده‌های مطالعات قبلی 
3) شبیه‌سازی Clinical Trails 
است.
 
برای طراحی یک شبکه بیزی ابتدا داده‌های گمشده جانهی شد در ادامه فرایند آموزش شبکه بیزی با استفاده از دانش قبلی، یک الگوریتم برای تحقیق طراحی گردید و با استفاده از ماتریس اطلاع مدل توسعه و بهبود یافت تا بهترین شبکه بیزی بدست آمد و برای اعتبار شبکه بیزی از ماتریس عملکرد استفاده شد.
در مطالعه اول اطلاعات حدود 1000 بیمار موجود بود که با استفاده از روش‌های داده‌کاوی و شبکه بیزی بر روی آنها شبیه‌سازی انجام شد و تعداد 100000 بیمار فرضی (Clinical Avatar) تولید شد. در نهایت رابطه بین متغیرهای بیماران فرضی تولید شده توسط شبکه بیزی به صورت زیر حاصل شد.
 
 
متن کاوی
هدف از متن‌کاوی 
1) بازیابی اطلاعات (استخراج یک سری متن از میلیاردها میلیارد متن موجود که مرتبط با سوال مورد جستجو است)
2) استخراج اطلاعات 
تشخیص اسامی 
استخراج رابطه بین اطلاعات
است.
انواع سیستم‌های تشخیص نام (Named entity recognition (NER))
بر اساس دیکشنری (Dictionary based)
بر اساس قانون (Rule based)
تقویت شده (Supervised)
یادگیری ماشین بر اساس مدل‌های خوشه‌ای
یادگیری ماشین بر اساس مدل‌های سری
تقویت نشده (Unsupervised)
تفاوت بین سیستم‌های تقویت شده و تقویت نشده این است که سیستم‌های تقویت شده نیاز به داده‌های آموزشی دارند و قابل تعمیم نیستند. مثلا برای تشخیص نام بیماری‌ها برای داده‌های آموزشی نیازبه خواندن متون توسط پزشک حاذق و خبره و به لغات برچسب (نقش در جمله، نام بیماری بودن یا نبودن) بزند.
در این مثال برای طراحی سیستم تقویت نشده با استفاده از دیکشنری UMLS متن‌هایی که کاملا مطابقت داشت انتخاب و داده‌های برچسب زده ضعیف تولید شد سپس یک فرد خبره متون را خواند و سپس برچسب زد تا داده آموزشی تولید شود. در این جا چون داده ابتدایی تقویت نشده است کل سیستم تقویت نشده نامیده می‌شود. در ادامه سیستم تولید شده تست می‌شود برای اعتبار مدل هم از F-score استفاده می‌شود.