پایان نامه : استفاده از داده­ کاوی برای ارائه چارچوبی جهت کشف الگوهای پزشکی

در این تحقیق، داده­های مربوط به بیماری­های تنفسی با استفاده از روش­های داده­کاوی مورد بررسی قرار گرفته­اند. به همین جهت در این بخش پس از مرور مختصری بر روش­ها و مراحل داده­کاوی، به معرفی بیماری تنفسی و انواع آن و سرانجام الگوریتم­های داده­کاوی مورد استفاده در این تحقیق و همچنین پیشینه­ی تحقیقات انجام شده در بیماری­های تنفسی پرداخته­ایم.

 

2-2. داده­کاوی

تکنولوژی مدیریت پایگاه ­داده­های پیشرفته انواع مختلفی از داده­ها را می­تواند در خود جای دهد، در نتیجه تکنیک­های آماری و ابزار مدیریت سنتی برای آنالیز این داده­ها کافی نیست و استخراج دانش[1] از این مقدار حجیم یک چالش بزرگ تلقی می­شود. داده­کاوی کوششی برای به­دست آوردن اطلاعات مفید از میان این داده­هاست و رشد بی­رویه­ی داده­ها در سطح جهان اهمیت داده­کاوی را دو­ چندان کرده است.

پایگاه ­داده­های پزشکی، شامل انبوهی از اطلاعات بیماران و وضعیت پزشکی آنهاست. ارتباطات و الگوهای نهفته در این داده­ها می­تواند دانش جدیدی در حوزه علوم پزشکی تولید کند. به­طوری­که امروزه استخراج دانش مفید و فراهم کردن ابزارهای تصمیم­گیری برای تشخیص و معالجه­ی بیماری­ها، به یک موضوع ضروری تبدیل شده است.

 

2-2-1. مفهوم داده­کاوی

در یک تعریف غیر رسمی داده­کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می­کنند، که این دانش به صورت ضمنی در پایگاه داده­های عظیم، انباردادهو دیگر مخازن بزرگ اطلاعات، ذخیره شده است. داده­کاوی به­طور همزمان از چندین رشته علمی بهره می­برد نظیر: تکنولوژی پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکه­های عصبی، آمار، شناسایی الگو، سیستم­های مبتنی بردانش، حصول دانش، بازیابی اطلاعات، محاسبات سرعت بالا و بازنمایی بصری داده .

 

 

پایان نامه و مقاله

 

2-2-2. مراحل داده­کاوی

داده­کاوی اغلب به­عنوان بخشی از فرآیند «کشف دانش از پایگاه­داده»، تلقی می­شود. کشف دانش از پایگاه داده، فرآیندی است که داده­های خام را به دانش مفید تبدیل می­کند که علاوه بر داده­کاوی، شامل دو مرحله­ی پیش­پردازش و پس­پردازش نیز می­باشد.

 

2-2-3. پیش­پردازش

هدف پیش­پردازش، تبدیل داده­های خام به قالبی است که برای تحلیل­های بعدی مناسب باشد. همچنین این مرحله به شناسایی ویژگی­ها و قطعات مختلف داده، کمک می­کند. از آنجائی­که داده­ها ممکن است با قالب­های مختلف و در پایگاه داده­های متفاوتی ذخیره شده باشند، اغلب زمان زیادی برای پیش­پردازش داده لازم است[5].

پیش­پردازش داده، یک محدوده­ی وسیع شامل استراتژی­ها و تکنیک­های مختلفی است که به­صورت بسیار پیچیده­ای با یک­دیگر در رابطه­اند و این ارتباطات پیچیده، معرفی رهیافت­ها و ایده­های اصلی پیش­پردازش را به­صورت منظم و ساخت­یافته بسیار مشکل می­کند.

وظایف پیش­پردازش عبارتند از: پاک­سازی داده­ها[8]، یکپارچه­سازی داده­ها[9]، تبدیل داده[10]، کاهش داده[11]، تصویر کردن و کاهش بعد[2].

 

 

2-2-3-1. پاک­سازی داده

خطاهای عملیاتی اغلب باعث می­شوند که داده­های به­دست آمده از منابع دنیای واقعی، پرغلط، ناقص و ناسازگار باشند. ابتدا لازم است، چنین داده­های بی­کیفیتی، تمیز شوند. وظایف اصلی پاک­سازی داده­ها عبارتند از:

  • پرکردن ویژگی­هایی با مقدار گمشده[12] : رویکردهای مختلفی در برخورد با مقادیر گمشده وجود دارد که عبارتند از: حذف رکورد، پرکردن به­صورت دستی، جایگزینی با یک مقدار ثابت سراسری، جایگزینی با مقدار میانگین، جایگزینی با مقادیری با احتمال بالاتر (با استفاده از رابطه­های بیزی، درخت تصمیم­گیری یا پسانمایی[13] ).
  • شناخت داده­های پرت[14] و هموار کردن داده­های نویزدار[15].
  • اصلاح داده­های ناسازگار.
  • رفع مشکل افزونگی که بر اثر یکپارچه­سازی داده­ها ایجاد شده است.

 

2-2-3-2. یکپارچه­سازی داده

داده­کاوی اغلب به یکپارچه­سازی داده (ادغام داده­ها از چندین منبع داده) نیاز دارد. همچنین ممکن است لازم باشد که داده­ها به شکل مناسب داده­کاوی تبدیل شوند. در این مرحله، داده­های چندین منبع را در یک  مخزن منسجم ترکیب می­کنیم.

 

2-2-3-3. تبدیل داده

در این مرحله، داده­ها به شکل مناسب برای داده­کاوی تبدیل می­شوند. این مرحله، شامل بخش­های زیر می­باشد:

  • هموارسازی: این بخش از تبدیل داده، با حذف نویز سروکار دارد.
  • تجمیع: شامل عملیات تلخیص و تجمیع روی داده­هاست. مثل تبدیل فروش روزانه به فروش هفتگی یا ماهانه.
  • تعمیم: جایگزینی داده­ی سطح پائین با مفاهیم سطح بالاتر. مثل تبدیل متغیر پیوسته­ی سن به یک مفهوم سطح بالاتر مثل جوان، میانسال یا مسن.
  • ایجاد ویژگی[16] : گاهی برای کمک به فرآیند داده­کاوی لازم است که ویژگی جدیدی از روی ویژگی­های موجود ساخته شود.
  • نرمال­سازی: نرمال­سازی شامل تغییر مقیاس داده­ها به گونه­ایست که آن­ها را به یک دامنه­ی کوچک و معین مثل ] 1،1-[ نگاشت کند. مهمترین روش­های نرمال­سازی عبارتند از: Min-Max،  Z-Score و نرمال­سازی با استفاده از مقیاس­بندی اعشاری[17].

 

2-2-3-4. کاهش داده

روش­های کاهش داده، می­تواند برای به­دست آوردن یک بازنمایی کوچک­تر و کاهش­یافته از داده، که بسیار کم­حجم­تر از داده­های اصلی بوده و البته یکپارچگی داده­های اصلی را حفظ می­کند، به­کار می­رود. استراتژی­های کاهش داده، عبارتند از: تجمیع مکعبی داده[18]، انتخاب زیرمجموعه­ای از ویژگی­ها[19]، کاهش تعداد نقاط، گسسته­سازی و تولید سلسله مراتب مفهومی.

1 Knowledge Discovery

[2] Data Warehouse

[3] Knowledge-based System

[4] Knowledge-acquisition

[5] Information  Retrieval

[6] High-performance Computing

[7] Data Visualization

6 Data Cleaning

7 Data Integration

8 Data Transformation

9 Data Reduction

1 Missing Value

2 Regression

3 Outlier

4 Noise

1 Feature Creation

2 Normalization by decimal  scaling

3 Data cube aggregation

4 Attribute subset selection

***ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل و با فرمت ورد موجود است***

متن کامل را می توانید دانلود نمائید

 

چون فقط تکه هایی از متن پایان نامه در این صفحه درج شده (به طور نمونه)

 

ولی در فایل دانلودی متن کامل پایان نامه

 

 با فرمت ورد word که قابل ویرایش و کپی کردن می باشند

 

موجود است

هیچ نظری هنوز ثبت نشده است
نظر دهید

آدرس پست الکترونیک شما در این سایت آشکار نخواهد شد.

URL شما نمایش داده خواهد شد.
بدعالی
This is a captcha-picture. It is used to prevent mass-access by robots.