پرداخت امن
بازگشت وجه
تضمین کیفیت
پشتیبانی

ارائه الگوریتم خوشه¬بندي مبتني بر چگالي افزایشي براي داده¬هاي انبوه در انباره¬ داده ابري با رویکرد نگاشت-كاهش

نوع فایل
word و قابل ویرایش
حجم فایل
170 صفحه
تاریخ انتشار
25 فروردین 1400
دسته بندی
تعداد بازدید
18 بازدید
تومان۲۲.۰۰۰
  خرید این محصول

چکیده

با توسعه سریع عصر اطلاعاتی و محیط­های اطلاعاتی پویا و در حال تغییر از قبیل اینترنت، هر روز داده­های بیشماری بدست می­آید و کشف و استخراج اطلاعات و دانش مفید از این حجم انبوه داده­ها مشکل است چراکه دیگر انباره­داده­های سنتی پاسخگوی این حجم انبوه از داده­ها نیستند و برای حل این چالش انباره­داده­های ابری مطرح می­شود.از سوی دیگر با رشد فزاینده اطلاعات، نیاز برای سازماندهی این اطلاعات به  یک روش موثر نسبت به قبل اهمیت شایانی پیدا کرده است.یکی از منابع مهم کسب دانش در همه فعالیتهای بشری، انبوه داده­هایی است که به تدریج در بخش­های مختلف جمع­آوری می­شود و در هر زمانی بروزرسانی می­شوند. داده­کاوی در اصل حلقه واسط بین مسائل و مشکلات از سوئئ و روش­های تصمیم­گیری از سوی دیگر است، یعنی داده­کاوی دانش موردنیاز برای تصمیمات درست را فراهم می­کند. خوشه­بندی به عنوان یک روش یادگیری بدون نظارت، یکی از تکنیک­های اصلی داده­کاوی محسوب می­شود. الگوریتم­های مبتنی بر چگالی یکی از روش­های اصلی در داده­کاوی محسوب می­شوند. این الگوریتم­ها نیازی به تعیین تعداد خوشه­ها از قبل ندارند و یکی از ویژگی­های مهم این الگوریتم­ها این است که به شکل خوشه­ها محدود نمی­باشند. روش­های خوشه­بندی مبتنی بر چگالی در زمینه­های پردازش شهری، پردازش تصویر و تحقیقات نجومی بسیار مورد استفاده قرار می­گیرند و محققان از  الگوریتم DBSCAN که الگوریتم پایه در این زمینه است، برای خوشه­بندی استفاده کرده­اند. در خوشه‌بندی مبتنی بر چگالی، خوشه‌ها به عنوان نواحی چگال از مجموعه‌داده، تعریف می‌شوند. اشیای موجود در نواحی کم‌تراکم، جداکننده‌ی خوشه‌ها از هم هستد (این اشیا می‌توانند نقاط پارازیت یا نقاط مرزی باشند.). این روش نقاطی که در محدوده‌ی معینی (در یک شعاع همسایگی) از هم قرار دارند را به هم وصل می‌کند. این الگوریتم، تنها نقاطی را متصل می‌کند که چگالی کمینه‌ای داشته باشند. که این امر به عنوان حداقل تعداد اشیای موجود (MinPoints) در شعاع همسایگی (Epsilon) تعریف شده است و بر خلاف بسیاری از روش‌های دیگر، می‌تواند خوشه‌های دارای اشکال دلخواه را شناسایی کند. ولی این روش در تشخیص خوشه‌ها با چگالی‌های مختلف ناتوان است. از سویی دیگر رشد فزاینده حجم داده­های امروزی  که مفهوم بیگ دیتا را مطرح کرده است ، نیاز به راهکاری در زمینه بیگ دیتا برای استخراج الگوهای پنهان را مطرح می­کند. پردازش ابری رویکردی مناسب جهت اجرای پردازش­هایبا حجم بالا است که به صورت توزیع­شده عمل پردازش صورت می­گیرد.  هدوپ راهکاری مناسب برای پیاده­سازی  الگوریتم­ها به صورت موازی می­باشد. چارچوب Hadoop یک پلتفرم محبوب برای پردازش مجموعه های بزرگتر است.

Hadoop با استفاده از یک الگوی محاسباتی به نام MapReduce, برنامه‌ها را در دو فاز نگاشت (Map) و کاهش (Reduce) اجرا ‌می‌کند. MapReduce یک مدل برنامه نویسی ساده برای پردازش داده‌هاست. برجسته ترین مزیت آن مقیاس پذیری آسان پردازش داده‌ها روی چندین گره محاسباتی است اما هنوز هم برای بیان تمامی برنامه‌ها آسان و ساده نمی‌باشد.MapReduce  یک مدل پردازش داده با مقیاس پذیری آسان و پردازش داده روی چندین گره محاسباتی است، این مدل پردازش داده در بسیاری از زبان‌ها قابل دسترسی می‌باشد (White, 2009).

لذا چالش اصلی تحقیقات اخیر،اجرای پردازش بر روی داده­هایی با چگالی متفاوت و بروز­رسانی خوشه­های موجود در داده­های افزایشی است. الگوریتم DBSCAN   علی­رغم وجود مزایایی که دارد، دارای کمبودهایی نظیر عدم پشتیبانی از داده­های با چگالی متفاوت است. اگرچه الگوریتم­های متنوعی در این زمینه ارائه شده اما هریک از یک جنبه  به مساله نگاه کرده­اند با درنظر گرفتن عدم کارائی و اثربخش بودن الگوریتم­های موجود به دلیل اجراشدن در یک ماشین و چالشهای دیگری که در ارتباط با داده­های انبوه و در حال افزایش مطرح می­شود، در این رساله  سعی شده تا از چندین بعد به مساله نگریسته و راه­حلی ارائه شود 1-  ابتدا به دلیل توزیع داده­ها در پایگاه داده­های متنوع نیاز به طراحی انباره داده می باشد که انباره داده­های سنتی پاسخگوی این حجم از داده­ها نمی­باشند و از پایگاه داده مبتنی بر هدوپ  که  Hive می­باشد، استفاده شده است.همچنین فرایند ELT  به جای  ETL  بکارگرفته شده است. 2- بحث پارتیشن­بندی صحیح داده­ها می­باشد که  از الگوریتم PRBP[1]  (Dai & Lin, 2012) استفاده شده است. 3- الگوریتم خوشه­بندی مبتنی بر چگالی  DBSCAN در  بسیاری از موارد ناکارآمد است از آنجائیکه هدف ما ارائه الگوریتمی برای چگالی متنوع است. برای این منظور از چگالی محلی هر نقطه برا جداسازی خوشه­های با چگالی متنوع استفاده شده است 4- برای حل مشکل عدم پاسخگویی یک ماشین به حجم انبوه داده از نگاشت- کاهش برای پردازش داده­ها در چندین ماشین استفاده شده است. 5- برای کاهش زمان جستجوی محلی برای داده­های افزایشی، داده­های جدید به طور جداگانه خوشه­بندی ونتایج خوشه­بندی جدید با خوشه­های قدیمی ادغام می­شوند. در این رساله نتایج پیاده­سازی الگوریتم پیشنهادی و مقایسه آن با الگوریتم­های موجود حاکی از سرعت بالای اجرای آن است. در بخش دوم رساله، با داده­های جریانی سروکار داریم که اسپارک بهتر از هدوپ برای پیاده­سازی پاسخ می­دهد و زمان اجرا در حد قابل توجهی کاهش می­یابد.

[1] : Partition with Reduced boundary points

 

فهرست مطالب

فصل اول: کلیات تحقیق… 2

1-1        مقدمه. 3

2-1        بیان مسئله پژوهش…. 3

3-1        اهمیت و ضرورت انجام پژوهش…. 8

4-1          جنبه جدید بودن و نوآور بودن پژوهش…. 9

5-1          اهداف پژوهش…. 9

1-5-1   هدف  آرمانی.. 9

2-5-1   اهداف اصلی.. 9

3-5-1      اهداف ویژه. 10

4-5-1   اهداف کاربردی… 10

1-6        سؤالات پژوهش…. 10

1-7        فرضیه پژوهش…. 10

1-8        واژه‌ها و اصطلاحات فنی و تخصصی پژوهش…. 11

1-9        روش پژوهش…. 12

1-9-1      شرح کامل روش تحقیق بر حسب هدف، نوع دادهها و نحوه اجرا 12

1-9-2   روش و ابزار گردآوری داده‌ها 14

1-10      روش‌ها و ابزار تجزیه‌وتحلیل داده‌ها 14

1-11      مدل مفهومی پژوهش(متغیرهای مورد بررسی در قالب یک مدل مفهومی و شرح چگونگی بررسی و اندازهگیری متغیرها). 14

فصل دوم: مروری بر ادبیات تحقیق و پیشینه تحقیق… 16

2-1 مقدمه………………… 17

2-2   دادههای انبوه. 18

2 -2-1 مشخصات دادههای کلان از دید IBM… 20

2-2-2 طبقهبندی دادههای کلان.. 23

2-2-4 اهمیت و کاربرد کلان داده. 29

2-3-1 اجزای اصلی و کارکردی هدوپ… 33

2-3-2 مزایا و معایب هدوپ… 37

2-3-3-1 زیرپروژه های ذخیرهسازی داده. 40

2-3-3-4 زیر پروژههای مدیریت داده. 48

2-4-1 مدل‌های به‌کارگیری رایانش ابری… 50

2-4-2 مدل‌های ارائه خدمات در رایانش ابری… 51

2-4-3  فناوری در سرویسهای ابری… 52

2-4-3-1 معرفی سرویس وب آمازون (AWS) 53

2-4-3-2 سرویس‌ها و اجزای وب سرویس آمازون (کریمی, موسوی, نمازی, & بوشهریان, 1393): 55

2-4-4  ماشینهای مجازی در رایانش ابری… 57

2-5-3 انباره داده (Turban, Sharda, Delen, & King, 2011) 64

2-5-3-1 ویژگی های داده های درون انبار داده (Turban, Sharda, Delen, & King, 2011) 66

2-5-3-2 OLAP  در مقابل OLTP  (Turban, Sharda, Delen, & King, 2011) 66

2-5-3-3 روشهای ایجاد انبارداده (Turban, Sharda, Delen, & King, 2011) 69

2-5-3-4 انواع طراحی انباره داده  (Turban, Sharda, Delen, & King, 2011) 69

2-5-3-5 فرایند  ELT  و  ETL.. 70

2-5-3-6 Hive             76

2-6        اسپارک… 78

2-6-1   مقایسه هدوپ و اسپارک… 80

2-7        پیشینه پژوهش…. 82

2-7-1 DBSCAN.. 82

2-7-2  VDBSCAN.. 82

2-7-3 LDBSCAN.. 84

2-7-4 ST-DBSCAN.. 84

2-7-5 DVBSCAN.. 86

2-7-7 PACA-DBSCAN.. 88

2-7-8 DMDBSCAN.. 88

2-7-10 MR-DBSCAN.. 90

2-7-11 الگوریتم FDBSCAN.. 90

2-7-14 DBCLASD.. 92

2-7-15 optics. 94

2-7-16 the DENCLUE algorithm… 94

2-7-17 MR-DBSCAN.. 95

2-7- 18 برای دادههای نامتوازن.. 96

2-7 -19  کاهش تاخیر زمانی.. 96

2-7 -20 الگوریتم DBSCAN افزایشی.. 97

2-7-21 خوشههای محلی.. 97

2-7-22 پارتیشنبندی توسط نقاط مرزی… 98

2-7-23 ادغام خوشه های محلی با خوشه کلی.. 99

2-8 مدل پیشنهادی تحقیق.. 100

فصل سوم: روش شناسی پژوهش….. 104

3-1 مقدمه. 104

3-2 روش پژوهش…. 105

3-2-1 تعریف علم طراحی.. 107

3-2-2  چرخه عمومی طراحی.. 108

3-3 دستورالعمل پژوهش علم طراحی هونر (March, Hevner, Park, & Ram, 2004) 109

دستورالعمل 1- طراحی به عنوان یک ساخته. 109

دستورالعمل 2- ارتباط با مساله. 110

دستورالعمل 3-  ارزیابی طراحی.. 111

دستورالعمل 4-  سهم پژوهش…. 111

دستورالعمل 5-  دقت پژوهش…. 111

دستورالعمل 6- طراحی به عنوان یک فرایند جستجو.. 111

دستورالعمل 7-  ارتباطات پژوهش…. 112

3-4   اعتبارسنجی و درستی سنجی.. 112

3-5 مشکلات اعتبار سنجی و درستیسنجی.. 114

3-6 جهان واقعی…. 115

3-7    انواع اعتبارسنجی.. 115

3-7-1  اعتبارسنجی مدل مفهومی.. 115

3-7-2  اعتبارسنجی داده. 115

3-7-3 درستی سنجی و اعتبارسنجی جعبه سفید.. 116

3-7-4   اعتبار سنجی جعبه سیاه. 116

3-7-5  اعتبارسنجی آزمایشی.. 116

3-7-6  اعتبار سنجی راه حل.. 117

3-8 روش تحقیق.. 117

3-9 دیتاستها و روش های نرم افزاری مورد استفاده. 117

3-9-1 دیتاستهای مورد استفاده در رساله. 117

3-9-2 نرم افزارها و روشهای نرمافزاری مورد استفاده. 117

3-9-3   طراحی الگوریتم خوشهبندی دادههای انبوه با چگالی متفاوت با رویکرد نگاشت کاهش- الگوریتم    MR-VDBSCAN.. 118

3-9-4  بهینهسازی الگوریتم پیشنهادی جهت خوشهبندی  افزایشی دادههای انبوه با چگالی متفاوت با رویکرد نگاشت کاهش – الگوریتم  IMR-VDBSCAN   126

3-9-5 بهینه­سازی الگوریتم پیشنهادی جهت خوشهبندی  افزایشی دادههای انبوه با چگالی متفاوت در انباره داده ابری با رویکرد نگاشت کاهش –   IMR-VDBSCAN.. 127

3-10 معماری مدل پیشنهادی… 128

3-11   ویژگیهای الگوریتم پیشنهادی… 131

فصل چهارم: یافته­های پژوهش….. 132

4-1        مقدمه. 133

4-2        دیتاستهای مورد استفاده. 134

4-3        یافته­های حاصل از اجرای مرحله اول الگوریتم پیشنهادی جهت خوشه­بندی دادههای انبوه با چگالی متفاوت با رویکرد نگاشت کاهش     134

4-4        یافته­های حاصل از اجرای مرحله اول و دوم الگوریتم پیشنهادی جهت خوشه­بندی  افزایشی دادههای انبوه با چگالی متفاوت در انباره داده ابری  با رویکرد نگاشت کاهش IMR-VDBSCAN.. 140

فصل پنجم: نتیجهگیری و پیشنهادات… 143

5-1        مقدمه. 144

5-2        بررسی دستیابی به اهداف پژوهش و پاسخگویی به سوالات پژوهش…. 144

5-3        تحلیل دستاوردهای پژوهش…. 145

5-4        نوآوری در پژوهش…. 146

5-5        پیشنهادهای پژوهشی.. 146

5-6        چالشها و محدودیتهای پژوهش…. 147

5-7          نتیجهگیری… 147

References  149

 

مطالعه بیشتر

   راهنمای خرید:
  • لینک دانلود فایل بلافاصله بعد از پرداخت وجه به نمایش در خواهد آمد.
  • همچنین لینک دانلود به ایمیل شما ارسال خواهد شد به همین دلیل ایمیل خود را به دقت وارد نمایید.
  • ممکن است ایمیل ارسالی به پوشه اسپم یا Bulk ایمیل شما ارسال شده باشد.
  • در صورتی که به هر دلیلی موفق به دانلود فایل مورد نظر نشدید با ما تماس بگیرید.

هیچ دیدگاهی برای این محصول نوشته نشده است.

.فقط مشتریانی که این محصول را خریداری کرده اند و وارد سیستم شده اند میتوانند برای این محصول دیدگاه ارسال کنند.

اطلاعات فروشنده

  • نام فروشگاه: کافه دانشجو
  • فروشنده: کافه دانشجو
  • آدرس: آذربایجان غربی
  • هنوز امتیازی دریافت نکرده است!
0