چکیده
با توسعه سریع عصر اطلاعاتی و محیطهای اطلاعاتی پویا و در حال تغییر از قبیل اینترنت، هر روز دادههای بیشماری بدست میآید و کشف و استخراج اطلاعات و دانش مفید از این حجم انبوه دادهها مشکل است چراکه دیگر انبارهدادههای سنتی پاسخگوی این حجم انبوه از دادهها نیستند و برای حل این چالش انبارهدادههای ابری مطرح میشود.از سوی دیگر با رشد فزاینده اطلاعات، نیاز برای سازماندهی این اطلاعات به یک روش موثر نسبت به قبل اهمیت شایانی پیدا کرده است.یکی از منابع مهم کسب دانش در همه فعالیتهای بشری، انبوه دادههایی است که به تدریج در بخشهای مختلف جمعآوری میشود و در هر زمانی بروزرسانی میشوند. دادهکاوی در اصل حلقه واسط بین مسائل و مشکلات از سوئئ و روشهای تصمیمگیری از سوی دیگر است، یعنی دادهکاوی دانش موردنیاز برای تصمیمات درست را فراهم میکند. خوشهبندی به عنوان یک روش یادگیری بدون نظارت، یکی از تکنیکهای اصلی دادهکاوی محسوب میشود. الگوریتمهای مبتنی بر چگالی یکی از روشهای اصلی در دادهکاوی محسوب میشوند. این الگوریتمها نیازی به تعیین تعداد خوشهها از قبل ندارند و یکی از ویژگیهای مهم این الگوریتمها این است که به شکل خوشهها محدود نمیباشند. روشهای خوشهبندی مبتنی بر چگالی در زمینههای پردازش شهری، پردازش تصویر و تحقیقات نجومی بسیار مورد استفاده قرار میگیرند و محققان از الگوریتم DBSCAN که الگوریتم پایه در این زمینه است، برای خوشهبندی استفاده کردهاند. در خوشهبندی مبتنی بر چگالی، خوشهها به عنوان نواحی چگال از مجموعهداده، تعریف میشوند. اشیای موجود در نواحی کمتراکم، جداکنندهی خوشهها از هم هستد (این اشیا میتوانند نقاط پارازیت یا نقاط مرزی باشند.). این روش نقاطی که در محدودهی معینی (در یک شعاع همسایگی) از هم قرار دارند را به هم وصل میکند. این الگوریتم، تنها نقاطی را متصل میکند که چگالی کمینهای داشته باشند. که این امر به عنوان حداقل تعداد اشیای موجود (MinPoints) در شعاع همسایگی (Epsilon) تعریف شده است و بر خلاف بسیاری از روشهای دیگر، میتواند خوشههای دارای اشکال دلخواه را شناسایی کند. ولی این روش در تشخیص خوشهها با چگالیهای مختلف ناتوان است. از سویی دیگر رشد فزاینده حجم دادههای امروزی که مفهوم بیگ دیتا را مطرح کرده است ، نیاز به راهکاری در زمینه بیگ دیتا برای استخراج الگوهای پنهان را مطرح میکند. پردازش ابری رویکردی مناسب جهت اجرای پردازشهایبا حجم بالا است که به صورت توزیعشده عمل پردازش صورت میگیرد. هدوپ راهکاری مناسب برای پیادهسازی الگوریتمها به صورت موازی میباشد. چارچوب Hadoop یک پلتفرم محبوب برای پردازش مجموعه های بزرگتر است.
Hadoop با استفاده از یک الگوی محاسباتی به نام MapReduce, برنامهها را در دو فاز نگاشت (Map) و کاهش (Reduce) اجرا میکند. MapReduce یک مدل برنامه نویسی ساده برای پردازش دادههاست. برجسته ترین مزیت آن مقیاس پذیری آسان پردازش دادهها روی چندین گره محاسباتی است اما هنوز هم برای بیان تمامی برنامهها آسان و ساده نمیباشد.MapReduce یک مدل پردازش داده با مقیاس پذیری آسان و پردازش داده روی چندین گره محاسباتی است، این مدل پردازش داده در بسیاری از زبانها قابل دسترسی میباشد (White, 2009).
لذا چالش اصلی تحقیقات اخیر،اجرای پردازش بر روی دادههایی با چگالی متفاوت و بروزرسانی خوشههای موجود در دادههای افزایشی است. الگوریتم DBSCAN علیرغم وجود مزایایی که دارد، دارای کمبودهایی نظیر عدم پشتیبانی از دادههای با چگالی متفاوت است. اگرچه الگوریتمهای متنوعی در این زمینه ارائه شده اما هریک از یک جنبه به مساله نگاه کردهاند با درنظر گرفتن عدم کارائی و اثربخش بودن الگوریتمهای موجود به دلیل اجراشدن در یک ماشین و چالشهای دیگری که در ارتباط با دادههای انبوه و در حال افزایش مطرح میشود، در این رساله سعی شده تا از چندین بعد به مساله نگریسته و راهحلی ارائه شود ۱- ابتدا به دلیل توزیع دادهها در پایگاه دادههای متنوع نیاز به طراحی انباره داده می باشد که انباره دادههای سنتی پاسخگوی این حجم از دادهها نمیباشند و از پایگاه داده مبتنی بر هدوپ که Hive میباشد، استفاده شده است.همچنین فرایند ELT به جای ETL بکارگرفته شده است. ۲- بحث پارتیشنبندی صحیح دادهها میباشد که از الگوریتم PRBP[۱] (Dai & Lin, 2012) استفاده شده است. ۳- الگوریتم خوشهبندی مبتنی بر چگالی DBSCAN در بسیاری از موارد ناکارآمد است از آنجائیکه هدف ما ارائه الگوریتمی برای چگالی متنوع است. برای این منظور از چگالی محلی هر نقطه برا جداسازی خوشههای با چگالی متنوع استفاده شده است ۴- برای حل مشکل عدم پاسخگویی یک ماشین به حجم انبوه داده از نگاشت- کاهش برای پردازش دادهها در چندین ماشین استفاده شده است. ۵- برای کاهش زمان جستجوی محلی برای دادههای افزایشی، دادههای جدید به طور جداگانه خوشهبندی ونتایج خوشهبندی جدید با خوشههای قدیمی ادغام میشوند. در این رساله نتایج پیادهسازی الگوریتم پیشنهادی و مقایسه آن با الگوریتمهای موجود حاکی از سرعت بالای اجرای آن است. در بخش دوم رساله، با دادههای جریانی سروکار داریم که اسپارک بهتر از هدوپ برای پیادهسازی پاسخ میدهد و زمان اجرا در حد قابل توجهی کاهش مییابد.
[۱] : Partition with Reduced boundary points
فهرست مطالب
۳-۱ اهمیت و ضرورت انجام پژوهش…. ۸
۴-۱ جنبه جدید بودن و نوآور بودن پژوهش…. ۹
۱-۸ واژهها و اصطلاحات فنی و تخصصی پژوهش…. ۱۱
۱-۹-۱ شرح کامل روش تحقیق بر حسب هدف، نوع دادهها و نحوه اجرا ۱۲
۱-۹-۲ روش و ابزار گردآوری دادهها ۱۴
۱-۱۰ روشها و ابزار تجزیهوتحلیل دادهها ۱۴
فصل دوم: مروری بر ادبیات تحقیق و پیشینه تحقیق… ۱۶
۲ -۲-۱ مشخصات دادههای کلان از دید IBM… 20
۲-۲-۲ طبقهبندی دادههای کلان.. ۲۳
۲-۲-۴ اهمیت و کاربرد کلان داده. ۲۹
۲-۳-۱ اجزای اصلی و کارکردی هدوپ… ۳۳
۲-۳-۳-۱ زیرپروژه های ذخیرهسازی داده. ۴۰
۲-۳-۳-۴ زیر پروژههای مدیریت داده. ۴۸
۲-۴-۱ مدلهای بهکارگیری رایانش ابری… ۵۰
۲-۴-۲ مدلهای ارائه خدمات در رایانش ابری… ۵۱
۲-۴-۳ فناوری در سرویسهای ابری… ۵۲
۲-۴-۳-۱ معرفی سرویس وب آمازون (AWS) 53
۲-۴-۳-۲ سرویسها و اجزای وب سرویس آمازون (کریمی, موسوی, نمازی, & بوشهریان, ۱۳۹۳): ۵۵
۲-۴-۴ ماشینهای مجازی در رایانش ابری… ۵۷
۲-۵-۳ انباره داده (Turban, Sharda, Delen, & King, 2011) 64
۲-۵-۳-۱ ویژگی های داده های درون انبار داده (Turban, Sharda, Delen, & King, 2011) 66
۲-۵-۳-۲ OLAP در مقابل OLTP (Turban, Sharda, Delen, & King, 2011) 66
۲-۵-۳-۳ روشهای ایجاد انبارداده (Turban, Sharda, Delen, & King, 2011) 69
۲-۵-۳-۴ انواع طراحی انباره داده (Turban, Sharda, Delen, & King, 2011) 69
۲-۶-۱ مقایسه هدوپ و اسپارک… ۸۰
۲-۷-۱۶ the DENCLUE algorithm… 94
۲-۷- ۱۸ برای دادههای نامتوازن.. ۹۶
۲-۷ -۲۰ الگوریتم DBSCAN افزایشی.. ۹۷
۲-۷-۲۲ پارتیشنبندی توسط نقاط مرزی… ۹۸
۲-۷-۲۳ ادغام خوشه های محلی با خوشه کلی.. ۹۹
فصل سوم: روش شناسی پژوهش….. ۱۰۴
۳-۳ دستورالعمل پژوهش علم طراحی هونر (March, Hevner, Park, & Ram, 2004) 109
دستورالعمل ۱- طراحی به عنوان یک ساخته. ۱۰۹
دستورالعمل ۲- ارتباط با مساله. ۱۱۰
دستورالعمل ۳- ارزیابی طراحی.. ۱۱۱
دستورالعمل ۶- طراحی به عنوان یک فرایند جستجو.. ۱۱۱
دستورالعمل ۷- ارتباطات پژوهش…. ۱۱۲
۳-۴ اعتبارسنجی و درستی سنجی.. ۱۱۲
۳-۵ مشکلات اعتبار سنجی و درستیسنجی.. ۱۱۴
۳-۷-۱ اعتبارسنجی مدل مفهومی.. ۱۱۵
۳-۷-۳ درستی سنجی و اعتبارسنجی جعبه سفید.. ۱۱۶
۳-۷-۴ اعتبار سنجی جعبه سیاه. ۱۱۶
۳-۷-۵ اعتبارسنجی آزمایشی.. ۱۱۶
۳-۷-۶ اعتبار سنجی راه حل.. ۱۱۷
۳-۹ دیتاستها و روش های نرم افزاری مورد استفاده. ۱۱۷
۳-۹-۱ دیتاستهای مورد استفاده در رساله. ۱۱۷
۳-۹-۲ نرم افزارها و روشهای نرمافزاری مورد استفاده. ۱۱۷
۳-۱۱ ویژگیهای الگوریتم پیشنهادی… ۱۳۱
فصل چهارم: یافتههای پژوهش….. ۱۳۲
۴-۲ دیتاستهای مورد استفاده. ۱۳۴
فصل پنجم: نتیجهگیری و پیشنهادات… ۱۴۳
۵-۲ بررسی دستیابی به اهداف پژوهش و پاسخگویی به سوالات پژوهش…. ۱۴۴
۵-۳ تحلیل دستاوردهای پژوهش…. ۱۴۵
۵-۶ چالشها و محدودیتهای پژوهش…. ۱۴۷
- لینک دانلود فایل بلافاصله بعد از پرداخت وجه به نمایش در خواهد آمد.
- همچنین لینک دانلود به ایمیل شما ارسال خواهد شد به همین دلیل ایمیل خود را به دقت وارد نمایید.
- ممکن است ایمیل ارسالی به پوشه اسپم یا Bulk ایمیل شما ارسال شده باشد.
- در صورتی که به هر دلیلی موفق به دانلود فایل مورد نظر نشدید با ما تماس بگیرید.
هیچ دیدگاهی برای این محصول نوشته نشده است.