بهینهسازی بهرهوری مراکز داده برای کاربردهای در مقیاس پِتابایت
عنوان اصلی مقاله: Optimizing Data Center Efficiency for Peta-Scale Applications
تاریخ انتشار و نویسنده: by Wally MacDermid, Aug 12, 2023
وبسایت منتشر کننده: Data Center Knowledge
لینک اصلی مقاله
بسیاری از رهبران فناوری اطلاعات این تصوّر را دارند که مقرونبهصرفهترین گزینهی ذخیرهسازی برای آنها درایوهای حالت جامد (SSD) در مقابل درایوهای دیسک سخت (HDD) هستند. ولی آیا واقعاً همین گونه است؟
امروزه انواع برنامههای کاربردی در مقیاس پِتابایت از هوش مصنوعی (AI) و یادگیری ماشینی (ML) گرفته تا برنامههای کاربردی مالی و معماریهای محاسباتِ در لبه (Edge)، در همهجا و نه فقط در سازمانهای بزرگ وجود دارند. این برنامهها در حال رساندن حجم دادهها به سطوح بیسابقهای هستند و در نتیجه به حجم عظیمی از فضای ذخیرهسازی و یک برنامهریزی برای تضمین عملکرد مداوم آن بدون آنکه کل بودجهی فناوری اطلاعات را مصرف کند، نیاز دارند.
بسیاری از رهبران فناوری اطلاعات تصوّر میکنند که مقرونبهصرفهترین گزینهی ذخیرهسازی برای آنها درایوهای حالت جامد (SSD) در مقابل درایوهای دیسک سخت (HDD) هستند.
ولی آیا واقعاً همین گونه است؟ همانطور که هر بهرهبردار مرکز داده از آن آگاه است، برق، سرمایش و یا گرمایش، املاک و مستغلات و سایر ملاحظات مرتبط با هزینهی کل مالکیت (TCO) عواملی هستند فراتر از هزینههای اولیهی مرتبط با نرمافزارها و رسانههای ذخیرهسازی که باید در نظر گرفته شوند.
تجزیه و تحلیل در دادههای متعدّد از فروشندگان درایوها و دستگاههای ذخیرهسازی و همچنین تحلیلگران و مشاوران فناوری نشان میدهد که درایوهای حالت جامد حتّی با وجود افزایش نوآوریهایی همچون فناوریهای سلولهای چهارسطحی (QLC) در فلَشها و بهبود در تراکم ذخیرهسازی، لزوماً همیشه دارای مزیّت نیستند.
بیایید به سه دسته از کاربردهای درایوهای دیسک سخت در مقابل درایوهای حالت جامد و ملاحظات استفاده از هر یک از آنها بپردازیم.
کاربرد شماره ۱: علوم تجزیه و تحلیل حسّاس به تأخیر
زمانی که فلَش بهترین گزینه است:
اِساِسدیهای از نوع فلَش اغلب برای برنامههایی مناسب هستند که نیاز به دسترسی تصادفی به محمولههای کوچکی از دادهها دارند. به عنوان مثال، سامانههای تراکنشی که درخواستهای موردی را در برابر یک سامانهی سفارش محصول کارسازی کرده و قبل از اجرای پلّهی بعدی در آن زنجیره، سوابق مشتری مانند نام یا شمارهی تلفن را با استفاده از یک کلید جستجو میکنند، میتوانند از تأخیر (Latency) کمتر در اِساِسدیها بهرهمند شوند. این موضوع همچنین برای برنامههای کاربردی در لَبه (Edge) که در آنها جریانهای کوچک رویدادی حاصل از حسگرهای موجود در دستگاهها یا اینترنت اشیاء (IoT)، تنها چند کیلوبایت و یا حتّی کمتر از آن را در هر سابقه از دادههای رویدادی حمل میکنند، بهویژه زمانی که حجمهای کاری در مقیاس بزرگ باشند، نیز صدق میکند.
اِساِسدیهای از نوع فلَش قادر هستند به دلیل داشتن تأخیر کمتر و عملکرد بالاتر ورودی/خروجی در ثانیه (IOPS) در چنین شرایطی نسبت به اِچدیدیها سودمندتر واقع شوند. در این موارد، فلَشهای سلول چهارسطحی (QLC) که دو برابر تراکم فلَشهای سلول سهسطحی (TLC) فعلی را ارائه میکنند، میتوانند عملکرد بهتری را ارائه دهند.
زمانی که ممکن است هارد گزینهی بهتری باشد:
رهبران فناوری اطلاعات نمیتوانند این پیشفرض را داشته باشند که هر برنامهی کاربردی حسّاس به تأخیر نیازمند بهکارگیری اِساِسدی است. شرکتها اغلب متوجه این موضوع میشوند که آنها با اجرای بارهای کاری با آیوپس (IOPS) بالا و حسّاس به تأخیر در سامانههای مبتنی بر اِچدیدی نیز، بهویژه در آنهایی که دارای اِچدیدیهای از درجهی سازمانی بوده و برای بارهای کاری سرور و مراکز داده بهینهسازی شدهاند، میتوانند به عملکردی حتّی بیش از عملکرد کافی مورد نظر خود دست پیدا کنند. یک مثال خوب در اینجا، موارد استفاده در بایگانیکردن دادهها است.
اغلب در کاربردهایی از جمله بایگانی، پشتیبانگیری و مدیریت داراییهای رسانه، تفاوت تأخیر در سطح میلیثانیه و میکروثانیه تأثیری بر عملکرد کاربر نهایی نمیگذارد. در این شرایط، اِچدیدیها میتوانند انتخاب بهتری باشند، چرا که پاسخگوی تلاش مستمر برای حفظ تعادل فناوری اطلاعات میان برآورد انتظارات عملکردی و حتّی فراتر از آن و پایبندی همزمان به بودجه هستند.
کاربرد شماره ۲: ملاحظات هزینهی کل مالکیت در رابطه با دادههای ساختارنیافته در مقیاس پِتابایت
بحثی که اخیراً در صنعت شکل گرفته این است که کدام انتخاب بهتری برای ذخیرهسازی در کاربریهایی هستند که با دادههای ساختارنیافته از جمله فایلهای رسانهای غنی (Rich Media) یا دادههای حسگرها سروکار دارند، اِساِسدیهای فلَش یا اِچدیدیهای با چگالی بالا. مبلّغین اِساِسدیها اینگونه عنوان میکنند که جدیدترین انواع فلَش در هزینهی واحد ظرفیت عملاً «همتراز» با دیسکهای سخت هستند. برخی حتّی پیشبینی میکنند که اِساِسدیهای فلَش با چگالی بالا به زودی جایگزین اِچدیدیها خواهند شد، زیرا قادر هستند همهی وظایف را حتّی بهتر از آنها انجام دهند.
با این حال، امروزه اِساِسدیهای با چگالی بالا هنوز نمیتوانند از منظر هزینه/عملکرد به طور کامل جایگزین دیسکهای سخت شوند، به ویژه زمانی که صحبت از ذخیرهسازی دادههای ساختارنیافته در مقیاس پِتابایت در سراسر طیف بارهای کاری برنامههای کاربردی در میان باشد. یک ترکیب ایدهآل از عملکرد، دوام طولانیمدت، ظرفیت و مقرونبهصرفهبودن اغلب تنها با ترکیب فلَشها و هاردها با هدف دستیابی به مزایای هر دو امکانپذیر است. این در واقع همان رویکرد استفاده از نقاط قوّت هر یک از آنها برای هر شرایط خاص و انتخاب رسانهی ذخیرهسازی مناسب که بهترین تناسب را برای هر بار کاری فراهم میسازد، است.
زمانی که صحبت از اطمینانپذیری در مقیاس عظیم است، درایوهای دیسک سخت میتوانند ایدهآل باشند؛ چنانچه این واقعیت که امروزه همچنان ۹۰٪ ظرفیت ذخیرهسازها در مراکز دادهی ابری مبتنی بر اِچدیدیها است بر همین موضوع تأکید دارد.
کاربرد شماره ۳: پشتیبانگیری و یا ذخیرهسازی ثانویه
به طور کلی، برنامههای پشتیبانگیری محمولهی فایلهای بزرگتری را بر روی فضای ذخیرهسازی مینویسند و از روی آن میخوانند. این نوع از بارهای کاری از لحاظ نیازهای عملکردی که بر روی سامانهی ذخیرهسازی اجرا میکنند تقریباً مخالف بارهای کاری با ورودی/خروجی تصادفی (Random I/O) و حسّاس به تأخیر هستند.
برنامههای پشتیبانگیری زمانی بهترین عملکرد را دارند که یک دسترسی متوالی (Sequential) سریع به فایلهای عظیم دادههای پشتیبان، با توان عملیاتی (Throughput) در حد گیگابایت در ثانیه (یا ترابایت در ساعت) داشته باشند. همچنین، از آنجایی که امروزه اکثر سازمانها صدها برنامهی کاربردی حیاتی در اختیار دارند، منابع موجود باید قادر باشند چندین عملیات پشتیبانگیری و بازیابی را همزمان و به صورت موازی انجام دهند. استفاده از سامانههای ذخیرهسازی اشتراکی برای جلوگیری از تکثیر سیلوهای ذخیرهسازی سنّتی از بعد مالی منطقیتر است.
تمایز بین راهحلهای مبتنی بر فلَشهای چهارسطحی (QLC-flash) و راهحلهای مبتنی بر درایوهای دیسک سخت (HDD) برای این نوع از حجمهای کاری با ورودی/خروجی متوالی (Sequential I/O) ناچیز است. راهحلهای ذخیرهسازی شیءمحور مبتنی بر اِچدیدیها قادر هستند به دَهها گیگابایت در ثانیه (دَهها ترابایت در ساعت) با توان عملیاتی کافی برای اشباع شبکه دست پیدا کنند. این بسیار اهمیت دارد، چرا که آنچه که در اینجا موجب محدودیت در عملکرد میشود سامانهی ذخیرهسازی نیست، بلکه شبکه است.
علاوه بر این، از آنجایی که ملاحظات کلیدی زمانی برای پشتیبانگیری و بازیابی شامل زمان پردازش در برنامه، حذف تکرارها (Deduplication) یا فشردهسازی (Compression) و متّصلسازی مجدد دادهها هستند، خود برنامه ممکن است عامل محدودکننده در عملکرد کلی راهحل باشد. در نتیجه، معمولاً اختلاف حاشیهای در توان بین اِچدیدیها و فلَشهای اِساِسدی میتواند ناچیز باشد، به ویژه زمانی که هزینه نیز در تجزیه و تحلیل لحاظ شده باشد.
نتیجهگیری: انتخاب استفاده از اِچدیدیها یا اِساِسدیها به تعادل عملکرد در برابر هزینه بستگی دارد
بهینهسازی عملکرد برنامههای کاربردی در مقیاس پِتابایت میتواند به ملاحظات ظریف و در عین حال مهمی در انتخاب و تطبیق ذخیرهساز مناسب برای نوع تقاضا در آن برنامه بستگی داشته باشد. فلَشهای چهارسطحی یک گزینهی واحد برای همهی نیازها نیستند. برای بارهای کاری حسّاس به تأخیر و متمرکز بر خواندن (Read-Intensive)، هزینهی بالاتر آنها میتواند به یک سود معنادار برای کاربر نهایی ختم شود. با این حال، همیشه برای انواع دیگر حجمهای کاری، از جمله پشتیبانگیری که در هستهی اصلی راهبردهای امنیت دادهها و باجافزارهای جدید قرار دارند، مناسب نیستند.
با تطبیق الگوی عملکرد با مزایا و هزینههای رسانهی ذخیرهسازی، تیمهای مرکز داده قادر هستند تعادل کاملی بین عملکرد و هزینه برقرار نمایند.
منتشر شده در وبسایت دیتا سنتر نالج Data Center Knowledge
توسط والی مکدرمید (Wally MacDermid)، ۱۲ اوت ۲۰۲۳
برگردان توسط حامد معینفر
در شرکت مهندسین فناور پندار آریا – پنداریا