بهینه‌سازی بهره‌وری مراکز داده برای کاربردهای در مقیاس پِتابایت

عنوان اصلی مقاله: Optimizing Data Center Efficiency for Peta-Scale Applications
تاریخ انتشار و نویسنده: by Wally MacDermid, Aug 12, 2023
وب‌سایت منتشر کننده: Data Center Knowledge
 لینک اصلی مقاله

بسیاری از رهبران فناوری اطلاعات این تصوّر را دارند که مقرون‌به‌صرفه‌ترین گزینه‌ی ذخیره‌سازی برای آنها درایوهای حالت جامد (SSD) در مقابل درایوهای دیسک سخت (HDD) هستند. ولی آیا واقعاً همین گونه است؟

ذخیره‌سازی

امروزه انواع برنامه‌های کاربردی در مقیاس پِتابایت از هوش مصنوعی (AI) و یادگیری ماشینی (ML) گرفته تا برنامه‌های کاربردی مالی و معماری‌های محاسباتِ در لبه (Edge)، در همه‌جا و نه فقط در سازمان‌های بزرگ وجود دارند. این برنامه‌ها در حال رساندن حجم داده‌ها به سطوح بی‌سابقه‌ای هستند و در نتیجه به حجم عظیمی از فضای ذخیره‌سازی و یک برنامه‌ریزی برای تضمین عملکرد مداوم آن بدون آنکه کل بودجه‌ی فناوری اطلاعات را مصرف کند، نیاز دارند.

بسیاری از رهبران فناوری اطلاعات تصوّر می‌کنند که مقرون‌به‌صرفه‌ترین گزینه‌ی ذخیره‌سازی برای آنها درایوهای حالت جامد (SSD) در مقابل درایوهای دیسک سخت (HDD) هستند.

ولی آیا واقعاً همین گونه است؟ همان‌طور که هر بهره‌بردار مرکز داده از آن آگاه است، برق، سرمایش و یا گرمایش، املاک و مستغلات و سایر ملاحظات مرتبط با هزینه‌ی کل مالکیت (TCO) عواملی هستند فراتر از هزینه‌های اولیه‌ی مرتبط با نرم‌افزارها و رسانه‌های ذخیره‌سازی که باید در نظر گرفته شوند.

تجزیه و تحلیل در داده‌های متعدّد از فروشندگان درایوها و دستگاه‌های ذخیره‌سازی و همچنین تحلیل‌گران و مشاوران فناوری نشان می‌دهد که درایوهای حالت جامد حتّی با وجود افزایش نوآوری‌هایی همچون فناوری‌های سلول‌های چهارسطحی (QLC) در فلَش‌ها و بهبود در تراکم ذخیره‌سازی، لزوماً همیشه دارای مزیّت نیستند.

بیایید به سه دسته از کاربردهای درایوهای دیسک سخت در مقابل درایوهای حالت جامد و ملاحظات استفاده از هر یک از آنها بپردازیم.

کاربرد شماره ۱: علوم تجزیه و تحلیل حسّاس به تأخیر

زمانی که فلَش بهترین گزینه است:

اِس‌اِس‌دی‌های از نوع فلَش اغلب برای برنامه‌هایی مناسب هستند که نیاز به دسترسی تصادفی به محموله‌های کوچکی از داده‌ها دارند. به عنوان مثال، سامانه‌های تراکنشی که درخواست‌های موردی را در برابر یک سامانه‌ی سفارش محصول کارسازی کرده و قبل از اجرای پلّه‌ی بعدی در آن زنجیره، سوابق مشتری مانند نام یا شماره‌ی تلفن را با استفاده از یک کلید جستجو می‌کنند، می‌توانند از تأخیر (Latency) کمتر در اِس‌اِس‌دی‌ها بهره‌مند شوند. این موضوع هم‌چنین برای برنامه‌های کاربردی در لَبه (Edge) که در آنها جریان‌های کوچک رویدادی حاصل از حسگرهای موجود در دستگاه‌ها یا اینترنت اشیاء (IoT)، تنها چند کیلوبایت و یا حتّی کمتر از آن را در هر سابقه از داده‌های رویدادی حمل می‌کنند، به‌ویژه زمانی که حجم‌های کاری در مقیاس بزرگ باشند، نیز صدق می‌کند.

اِس‌اِس‌دی‌های از نوع فلَش قادر هستند به دلیل داشتن تأخیر کمتر و عملکرد بالاتر ورودی/خروجی در ثانیه (IOPS) در چنین شرایطی نسبت به اِچ‌دی‌دی‌ها سودمندتر واقع شوند. در این موارد، فلَش‌های سلول چهارسطحی (QLC) که دو برابر تراکم فلَش‌های سلول سه‌سطحی (TLC) فعلی را ارائه می‌کنند، می‌توانند عملکرد بهتری را ارائه دهند.

زمانی که ممکن است هارد گزینه‌ی بهتری باشد:

رهبران فناوری اطلاعات نمی‌توانند این پیش‌فرض را داشته باشند که هر برنامه‌ی کاربردی حسّاس به تأخیر نیازمند به‌کارگیری اِس‌اِس‌دی است. شرکت‌ها اغلب متوجه این موضوع می‌شوند که آنها با اجرای بارهای کاری با آیوپس (IOPS) بالا و حسّاس به تأخیر در سامانه‌های مبتنی بر اِچ‌دی‌دی نیز، به‌ویژه در آنهایی که دارای اِچ‌دی‌دی‌های از درجه‌ی سازمانی بوده و برای بارهای کاری سرور و مراکز داده بهینه‌سازی شده‌اند، می‌توانند به عملکردی حتّی بیش از عملکرد کافی مورد نظر خود دست پیدا کنند. یک مثال خوب در اینجا، موارد استفاده در بایگانی‌کردن داده‌ها است.

اغلب در کاربردهایی از جمله بایگانی، پشتیبان‌گیری و مدیریت دارایی‌های رسانه، تفاوت تأخیر در سطح میلی‌ثانیه و میکروثانیه تأثیری بر عملکرد کاربر نهایی نمی‌گذارد. در این شرایط، اِچ‌دی‌دی‌ها می‌توانند انتخاب بهتری باشند، چرا که پاسخ‌گوی تلاش مستمر برای حفظ تعادل فناوری اطلاعات میان برآورد انتظارات عملکردی و حتّی فراتر از آن و پایبندی هم‌زمان به بودجه هستند.

کاربرد شماره ۲: ملاحظات هزینه‌ی کل مالکیت در رابطه با داده‌های ساختارنیافته در مقیاس پِتابایت

بحثی که اخیراً در صنعت شکل گرفته این است که کدام انتخاب بهتری برای ذخیره‌سازی در کاربری‌هایی هستند که با داده‌های ساختارنیافته از جمله فایل‌های رسانه‌ای غنی (Rich Media) یا داده‌های حسگرها سروکار دارند، اِس‌اِس‌دی‌های فلَش یا اِچ‌دی‌دی‌های با چگالی بالا. مبلّغین اِس‌اِس‌دی‌ها این‌گونه عنوان می‌کنند که جدیدترین انواع فلَش در هزینه‌ی واحد ظرفیت عملاً «هم‌تراز» با دیسک‌های سخت هستند. برخی حتّی پیش‌بینی می‌کنند که اِس‌اِس‌دی‌های فلَش با چگالی بالا به زودی جایگزین اِچ‌دی‌دی‌ها خواهند شد، زیرا قادر هستند همه‌ی وظایف را حتّی بهتر از آنها انجام دهند.

با این حال، امروزه اِس‌اِس‌دی‌های با چگالی بالا هنوز نمی‌توانند از منظر هزینه/عملکرد به طور کامل جایگزین دیسک‌های سخت شوند، به ویژه زمانی که صحبت از ذخیره‌سازی داده‌های ساختارنیافته در مقیاس پِتابایت در سراسر طیف بارهای کاری برنامه‌های کاربردی در میان باشد. یک ترکیب ایده‌آل از عملکرد، دوام طولانی‌مدت، ظرفیت و مقرون‌به‌صرفه‌بودن اغلب تنها با ترکیب فلَش‌ها و هاردها با هدف دستیابی به مزایای هر دو امکان‌پذیر است. این در واقع همان رویکرد استفاده از نقاط قوّت هر یک از آنها برای هر شرایط خاص و انتخاب رسانه‌ی ذخیره‌سازی مناسب که بهترین تناسب را برای هر بار کاری فراهم می‌سازد، است.

زمانی که صحبت از اطمینان‌پذیری در مقیاس عظیم است، درایوهای دیسک سخت می‌توانند ایده‌آل باشند؛ چنانچه این واقعیت که امروزه همچنان ۹۰٪ ظرفیت ذخیره‌سازها در مراکز داده‌ی ابری مبتنی بر اِچ‌دی‌دی‌ها است بر همین موضوع تأکید دارد.

کاربرد شماره ۳: پشتیبان‌گیری و یا ذخیره‌سازی ثانویه

به طور کلی، برنامه‌های پشتیبان‌گیری محموله‌ی فایل‌های بزرگ‌تری را بر روی فضای ذخیره‌سازی می‌نویسند و از روی آن می‌خوانند. این نوع از بارهای کاری از لحاظ نیازهای عملکردی که بر روی سامانه‌ی ذخیره‌سازی اجرا می‌کنند تقریباً مخالف بارهای کاری با ورودی/خروجی تصادفی (Random I/O) و حسّاس به تأخیر هستند.

برنامه‌های پشتیبان‌گیری زمانی بهترین عملکرد را دارند که یک دسترسی متوالی (Sequential) سریع به فایل‌های عظیم داده‌های پشتیبان، با توان عملیاتی (Throughput) در حد گیگابایت در ثانیه (یا ترابایت در ساعت) داشته باشند. همچنین، از آنجایی که امروزه اکثر سازمان‌ها صدها برنامه‌ی کاربردی حیاتی در اختیار دارند، منابع موجود باید قادر باشند چندین عملیات پشتیبان‌گیری و بازیابی را همزمان و به صورت موازی انجام دهند. استفاده از سامانه‌های ذخیره‌سازی اشتراکی برای جلوگیری از تکثیر سیلوهای ذخیره‌سازی سنّتی از بعد مالی منطقی‌تر است.

تمایز بین راه‌حل‌های مبتنی بر فلَش‌های چهارسطحی (QLC-flash) و راه‌حل‌های مبتنی بر درایوهای دیسک سخت (HDD) برای این نوع از حجم‌های کاری با ورودی/خروجی متوالی (Sequential I/O) ناچیز است. راه‌حل‌های ذخیره‌سازی شیءمحور مبتنی بر اِچ‌دی‌دی‌ها قادر هستند به دَه‌ها گیگابایت در ثانیه (دَه‌ها ترابایت در ساعت) با توان عملیاتی کافی برای اشباع شبکه دست پیدا کنند. این بسیار اهمیت دارد، چرا که آنچه که در اینجا موجب محدودیت در عملکرد می‌شود سامانه‌ی ذخیره‌سازی نیست، بلکه شبکه است.

علاوه بر این، از آنجایی که ملاحظات کلیدی زمانی برای پشتیبان‌گیری و بازیابی شامل زمان پردازش در برنامه، حذف تکرارها (Deduplication) یا فشرده‌سازی (Compression) و متّصل‌سازی مجدد داده‌ها هستند، خود برنامه ممکن است عامل محدودکننده در عملکرد کلی راه‌حل باشد. در نتیجه، معمولاً اختلاف حاشیه‌ای در توان بین اِچ‌دی‌دی‌ها و فلَش‌های اِس‌اِس‌دی‌ می‌تواند ناچیز باشد، به ویژه زمانی که هزینه نیز در تجزیه و تحلیل لحاظ شده باشد.

نتیجه‌گیری: انتخاب استفاده از اِچ‌دی‌دی‌ها یا اِس‌اِس‌دی‌ها به تعادل عملکرد در برابر هزینه بستگی دارد

بهینه‌سازی عملکرد برنامه‌های کاربردی در مقیاس پِتابایت می‌تواند به ملاحظات ظریف و در عین حال مهمی در انتخاب و تطبیق ذخیره‌ساز مناسب برای نوع تقاضا در آن برنامه بستگی داشته باشد. فلَش‌های چهارسطحی یک گزینه‌ی واحد برای همه‌ی نیازها نیستند. برای بارهای کاری حسّاس به تأخیر و متمرکز بر خواندن (Read-Intensive)، هزینه‌ی بالاتر آنها می‌تواند به یک سود معنادار برای کاربر نهایی ختم شود. با این حال، همیشه برای انواع دیگر حجم‌های کاری، از جمله پشتیبان‌گیری که در هسته‌ی اصلی راهبردهای امنیت داده‌ها و باج‌افزارهای جدید قرار دارند، مناسب نیستند.

با تطبیق الگوی عملکرد با مزایا و هزینه‌های رسانه‌ی ذخیره‌سازی، تیم‌های مرکز داده قادر هستند تعادل کاملی بین عملکرد و هزینه برقرار نمایند.

منتشر شده در وب‌سایت دیتا سنتر نالج Data Center Knowledge
توسط والی مک‌درمید (Wally MacDermid)، ۱۲ اوت ۲۰۲۳
برگردان توسط حامد معین‌فر
در شرکت مهندسین فناور پندار آریا – پنداریا