Data Archives

بایگانی برچسب برای: Data

هدایت چشم‌انداز در حال تغییر در امنیت مراکز داده

جولای 10, 2023/در مقالات تـرجمه شده/توسط pendaria

عنوان اصلی مقاله: Navigating The Changing Landscape In Data Center Security
تاریخ انتشار و نویسنده: by Tim Liu, Jun 28, 2023
وب‌سایت منتشر کننده: Forbes
لینک اصلی مقاله

گِتی (Getty)

این گونه به نظر می‌رسد که نرخ نوآوری‌ها در فناوری – و بدافزارها – سریع‌تر از هر زمان دیگر در حال رشد است. مدیران عامل (CEOs)، مدیران ارشد مالی (CFOs)، مدیران ارشد امنیت (CSOs) و سایر کسانی که مسؤول حفاظت از داده‌ها – یعنی باارزش‌ترین دارایی‌های یک شرکت – هستند، باید در رأس هرم پیشرفت‌های کلیدی باقی بمانند تا قادر باشند با چشم‌انداز در حال تغییر حوزه‌ی امنیت همگام شوند.

ما در حال مشاهده‌ی سه روند کلیدی در این حوزه هستیم که تلاش‌ها برای برقراری امنیت دسترسی در مراکز داده را در زمان حال و آینده شکل خواهند داد: ظهور هوش مصنوعی (AI) و یادگیری ماشین (ML)، پذیرش فزاینده‌ی اصول اعتماد صفر (Zero-trust principles) و نیاز به امنیتی که بتواند محیط‌های چنداَبری (Multi-cloud environments) را در بر بگیرد.

بهره‌گیری از هوش مصنوعی و یادگیری ماشینی برای افزایش امنیت

هوش مصنوعی و یادگیری ماشینی برای سال‌های متوالی در صنایع و سناریوهای متعدد مورد استفاده قرار گرفته‌اند، اما اخیراً با انتشار چَت‌جی‌پی‌تی (ChatGPT) و ابزارهای مصرفی مشابه دیگر، توانسته‌اند تخیّل عموم را به خود جلب نمایند. در حوزه‌ی امنیت مرکز داده، هوش مصنوعی و یادگیری ماشینی به ویژه برای تقویت سازوکارهای دفاعی، شناسایی ناهنجاری‌ها و شاخص‌های خطر و پاسخ‌دهی خودکار به تهدیدات نوظهور مناسب هستند.

به عنوان نمونه، اِی‌آی و اِم‌اِل قادر هستند با سرعتی بالا مجموعه‌ی داده‌های جمع‌آوری‌شده از گزارش‌ها (Logs) و جریان‌های دیگر اطلاعاتی را برای شناسایی تهدیدات احتمالی، حملات یا سوء‌استفاده از داده‌های شرکت و همچنین پیش‌بینی خطرات و آسیب‌پذیری‌های احتمالی تجزیه و تحلیل کنند. با استفاده از این شیوه‌ها می‌توان با خُرد کردن بسیار سریع حجم عظیمی از داده‌ها، به تیم‌های امنیتی کمک کرد که با توجه به مشغولیت‌های بیش از حد خود از بسیاری از کارهای دستی خسته‌کننده خلاص شوند.

علاوه بر این، آنها قادر هستند نرخ شناسایی کدهای مخرّب (Exploits) کوچک‌تر اما اغلب خطرناک‌تری مانند تهدیدات مستمر پیشرفته (APTs: Advanced persistent threats)، حملات روز صفر (Zero-day attacks) و تهدیدات داخلی را افزایش دهند. همچنین «جامعه‌ی بین‌الملل امنیت صنعتی» یا اَسیس اینترنشنال (ASIS International) خاطرنشان می‌کند: «این امکان وجود دارد که از ابزارهای هوش مصنوعی و یادگیری ماشینی برای کمک به تشخیص تهدیدها قبل از آنکه به بتوانند به سامانه‌ها آسیب برسانند و یا در جمع‌آوری داده‌های جرم‌شناسی برای کمک به واکنش در برابر حوادث و بازیابی از آنها استفاده کرد.»

با این حال، مشابه آنچه در همتایان هوش مصنوعی در رده‌ی مصرف‌کننده دیده می‌شود، ممکن است هوش مصنوعی و یادگیری ماشینی در امنیت مرکز داده نیز منجر به نتایج مثبت کاذب (False positives) شوند و در معرض سوگیری (Bias) قرار بگیرند. با «آموزش» زیرسیستم‌های هوش مصنوعی امنیتی (Security AI) در زمان برقراری تعاملات عادی ترافیکی در مرکز داده و نیز از طریق فنون دیگر، می‌توان دقت و اثربخشی را بهبود بخشید و آنها را با محیط، متناسب ساخت.

هوش مصنوعی و/یا یادگیری ماشینی در انواع فناوری‌های امنیت سایبری از جمله فایروال‌های نسل بعدی (Next-gen firewalls) و مدیریت اطلاعات و رویدادهای امنیتی (SIEM) و همچنین نمونه‌های جدیدتر معرفی‌شده در سکّوهای حفاظت از بارهای کاری ابری (Cloud workload protection) تعبیه شده‌اند.

کنترل کردن دسترسی: زِدتی‌اِن‌اِی (ZTNA)

در حالی که هوش مصنوعی و یادگیری ماشینی اغلب برای تقویت امنیت «در داخل» مراکز داده استفاده می‌شوند، باید توجه داشت که کنترل اینکه «چه کسی» و «چه چیزی» ممکن است به منابع حیاتی دسترسی داشته باشد نیز حداقل به همان اندازه اهمیت دارد، اگر که حتی اهمیت آن بیشتر نباشد. در نتیجه، مدیران مراکز داده به طور فزاینده‌ای در حال اتخاذ رویکرد دسترسی شبکه با اعتماد صفر یا زِدتی‌اِن‌اِی (ZTNA) هستند که در آن با هر کاربر، دستگاه و یا تعامل، با دید بالقوه مخرّب رفتار می‌شود.

با زِدتی‌اِن‌اِی، تمام تلاش‌ها برای برقراری دسترسی به شبکه تنها پس از پایان عملیات کامل احراز هویت (Authentication) و تجویز دسترسی (Authorization) در سطح چندین عامل تأیید می‌شوند، و حتی همین دسترسی نیز فقط برای منابع مشخص بر اساس آگاهی زمینه‌ای از آن درخواست و «اصول حداقل امتیاز» اعطاء می‌شود. این فرایند در طول نشست به طور مستمر ادامه پیدا می‌کند تا هرگونه تغییر در وضعیت امنیتی یا سایر شاخص‌های تهدید را شناسایی نماید.

اصول اعتماد صفر در تضاد مستقیم با شبکه‌های خصوصی مجازی (VPN) هستند که معمولاً دسترسی را به تمام یک شبکه یا زیرشبکه (Subnet) باز می‌کنند. همچنین وی‌پی‌اِن‌ها به گونه‌ای طراحی شده‌اند که فقط یک بار در شروع نشست هویت کاربران را احراز و مجوز صادر می‌کنند و اغلب از یک سامانه‌ی ورود یکپارچه (SSO: Single Sign-On) برای اعطای دسترسی به طیف گسترده‌ای از خدمات، برنامه‌ها و داده‌ها استفاده می‌کنند.

«دسترسی شبکه با اعتماد صفر» با فلسفه‌ای که برای خود دارد می‌تواند سطح در معرض حمله را کاهش دهد و حتی از حرکات عرضی تهدیدات در مرکز داده جلوگیری نماید؛ مشخصاً «شبکه‌های ربات‌های آلوده» یا بات‌نت‌ها (Botnets)، باج‌افزارها (Ransomwares) و تهدیدهای مشابه دیگر. همچنین قادر است میدان دید را در کل محیط‌های شبکه‌ی فیزیکی و ابری برای پاسخ سریع‌تر به تهدیدات و همچنین ارائه‌ی مدیریت یکپارچه و مقیاس‌پذیری آسان‌تر گسترش دهد.

با این حال، اتخاذ رویکرد زِدتی‌اِن‌اِی (ZTNA) می‌تواند نسبتاً گران باشد و پیکربندی و مدیریت آن نیز اغلب پیچیده است. علاوه بر این، بر محیط پیرامونی تمرکز دارد و معمولاً قادر نیست حملات یا ناهنجاری‌ها را تشخیص دهد. بنابراین همچنان فناوری‌های امنیتی مضاعفی همانند آنچه در بالا ذکر شدند، مورد نیاز خواهند بود.

ایمن‌سازی محیط‌های چنداَبری

سومین روند کلیدی که در امنیت مراکز داده شاهد آن هستیم، گسترش استقرارهای چنداَبری و چالش‌های حفاظت از داده‌ها و برنامه‌ها در این سکّوهای متنوع است. مدیران مراکز داده به طور فزاینده‌ای در حال اتخاذ راهبردهای چنداَبری در جهت افزایش تاب‌آوری و اطمینان‌پذیری داده‌ها و خدمات، اجتناب از وابستگی مالکانه به فروشندگان، کاهش هزینه‌ها و سایر ملاحظات هستند.

با این حال، مراکز داده‌ای که یک محیط چنداَبری را به کار می‌گیرند، سطح در معرض حمله‌ی بسیار وسیع‌تری را نیز در دسترس قرار می‌دهند که منجر به پیچیدگی در عملیات شبکه و امنیت سایبری می‌شود. بنابراین، حفظ میدان دید و کنترل گسترده به یک ملاحظه‌ی کلیدی در طراحی و مدیریت این معماری‌ها تبدیل می‌شود.

برای مثال، سیاست‌ها و کنترل‌های امنیتی باید در سطح تمام ابرها پیاده‌سازی شوند و باید به طور منظم نگهداری و به‌روز نگاه داشته شوند. اغلب، یک سکّوی متمرکز که به گره‌ها یا نودهای (Nodes) محلّی وصل است، قادر است میدان دید و قابلیت پایش و مدیریت مرکزی وضعیت امنیت سایبری را در سراسر محیط چنداَبری فراهم کند. همچنین ممکن است این خدمات یا دستگاه‌ها در جهت ساده‌سازی عملیات، امکاناتی برای خودکارسازی و هماهنگ‌سازی ارائه دهند و در عین حال خطر وقوع خطاهای انسانی را به حداقل برسانند.

علاوه بر این، رمزنگاری داده‌ها – چه در حالت ذخیره و چه در حالت انتقال – می‌تواند وضعیت امنیتی را بیشتر تقویت کند و زِدتی‌اِن‌اِی قادر است محیط پیرامونی را بدون توجه به موقعیت فیزیکی آن، امن سازد.

خلاصه

همچنان که فناوری‌های امنیتی مراکز داده و چشم‌انداز تهدیدات تکامل می‌یابند، این بسیار حیاتی است که با چالش‌های نوظهور سازگار شویم. در حال حاضر این سه روند کلیدی در صدر توجه بسیاری از مدیران ارشد امنیت و سایرینی که مسؤول امنیت مراکز داده و داده‌های حساس موجود در آنها هستند، قرار گرفته‌اند. این و سایر پیشرفت‌ها می‌توانند تاب‌آوری در برابر تهدیدات پیچیده و همچنین دسترسی‌های غیرمجاز یا سوء‌استفاده از داده‌ها را بهبود بخشند.

مدیران رده‌ی ارشد (C-suite) با آگاه‌ماندن از این روندها و سایر روندهای امنیتی، قادر هستند به تیم‌های فناوری خود در اجرای راهبردهای قوی امنیتی که با اهداف کسب‌وکار همسو هستند، کمک کنند.

تیموتی لیو (Timothy Liu) مدیر ارشد فناوری (CTO) و یکی از بنیان‌گذاران شبکه‌های هیل‌استون (Hillstone Networks) است . سوابق کامل اجرایی تیم لیو را در این آدرس بخوانید.

منتشر شده در وب‌سایت فوربس Forbes
توسط تیم لیو (Tim Liu)، ۲۸ ژوئن ۲۰۲۳
برگردان توسط حامد معین‌فر
در شرکت مهندسین فناور پندار آریا – پنداریا

پایان قانون مور چه معنایی برای صنعت مرکز داده دارد؟

ژوئن 12, 2023/در مقالات تـرجمه شده/توسط pendaria

عنوان اصلی مقاله: What Does the End of Moore’s Law Mean for the Data Center Industry?
تاریخ انتشار و نویسنده: by Christopher Tozzi, May 26, 2023
وب‌سایت منتشر کننده: Data Centre Dynamics Ltd (DCD)
لینک اصلی مقاله

شاید قانون مور (Moor’s Law) هنوز نمرده باشد، اما مطمئناً در بستر مرگ است. در اینجا به چگونگی تاثیر کاهش سرعت رشد قدرت محاسباتی بر صنعت مرکز داده می‌پردازیم.

چنانچه بی‌خبر بوده‌اید، اکنون بدانید که قانون مور – با این فرض که قدرت محاسباتی در طول زمان به طور پیوسته افزایش می‌یابد – دیگر مرده است، یا در بهترین حالت ممکن به آرامی در حال مرگ است. دیگر همچون دهه‌های گذشته ظرفیت پردازشی تراشه‌های رایانه‌ای با سرعت بالا در حال افزایش نیست.

این تغییر چه معنایی برای مراکز داده خواهد داشت؟ به طور بالقوه، به مقدار زیاد! برای مشاهده‌ی اینکه چگونه کُندشدن رشد توان محاسباتی می‌تواند بر صنعت مرکز داده تأثیرگذار باشد، به خواندن این نوشتار ادامه دهید.

قانون مور چیست و چرا مرده است؟

قانون مور که به پشتوانه‌ی گوردون مور (Gordon Moore) یکی از بنیان‌گذاران اینتل (Intel) که این مفهوم را در سال ۱۹۶۵ مطرح کرد نام‌گذاری شده است، این اصل را بیان می‌کند که تعداد ترانزیستورهایی که مهندسان قادر هستند در داخل تراشه‌های رایانه‌ای قرار دهند، تقریباً هر دو سال یک‌بار دو برابر می شود. با همین نسبت، قدرت محاسباتی تراشه‌های رده‌ی متوسط نیز باید با سرعتی مشابه افزایش یافته و هزینه‌هایی که کسب‌وکارها برای به‌دست‌آوردن توان پردازشی می‌پردازند کاهش یابد.

برای چندین دهه، قضیه‌ی مور در اکثر موارد دقیق بود. ظرفیت محاسباتی تقریباً با سرعتی که او پیش‌بینی کرده‌بود افزایش یافت.

اما این قاعده دیگر جاری نیست. اگرچه ممکن است برای این‌که بگوییم قانون مور قطعاً مرده است خیلی زود باشد، با این وجود دلایلی وجود دارد که باور داشته‌باشیم که اکنون به محدودیت‌های فیزیکی در سی‌پی‌یو‌های (CPUs) بر پایه‌ی سیلیکون برخورد کرده‌ایم. بدون یک جایگزین عملیاتی، مهندسان دیگر قادر نیستند قدرت محاسباتی تراشه‌ها را به همان سرعتی که در سال‌های گذشته انجام می‌دادند، افزایش دهند.

بدون تردید این امکان وجود دارد که افرادی با هوش بالا راه‌هایی را برای دور زدن محدودیت‌های فعلی سیلیکون‌ها پیدا کنند، یا اینکه بالاخره محاسبات کوانتومی عملیاتی شود و زمین بازی پیرامون توان‌های محاسباتی را به طور کامل تغییر دهد. اما در حال حاضر داده‌ها نشان می‌دهند که نرخ افزایش توان پردازشی در حال کاهش است، بدون هیچ نشانه‌ی روشنی مبنی بر اینکه این روند به زودی تغییر خواهد کرد.

قانون مور و مراکز داده

این واقعیت که ظرفیت‌های سی‌پی‌یوها با سرعت پیشین در حال رشد نیستند، می‌تواند چندین پیامد عمیق برای مراکز داده به همراه داشته باشد.

مراکز داده‌ی بیشتر

شاید واضح‌ترین تاثیر آن این باشد که چه بسا ما شاهد ساخت مراکز داده‌ی بیشتری خواهیم بود.

حتّی اگر قانون مور نیز درست باشد، به احتمال زیاد این اتفاق در هر صورت خواهد افتاد. تقاضا برای خدمات دیجیتال مدّت‌ها است که از افزایش توان پردازشی پیشی گرفته‌است، به این معنی که شرکت‌ها مجبور شده‌اند زیربنا و به قولی ردّپای زیرساخت‌های فناوری اطلاعات خود را گسترش دهند، حتّی با این وجود که توان پردازشی تک‌تک سرورها در این زیرساخت‌ها در حال افزایش بوده‌است.

اما در دنیای پَسا قانون مور، ما به مراکز داده‌ی به مراتب بیشتری نیاز خواهیم داشت. اگر سرورها دیگر سال به سال قدرتمندتر نشوند، تنها راه برای پاسخ‌گویی به افزایش تقاضای کاربران، استقرار سرورهای بیشتر خواهد بود که به معنای ساخت مراکز داده‌ی بیشتر است.

چالش‌های پایدارپذیری در مراکز داده

افزایش تعداد کل مراکز داده چالش‌های فعلی مرتبط با قابلیت پایدارپذیری در مراکز داده را تشدید خواهد کرد. نصب سرورهای بیشتر به معنی نرخ‌های بالاتر مصرف انرژی است، به خصوص اگر تعداد ترانزیستورها در هر تراشه ثابت بماند.

گمان می‌رود این بدان معنا باشد که جذابیت و مزیّت آن دسته از ارائه‌دهندگان خدمات مراکز داده که قادر هستند از منابع انرژی پاک بهره ببرند، بیشتر خواهد شد. تاثیر فناوری‌های نسل بعدی (Next-generation) مراکز داده‌، از جمله خنک‌کننده‌های غوطه‌ور (Immersion Cooling) نیز که قادر هستند ردّپای کربنی تأسیسات مراکز داده را کاهش دهند، به همین صورت خواهد بود.

شرکت‌های بیشتری وارد بازار تراشه‌ها خواهند شد

برای چندین دهه، تعداد نسبتاً کمی از سازندگان – یعنی اینتل و اِی‌اِم‌دی (AMD) – بر بازار تراشه‌های رایانه‌ای که در سرورهای مصرفی نصب می‌شدند تسلّط داشتند. این شرکت‌ها قادر بودند توان پردازشی را به‌طور پیوسته افزایش دهند که همین موضوع به سایر کسب‌وکارها انگیزه‌ی کمی برای ورود به بازی ساخت تراشه‌ها می‌داد.

اما این موضوع در سال‌های اخیر تغییر کرده‌است، زیرا شرکت‌هایی مانند اِی‌دبلیواِس (AWS) شروع به ساخت تراشه‌های اختصاصی خود کرده‌اند و چه بسا منسوخ‌شدن قانون مور چنین کسب‌وکارهایی را به سرمایه‌گذاری بیشتر در فناوری‌های طراحی و ساخت سی‌پی‌یوها سوق دهد. دلیل این امر این است که آنها به دنبال راه‌های جدیدتر و بهتری برای افزایش کارایی در تراشه‌ها هستند، به‌ویژه در زمینه‌ی موارد استفاده‌ای خاص که پردازنده‌ها را برای آن کارها مستقر می‌کنند.

به عبارت دیگر در دنیایی که سی‌پی‌یوهای عمومی بر خلاف گذشته سال به سال قدرتمندتر و ارزان‌تر نمی‌شوند، شرکت‌ها انگیزه‌ی بیشتری برای توسعه‌ی سی‌پی‌یوهای خاص خود پیدا می‌کنند که برای موارد استفاده‌ای که برایشان اهمیت دارد، بهینه‌سازی شده‌اند.

بهینه‌سازی بارهای کاری اهمیت پیدا خواهد کرد

کاهش بارهای کاری (Workload) مصرفی سی‌پی‌یوها همواره یک حرکت هوشمندانه برای شرکت‌هایی بوده است که می‌خواهند در هزینه‌های میزبانی خود صرفه‌جویی کنند. اما در دنیای پس از قانون مور، اهمیت بهینه‌سازی بارهای کاری بسیار بیشتر از اکنون خواهد شد.

این بدان معنا است که گمان می‌رود ما شاهد انتقال بارهای کاری بیشتری به کانتینرها باشیم. چه بسا بازار فین‌آپس (FinOps) و بهینه‌سازهای هزینه‌های ابری نیز رونق خواهند گرفت، زیرا کسب‌وکارهای بیشتری به دنبال راهبردهایی برای به‌حداکثررساندن کارایی بارهای کاری خود خواهند بود.

نتیجه‌گیری

صنعت مرکز داده در جهانی رشد کرد که در آن قدرت تراشه‌های رایانه‌ای همواره در حال افزایش و قیمت آنها در حال کاهش بوده‌است. اما آن جهان دیگر از دنیا رفته است! ما در عصر پس از قانون مور یا نزدیک به آن زندگی می کنیم.

چه بسا در نتیجه‌ی این تحوّل شاهد مراکز داده‌ی بیشتر، سی‌پی‌یوهای متنوّع‌تر با اهداف خاص و فشارهای بیشتر بر کسب‌وکارها برای بهینه‌سازی مراکز داده‌ی خود باشیم. ارائه‌دهندگان خدمات مراکز داده و مشتریان آنها باید خود را با وضعیت جدید وفق دهند، یا همچنان به این امید که در نهایت انقلاب کوانتومی به نتیجه خواهد رسید و به طرز مضحکی قدرت محاسباتی را ارزان خواهد کرد منتظر بمانند، اگرچه گمان می‌رود این یک راهبرد برنده نباشد.

منتشر شده در وب‌سایت Data Centre Dynamics Ltd (DCD)
۲۶ مه ۲۰۲۳، توسط کریستوفر توزی (Christopher Tozzi)
برگردان توسط حامد معین‌فر
در شرکت مهندسین فناور پندار آریا – پنداریا

آیا شما نیز در پروژه‌های هوش مصنوعی خود مرتکب این اشتباهات مرگبار می‌شوید؟

سپتامبر 15, 2022/در مقالات تـرجمه شده/توسط pendaria

عنوان اصلی مقاله: ?Are You Making These Deadly Mistakes With Your AI Projects
تاریخ انتشار و نویسنده: By Kathleen Walch – Aug 20, 2022
وب‌سایت منتشر کننده: Forbes
لینک اصلی مقاله

از آنجا که در قلب هوش مصنوعی (AI) داده‌ها قرار گرفته‌اند، جای تعجب نیست که سامانه‌های هوش مصنوعی (AI) و یادگیری ماشینی (ML) برای «یادگیری»، نیازمند داده‌های با کیفیت و با مقدار کافی باشند. به طور کلّی، به حجم زیادی از داده‌های با کیفیت خوب، به‌ویژه برای رویکردهای «یادگیری با نظارت (Supervised learning)» نیاز است تا بتوان سامانه‌ی AI یا ML را به صورت صحیح آموزش داد. ممکن است مقدار دقیق داده‌ای که مورد نیاز است، بسته به الگوی هوش مصنوعی که پیاده‌سازی می‌کنید، الگوریتمی که استفاده می‌کنید و عوامل دیگری از جمله داده‌های داخلی در مقابل داده‌های بیرونی، متفاوت باشد. به عنوان مثال، شبکه‌های عصبی (Neural networks) به داده‌های زیادی برای آموزش‌یافتن نیاز دارند، در حالی که درخت‌های تصمیم (Decision trees) یا طبقه‌بندی‌کننده‌های بِیز (Bayesian classifiers) به داده‌های زیادی برای تولید نتایج با کیفیت بالا نیاز ندارند.

خُب، پس حالا ممکن است تصوّر کنید که هر چه حجم داده‌ها بیشتر بهتر، درست است؟ خیر، اشتباه فکر کرده‌اید. سازمان‌هایی با داده‌های بسیار زیاد، حتی در حدّ اِگزابایت، اکنون متوجه شده‌اند که بر خلاف انتظارشان حجم داده‌ی بیشتر راه‌حل مسأله‌ی آن‌ها نبوده است. در واقع، داده‌های بیشتر یعنی مشکلات بیشتر. هر چه قدر داده‌های بیشتری در اختیار داشته باشید، به همان میزان نیاز دارید تا داده‌های بیشتری را تمیز و آماده‌سازی کنید، داده‌های بیشتری را برچسب‌گذاری و مدیریت کنید، داده‌های بیشتری را ایمن‌سازی، محافظت و سوگیری‌زدایی کنید، و حتی موارد دیگر. به محض اینکه شما شروع به چند برابر کردن حجم داده‌ها نمایید، یک پروژه‌ی کوچک به سرعت تبدیل به پروژه‌ی بسیار بزرگ می‌شود. در واقع در بسیاری از اوقات، داده‌های زیاد پروژه‌ها را از بین می‌برند.

به وضوح، حلقه‌ی مفقوده از شناسایی یک مسأله‌ی تجاری تا جمع‌کردن داده‌ها برای حل آن مسأله، این است که تعیین کنید به کدام داده‌ها و واقعاً به چه مقدار از آنها نیاز دارید. شما به اندازه‌ی کافی داده نیاز دارید، امّا نه بیش از حدّ آن. چنانچه با برداشت از یک داستان کودکانه به آن «داده‌های دختر موطلایی (Goldilocks)» اطلاق می‌کنند: نه خیلی زیاد، نه خیلی کم، بلکه به اندازه. متأسفانه در اغلب موارد، سازمان‌ها بدون پرداختن به موضوع «درک اطلاعات»، وارد پروژه‌های هوش مصنوعی می‌شوند. پرسش‌هایی که لازم است سازمان‌ها به آنها پاسخ دهند عبارتند از اینکه داده‌ها کجا قرار دارند، چه مقدار از آنها را در اختیار دارند، در چه شرایطی هستند، چه ویژگی‌هایی از آن داده‌ها بیشترین اهمیت را دارند؛ همچنین موضوعاتی چون استفاده از داده‌های داخلی یا خارجی، چالش‌های دسترسی به داده‌ها، نیاز به تقویت داده‌های موجود، و سایر عوامل و سؤالات حیاتی. بدون پاسخ به این پرسش‌ها، پروژه‌های هوش مصنوعی می‌توانند به سرعت نابود شوند.

درک بهتر داده‌ها برای اینکه متوجه شوید به چه مقدار داده نیاز دارید، ابتدا باید درک کنید که داده‌ها چگونه و در کجای ساختار پروژه‌های هوش مصنوعی قرار می‌گیرند. یک روش بصری برای درک سطوح ارزش فزاینده‌ای که از داده‌ها به دست می‌آوریم، «هرم دانش» (DIKUW و یا به قولی دیگر DIKW) است که نشان می‌دهد چگونه بنیادی از داده‌ها، به ایجاد ارزش بیشتر در لایه‌های «اطلاعات»، «دانش»، «درک» و «خِرَد» کمک می‌کند.

هرم دانش DIKW (داده-اطلاعات-دانش-خِرَد) – ویکیپدیا هرم دانش DIKUW (داده-اطلاعات-دانش-درک-خِرَد) – فوربس

با یک بنیاد محکم از داده‌ها، می‌توانید در لایه‌ی بعدی یعنی اطلاعات، بینش مضاعفی به دست آورید که به شما کمک می‌کند به سؤالات ابتدایی در مورد آن داده‌ها پاسخ دهید. زمانی که یک سری ارتباطات اوّلیه بین داده‌ها ایجاد نمودید تا بینش اطلاعاتی به دست آورید، آنگاه می‌توانید الگوهایی در آن اطلاعات بیابید که شما را قادر می‌سازد تا درک کنید که چگونه قطعات مختلف آن اطلاعات برای به دست‌آوردن بینش بیشتر به یکدیگر متصل شده‌اند. با بنا نهادن بر روی لایه‌ی دانش، سازمان‌ها قادر هستند ارزش حتی بیشتری از درک اینکه چرا آن الگوها اتفاق می‌افتند به دست آورند و درک درستی از الگوهای زیربنایی ارائه دهند. در نهایت، لایه‌ی خِرَد جایی است که می‌توانید با ارائه‌ی بینش در مورد علت و معلول تصمیم‌گیری‌های اطلاعاتی، بیشترین ارزش را از اطلاعات در آن کسب نمایید.

این آخرین موجی که از هوش مصنوعی به راه افتاده‌است، بیشتر بر روی لایه‌ی دانش متمرکز است، چرا که هدف یادگیری ماشینی ارائه‌ی بینش بر روی لایه‌ی اطلاعات برای شناسایی الگوها می‌باشد. متأسفانه، یادگیری ماشینی در لایه‌ی درک به محدودیت‌های خود نزدیک می‌شود، زیرا یافتن الگوها برای انجام استدلال کافی نیست. ما یادگیری ماشینی داریم، نه اما «استدلال ماشینی» لازم برای درک اینکه چرا الگوها اتفاق می‌افتند. این محدودیت را می‌توانید در عمل، زمانی که با یک «رُبات گفتگو» تعامل می‌کنید تجربه نمایید. در حالی که پردازش‌گرهای زبان‌های طبیعی (NLP) که با یادگیری ماشینی توانمندسازی شده‌اند در درک گفتار و هدف شما واقعاً خوب عمل می‌کنند، اما در درک‌کردن و استدلال‌کردن با محدودیت‌هایی مواجه هستند. برای مثال، اگر از یک دستیار صوتی بپرسید که آیا باید فردا بارانی بپوشید، متوجه نمی‌شود که از آب و هوا سؤال کرده‌اید. این یک انسان است که باید این بینش را در اختیار ماشین قرار دهد، چرا که دستیار صوتی نمی‌داند باران واقعاً چیست.

جلوگیری از شکست با حفظ آگاهی نسبت به داده‌ها

تجربه‌ی کلان‌داده‌ها (Big data) به ما آموخته است که چگونه با مقادیر زیادی از داده روبرو شویم. نه تنها اینکه چگونه آنها را ذخیره کنیم، بلکه چگونه تمام آن داده‌ها را پردازش، دستکاری و تجزیه و تحلیل کنیم. یادگیری ماشینی با توانایی کار با طیف گسترده‌ای از انواع مختلف داده‌های بدون ساختار، نیمه ساختاریافته و یا ساختاریافته‌ی جمع‌آوری‌شده توسط سازمان‌ها، ارزش بیشتری را برای ما به همراه داشته‌است. اتفاقاً، این آخرین موج AI در حقیقت یک موج تحلیلی مبتنی بر داده‌های بزرگ است.

اما دقیقاً به همین دلیل است که برخی از سازمان‌ها با این شدت در هوش مصنوعی شکست می‌خورند. به جای آنکه پروژه‌های هوش مصنوعی خود را با یک دیدگاه داده‌محور اجرا کنند، آنها بر جنبه‌های عملکردی آن تمرکز می‌کنند. سازمان‌ها برای در دست گرفتن مدیریت پروژه‌های هوش مصنوعی و اجتناب از اشتباهات مرگبار، نه تنها به درک بهتری از هوش مصنوعی و یادگیری ماشینی نیاز دارند، بلکه باید به «V»های کلان‌داده نیز توجه داشته‌باشند. این که چقدر داده در اختیار دارید به تنهایی اهمیت ندارد، بلکه ماهیت آن داده‌ها نیز مهم است. برخی از آن «V»های کلان‌داده عبارتند از:

حجم (Volume): آن مقدار و حجمی از کلان‌داده‌ها که در اختیار دارید.
سرعت (Velocity): آن سرعتی که کلان‌داده‌های شما در حال تغییر هستند. به‌کار بستن موفقیت‌آمیز هوش مصنوعی به معنای به‌کار بستن AI برای داده‌های با سرعت بالا است.
تنوّع (Variety): ممکن است داده‌ها در قالب‌های مختلفی از جمله داده‌های ساختاریافته مانند پایگاه‌های داده، داده‌های نیمه ساختاریافته مانند صورت‌حساب‌های فروش، و داده‌های بدون ساختار مانند ایمیل‌ها، فایل‌های تصویری و ویدئویی قرار گرفته باشند. سامانه‌های هوش مصنوعی موفق قادر هستند با این سطح از تنوّع داده‌ها سر و کار داشته باشند.
درستی (Veracity): این به کیفیت و دقت داده‌های شما و میزان اعتمادی که شما به داده‌هایتان دارید، اشاره می‌کند. زباله تحویل دهید، زباله تحویل می‌گیرید؛ به‌ویژه در سامانه‌های هوش مصنوعی مبتنی بر داده. به این ترتیب، سامانه‌های هوش مصنوعی موفق باید قادر باشند با تنوّع بالایی از کیفیت داده‌ها سر و کار داشته باشند.

با دهه‌ها تجربه در مدیریت پروژه‌های کلان‌داده، سازمان‌هایی که در هوش مصنوعی موفق هستند، در درجه‌ی اوّل در پروژه‌های کلان‌داده موفق بوده‌اند. آنهایی که در حال مشاهده‌ی نابودی پروژه‌های هوش مصنوعی خود هستند، کسانی هستند که به مسائل هوش مصنوعی خود با ذهنیت توسعه‌ی برنامه‌های کاربردی پرداخته‌اند.

مقدار زیاد داده‌های نادرست و کافی‌نبودن داده‌های صحیح، در حال نابودی پروژه‌های هوش مصنوعی هستند

در حالی که پروژه‌های هوش مصنوعی درست آغاز می‌شوند، فقدان داده‌های لازم و فقدان درک و سپس فقدان حل مسائل واقعی، پروژه‌های هوش مصنوعی را با نابودی مواجه ساخته‌است. سازمان‌ها همچنان در حال پیش‌روی بدون داشتن درک واقعی از داده‌های مورد نیاز خود و کیفیت آن داده‌ها هستند؛ این موضوع چالش‌های واقعی ایجاد کرده‌است.

یکی از دلایلی که سازمان‌ها این اشتباهات را در خصوص داده‌های خود مرتکب می‌شوند این است که برای انجام پروژه‌های هوش مصنوعی از هیچ رویکرد واقعی به غیر از روش‌های چابک (Agile) یا توسعه‌ی برنامه‌های کاربردی استفاده نمی‌کنند. با این حال، سازمان‌های موفق دریافته‌اند که بهره‌گیری از رویکردهای داده‌محورِ متمرکز بر درک داده‌ها را به‌عنوان یکی از اوّلین مراحل در رویکردهایشان در پروژه قرار دهند. روش‌شناسی CRISP-DM (فرایند استاندارد بین صنایع برای داده‌کاوی)، که بیش از دو دهه است که وجود دارد، درک داده‌ها را به عنوان اولین کاری که باید پس از تعیین نیازهای کسب‌وکار خود انجام دهید، مشخص می‌کند. با پایه قرار دادن روش CRISP-DM و افزودن روش‌های چابک به آن، روش‌شناسی مدیریت شناختی پروژه‌ها برای هوش مصنوعی (CPMAI)، درک داده‌ها در فاز دوی پیاده‌سازی را الزامی می‌داند. سایر رویکردهای موفق نیز به درک اطلاعات در اوایل پروژه تأکید دارند، زیرا بالاخره هر چه که باشد، پروژه‌های هوش مصنوعی پروژه‌های مبتنی بر داده‌ها هستند. و شما چگونه قادر خواهید بود یک پروژه‌ی موفق مبتنی بر داده‌ها را بنا بگذارید، بدون آنکه پروژه‌ی خود را با درک صحیح از داده‌ها اجرا نموده باشید؟ این قطعاً یک اشتباه مرگبار است که باید از آن اجتناب نمایید.

کاتلین والش یک شریک مدیریتی و تحلیل‌گر اصلی در شرکت تحقیق و مشاوره‌ی متمرکز بر هوش مصنوعی کاگنلیتکا (Cognilytica)، می‌باشد که بر کاربرد و استفاده از هوش مصنوعی (AI) در دو بخش عمومی و خصوصی متمرکز است. او همچنین میزبان پادکست محبوب AI Today بوده که یک پادکست برتر مرتبط با هوش مصنوعی است و موارد مختلف استفاده از هوش مصنوعی را برای دو بخش عمومی و خصوصی برجسته کرده و همچنین با کارشناسان مهمان در مورد موضوعات مرتبط با هوش مصنوعی مصاحبه می‌کند.

منتشر شده در وب‌سایت Forbes
برگردان توسط حامد معین‌فر
در شرکت مهندسین فناور پندار آریا – پنداریا