آیا شما نیز در پروژه‌های هوش مصنوعی خود مرتکب این اشتباهات مرگبار می‌شوید؟

عنوان اصلی مقاله: ?Are You Making These Deadly Mistakes With Your AI Projects
تاریخ انتشار و نویسنده: By Kathleen Walch – Aug 20, 2022
وب‌سایت منتشر کننده: Forbes
 لینک اصلی مقاله

از آنجا که در قلب هوش مصنوعی (AI) داده‌ها قرار گرفته‌اند، جای تعجب نیست که سامانه‌های هوش مصنوعی (AI) و یادگیری ماشینی (ML) برای «یادگیری»، نیازمند داده‌های با کیفیت و با مقدار کافی باشند. به طور کلّی، به حجم زیادی از داده‌های با کیفیت خوب، به‌ویژه برای رویکردهای «یادگیری با نظارت (Supervised learning)» نیاز است تا بتوان سامانه‌ی AI یا ML را به صورت صحیح آموزش داد. ممکن است مقدار دقیق داده‌ای که مورد نیاز است، بسته به الگوی هوش مصنوعی که پیاده‌سازی می‌کنید، الگوریتمی که استفاده می‌کنید و عوامل دیگری از جمله داده‌های داخلی در مقابل داده‌های بیرونی، متفاوت باشد. به عنوان مثال، شبکه‌های عصبی (Neural networks) به داده‌های زیادی برای آموزش‌یافتن نیاز دارند، در حالی که درخت‌های تصمیم (Decision trees) یا طبقه‌بندی‌کننده‌های بِیز (Bayesian classifiers) به داده‌های زیادی برای تولید نتایج با کیفیت بالا نیاز ندارند.

خُب، پس حالا ممکن است تصوّر کنید که هر چه حجم داده‌ها بیشتر بهتر، درست است؟ خیر، اشتباه فکر کرده‌اید. سازمان‌هایی با داده‌های بسیار زیاد، حتی در حدّ اِگزابایت، اکنون متوجه شده‌اند که بر خلاف انتظارشان حجم داده‌ی بیشتر راه‌حل مسأله‌ی آن‌ها نبوده است. در واقع، داده‌های بیشتر یعنی مشکلات بیشتر. هر چه قدر داده‌های بیشتری در اختیار داشته باشید، به همان میزان نیاز دارید تا داده‌های بیشتری را تمیز و آماده‌سازی کنید، داده‌های بیشتری را برچسب‌گذاری و مدیریت کنید، داده‌های بیشتری را ایمن‌سازی، محافظت و سوگیری‌زدایی کنید، و حتی موارد دیگر. به محض اینکه شما شروع به چند برابر کردن حجم داده‌ها نمایید، یک پروژه‌ی کوچک به سرعت تبدیل به پروژه‌ی بسیار بزرگ می‌شود. در واقع در بسیاری از اوقات، داده‌های زیاد پروژه‌ها را از بین می‌برند.

به وضوح، حلقه‌ی مفقوده از شناسایی یک مسأله‌ی تجاری تا جمع‌کردن داده‌ها برای حل آن مسأله، این است که تعیین کنید به کدام داده‌ها و واقعاً به چه مقدار از آنها نیاز دارید. شما به اندازه‌ی کافی داده نیاز دارید، امّا نه بیش از حدّ آن. چنانچه با برداشت از یک داستان کودکانه به آن «داده‌های دختر موطلایی (Goldilocks)» اطلاق می‌کنند: نه خیلی زیاد، نه خیلی کم، بلکه به اندازه. متأسفانه در اغلب موارد، سازمان‌ها بدون پرداختن به موضوع «درک اطلاعات»، وارد پروژه‌های هوش مصنوعی می‌شوند. پرسش‌هایی که لازم است سازمان‌ها به آنها پاسخ دهند عبارتند از اینکه داده‌ها کجا قرار دارند، چه مقدار از آنها را در اختیار دارند، در چه شرایطی هستند، چه ویژگی‌هایی از آن داده‌ها بیشترین اهمیت را دارند؛ همچنین موضوعاتی چون استفاده از داده‌های داخلی یا خارجی، چالش‌های دسترسی به داده‌ها، نیاز به تقویت داده‌های موجود، و سایر عوامل و سؤالات حیاتی. بدون پاسخ به این پرسش‌ها، پروژه‌های هوش مصنوعی می‌توانند به سرعت نابود شوند.

درک بهتر داده‌ها برای اینکه متوجه شوید به چه مقدار داده نیاز دارید، ابتدا باید درک کنید که داده‌ها چگونه و در کجای ساختار پروژه‌های هوش مصنوعی قرار می‌گیرند. یک روش بصری برای درک سطوح ارزش فزاینده‌ای که از داده‌ها به دست می‌آوریم، «هرم دانش» (DIKUW و یا به قولی دیگر DIKW) است که نشان می‌دهد چگونه بنیادی از داده‌ها، به ایجاد ارزش بیشتر در لایه‌های «اطلاعات»، «دانش»، «درک» و «خِرَد» کمک می‌کند.

هرم دانش DIKW (داده-اطلاعات-دانش-خِرَد) – ویکیپدیا      هرم دانش DIKUW (داده-اطلاعات-دانش-درک-خِرَد) – فوربس

با یک بنیاد محکم از داده‌ها، می‌توانید در لایه‌ی بعدی یعنی اطلاعات، بینش مضاعفی به دست آورید که به شما کمک می‌کند به سؤالات ابتدایی در مورد آن داده‌ها پاسخ دهید. زمانی که یک سری ارتباطات اوّلیه بین داده‌ها ایجاد نمودید تا بینش اطلاعاتی به دست آورید، آنگاه می‌توانید الگوهایی در آن اطلاعات بیابید که شما را قادر می‌سازد تا درک کنید که چگونه قطعات مختلف آن اطلاعات برای به دست‌آوردن بینش بیشتر به یکدیگر متصل شده‌اند. با بنا نهادن بر روی لایه‌ی دانش، سازمان‌ها قادر هستند ارزش حتی بیشتری از درک اینکه چرا آن الگوها اتفاق می‌افتند به دست آورند و درک درستی از الگوهای زیربنایی ارائه دهند. در نهایت، لایه‌ی خِرَد جایی است که می‌توانید با ارائه‌ی بینش در مورد علت و معلول تصمیم‌گیری‌های اطلاعاتی، بیشترین ارزش را از اطلاعات در آن کسب نمایید.

این آخرین موجی که از هوش مصنوعی به راه افتاده‌است، بیشتر بر روی لایه‌ی دانش متمرکز است، چرا که هدف یادگیری ماشینی ارائه‌ی بینش بر روی لایه‌ی اطلاعات برای شناسایی الگوها می‌باشد. متأسفانه، یادگیری ماشینی در لایه‌ی درک به محدودیت‌های خود نزدیک می‌شود، زیرا یافتن الگوها برای انجام استدلال کافی نیست. ما یادگیری ماشینی داریم، نه اما «استدلال ماشینی» لازم برای درک اینکه چرا الگوها اتفاق می‌افتند. این محدودیت را می‌توانید در عمل، زمانی که با یک «رُبات گفتگو» تعامل می‌کنید تجربه نمایید. در حالی که پردازش‌گرهای زبان‌های طبیعی (NLP) که با یادگیری ماشینی توانمندسازی شده‌اند در درک گفتار و هدف شما واقعاً خوب عمل می‌کنند، اما در درک‌کردن و استدلال‌کردن با محدودیت‌هایی مواجه هستند. برای مثال، اگر از یک دستیار صوتی بپرسید که آیا باید فردا بارانی بپوشید، متوجه نمی‌شود که از آب و هوا سؤال کرده‌اید. این یک انسان است که باید این بینش را در اختیار ماشین قرار دهد، چرا که دستیار صوتی نمی‌داند باران واقعاً چیست.

جلوگیری از شکست با حفظ آگاهی نسبت به داده‌ها

تجربه‌ی کلان‌داده‌ها (Big data) به ما آموخته است که چگونه با مقادیر زیادی از داده روبرو شویم. نه تنها اینکه چگونه آنها را ذخیره کنیم، بلکه چگونه تمام آن داده‌ها را پردازش، دستکاری و تجزیه و تحلیل کنیم. یادگیری ماشینی با توانایی کار با طیف گسترده‌ای از انواع مختلف داده‌های بدون ساختار، نیمه ساختاریافته و یا ساختاریافته‌ی جمع‌آوری‌شده توسط سازمان‌ها، ارزش بیشتری را برای ما به همراه داشته‌است. اتفاقاً، این آخرین موج AI در حقیقت یک موج تحلیلی مبتنی بر داده‌های بزرگ است.

اما دقیقاً به همین دلیل است که برخی از سازمان‌ها با این شدت در هوش مصنوعی شکست می‌خورند. به جای آنکه پروژه‌های هوش مصنوعی خود را با یک دیدگاه داده‌محور اجرا کنند، آنها بر جنبه‌های عملکردی آن تمرکز می‌کنند. سازمان‌ها برای در دست گرفتن مدیریت پروژه‌های هوش مصنوعی و اجتناب از اشتباهات مرگبار، نه تنها به درک بهتری از هوش مصنوعی و یادگیری ماشینی نیاز دارند، بلکه باید به «V»های کلان‌داده نیز توجه داشته‌باشند. این که چقدر داده در اختیار دارید به تنهایی اهمیت ندارد، بلکه ماهیت آن داده‌ها نیز مهم است. برخی از آن «V»های کلان‌داده عبارتند از:

  • حجم (Volume): آن مقدار و حجمی از کلان‌داده‌ها که در اختیار دارید.
  • سرعت (Velocity): آن سرعتی که کلان‌داده‌های شما در حال تغییر هستند. به‌کار بستن موفقیت‌آمیز هوش مصنوعی به معنای به‌کار بستن AI برای داده‌های با سرعت بالا است.
  • تنوّع (Variety): ممکن است داده‌ها در قالب‌های مختلفی از جمله داده‌های ساختاریافته مانند پایگاه‌های داده، داده‌های نیمه ساختاریافته مانند صورت‌حساب‌های فروش، و داده‌های بدون ساختار مانند ایمیل‌ها، فایل‌های تصویری و ویدئویی قرار گرفته باشند. سامانه‌های هوش مصنوعی موفق قادر هستند با این سطح از تنوّع داده‌ها سر و کار داشته باشند.
  • درستی (Veracity): این به کیفیت و دقت داده‌های شما و میزان اعتمادی که شما به داده‌هایتان دارید، اشاره می‌کند. زباله تحویل دهید، زباله تحویل می‌گیرید؛ به‌ویژه در سامانه‌های هوش مصنوعی مبتنی بر داده. به این ترتیب، سامانه‌های هوش مصنوعی موفق باید قادر باشند با تنوّع بالایی از کیفیت داده‌ها سر و کار داشته باشند.

با دهه‌ها تجربه در مدیریت پروژه‌های کلان‌داده، سازمان‌هایی که در هوش مصنوعی موفق هستند، در درجه‌ی اوّل در پروژه‌های کلان‌داده موفق بوده‌اند. آنهایی که در حال مشاهده‌ی نابودی پروژه‌های هوش مصنوعی خود هستند، کسانی هستند که به مسائل هوش مصنوعی خود با ذهنیت توسعه‌ی برنامه‌های کاربردی پرداخته‌اند.

مقدار زیاد داده‌های نادرست و کافی‌نبودن داده‌های صحیح، در حال نابودی پروژه‌های هوش مصنوعی هستند

در حالی که پروژه‌های هوش مصنوعی درست آغاز می‌شوند، فقدان داده‌های لازم و فقدان درک و سپس فقدان حل مسائل واقعی، پروژه‌های هوش مصنوعی را با نابودی مواجه ساخته‌است. سازمان‌ها همچنان در حال پیش‌روی بدون داشتن درک واقعی از داده‌های مورد نیاز خود و کیفیت آن داده‌ها هستند؛ این موضوع چالش‌های واقعی ایجاد کرده‌است.

یکی از دلایلی که سازمان‌ها این اشتباهات را در خصوص داده‌های خود مرتکب می‌شوند این است که برای انجام پروژه‌های هوش مصنوعی از هیچ رویکرد واقعی به غیر از روش‌های چابک (Agile) یا توسعه‌ی برنامه‌های کاربردی استفاده نمی‌کنند. با این حال، سازمان‌های موفق دریافته‌اند که بهره‌گیری از رویکردهای داده‌محورِ متمرکز بر درک داده‌ها را به‌عنوان یکی از اوّلین مراحل در رویکردهایشان در پروژه قرار دهند. روش‌شناسی CRISP-DM (فرایند استاندارد بین صنایع برای داده‌کاوی)، که بیش از دو دهه است که وجود دارد، درک داده‌ها را به عنوان اولین کاری که باید پس از تعیین نیازهای کسب‌وکار خود انجام دهید، مشخص می‌کند. با پایه قرار دادن روش CRISP-DM و افزودن روش‌های چابک به آن، روش‌شناسی مدیریت شناختی پروژه‌ها برای هوش مصنوعی (CPMAI)، درک داده‌ها در فاز دوی پیاده‌سازی را الزامی می‌داند. سایر رویکردهای موفق نیز به درک اطلاعات در اوایل پروژه تأکید دارند، زیرا بالاخره هر چه که باشد، پروژه‌های هوش مصنوعی پروژه‌های مبتنی بر داده‌ها هستند. و شما چگونه قادر خواهید بود یک پروژه‌ی موفق مبتنی بر داده‌ها را بنا بگذارید، بدون آنکه پروژه‌ی خود را با درک صحیح از داده‌ها اجرا نموده باشید؟ این قطعاً یک اشتباه مرگبار است که باید از آن اجتناب نمایید.

 

کاتلین والش یک شریک مدیریتی و تحلیل‌گر اصلی در شرکت تحقیق و مشاوره‌ی متمرکز بر هوش مصنوعی کاگنلیتکا (Cognilytica)، می‌باشد که بر کاربرد و استفاده از هوش مصنوعی (AI) در دو بخش عمومی و خصوصی متمرکز است. او همچنین میزبان پادکست محبوب AI Today بوده که یک پادکست برتر مرتبط با هوش مصنوعی است و موارد مختلف استفاده از هوش مصنوعی را برای دو بخش عمومی و خصوصی برجسته کرده و همچنین با کارشناسان مهمان در مورد موضوعات مرتبط با هوش مصنوعی مصاحبه می‌کند.


منتشر شده در وب‌سایت Forbes
برگردان توسط حامد معین‌فر
در شرکت مهندسین فناور پندار آریا – پنداریا