خانه / هوش مصنوعی / پردازش زبان طبیعی / یادگیری عمیق چیست و چه کاربردهایی دارد؟

یادگیری عمیق چیست و چه کاربردهایی دارد؟

یادگیری عمیق – Deep Learning
یادگیری عمیق یا Deep learning (که به عنوان یادگیری ساختارمند عمیق یا یادگیری سلسله وار هم شناخته میشود) بخشی از خانواده بزرگتر روش های یادگیریِ مبتنی بر نمایش داده های یادگیری است و در مقابل الگوریتم های مختص کار قرار دارد. یادگیری ممکن است نظارت شده، نیمه نظارت شده یا بدون نظارت باشد.

معماری های یادگیری عمیق همچون شبکه های عصبی عمیق، شبکه های باور عمیق و شبکه های عصبی بازگشتی در زمینه هایی از جمله بینایی رایانه، شناسایی گفتار، پردازش زبان طبیعی، شناسایی صوت، فیلترینگ شبکه های اجتماعی، ترجمه ماشینی، بیوانفورماتیک، طراحی دارو و برنامه بازی های تخته ای استفاده شده اند که در آن ها نتایجی قابل قیاس با متخصصین انسانی و بعضاً برتر از آن ها ارائه کرده اند.

مدل های یادگیری عمیق به شکلی نه چندان روشن از الگوهای پردازش اطلاعاتی و ارتباطی در سیستم های عصبی زیستی الهام گرفته شده اند اما تفاوت های مختلفی در ویژگی های ساختاری و عملکردی با مغزهای زیستی (به ویژه مغز انسان) دارند، که باعث عدم همخوانی آنها با شواهد علوم اعصاب میشود.

تعریف یادگیری عمیق
یادگیری عمیق، دسته ای از الگوریتم های یادگیری ماشین است که:

  • از آبشاری از لایه های چندگانهِ واحدهای پردازش غیرخطی برای استخراج و تبدیل ویژگی استفاده میکنند. هر لایه تالی، از خروجی لایه قبل به عنوان ورودی استفاده میکند.
  • به شکلی نظارت شده (مثل طبقه بندی) و یا بدون نظارت (مثل تحلیل الگو) یادگیری میکنند.
  • لایه های چندگانه ای از نمایش را یادگیری میکنند که متناظر با سطوح مختلفی از انتزاعات هستند؛ این سطوح سلسله ای از مفاهیم را تشکیل میدهند.

دورنما
بیشتر مدل های یادگیری عمیق مدرن، بر شبکه های عصبی مصنوعی مبتنی هستند، گرچه ممکن است شامل فرمول های گزاره ای یا متغیرهای پنهانِ سازمان یافتهِ لایه ای در مدل های مولد همچون گره ها در شبکه های باور عمیق و ماشین های بولتزمن عمیق نیز باشند.

در یادگیری عمیق، هر سطح یاد میگیرد که داده های ورودی خود را به یک نمایش اندکی مجردتر و ترکیبی تر تبدیل کند. در یک کاربرد شناسایی تصویر، ورودی خام میتواند ماتریسی از پیکسل ها باشد؛ اولین لایه نمایشی ممکن است پیکسل ها را مجرد کند و لبه ها را کدگذاری کند؛ لایه دوم ممکن است چینش لبه ها را بسازد و کدگذاری کند؛ لایه سوم ممکن است بینی و چشم ها را کدگذاری کند؛ و لایه چهارم ممکن است تشخیص دهد که تصویر، شامل یک چهره است. چیزی که اهمیت دارد، این است که یک پروسه یادگیری عمیق، به خودی خود میتواند یاد بگیرد که کدام ویژگی ها بطور بهینه در کدام سطح قرار دهد. (البته، این مطلب نیاز به تنظیم دستی را کاملاً از بین نمیبرد؛ برای مثال، تعداد متغیر لایه ها و اندازه لایه میتواند درجات انتزاعی مختلفی ایجاد کند.)

“عمیق” در “یادگیری عمیق” به تعداد لایه هایی که داده ها از آنها منتقل میشوند اشاره دارد. بطور دقیق تر، سیستم های یادگیری عمیق، دارای یک عمق اساسی برای مسیر تخصیص اعتبار (CAP) هستند. CAP زنجیره تبدیلات از ورودی به خروجی است. CAP ها ارتباطات علّی بالقوه میان ورودی و خروجی را توصیف میکنند. برای یک شبکه عصبی پیشخور، عمق CAP ها، همان عمق شبکه و برابر با تعداد لایه های پنهان بعلاوه یک است (زیرا لایه خروجی نیز پامترسازی میشود). برای شبکه های عصبی بازگشتی، که در آن ها ممکن است یک سیگنال بیشتر از یکبار در یک لایه منتشر شود، عمق CAP بطور بالقوه بینهایت است. هیچ آستانه مشخص جهانی برای جداسازی یادگیری عمیق و یادگیری کم عمق وجود ندارد، اما بیشتر محققان توافق دارند که یادگیری عمیق دارای عمق CAP بیشتر از ۲ است. نشان داده شده است که CAP با عمق ۲ یک تقریب زن سراسری است، به این معنا که میتواند هر تابعی را تقلید کند. لایه های بیشتر، فراتر از این به توانایی تقریب زنی تابعی شبکه اضافه نمیکنند. لایه های اضافه تر در یادگیری ویژگی ها کمک میکنند.

معماری های یادگیری عمیق را اغلب با یک روش لایه به لایه حریصانه میسازند. یادگیری عمیق به بازگشایی این انتزاعات و انتخاب ویژگی هایی که عملکرد را بهبود میدهند کمک میکند.ویژگی ها، عملکرد را بهبود میدهند.

برای کارهای یادگیری نظارت شده، روش های یادگیری عمیق با انتقال داده ها به نمایش های میانی فشرده، مشابه مولفه های اصلی، نیاز به مهندسی ویژگی را برطرف میکنند، و ساختارهایی لایه ای بدست میدهند که افزونگی را از نمایش حذف میکنند.

الگوریتم های یادگیری عمیق را میتوان روی فعالیت های نظارت نشده اِعمال کرد. این موضوع اهمیت دارد زیرا داده های برچسب گذاری نشده بیشتر از داده های برچسب گذاری شده هستند. مثالهایی از ساختارهای عمیقی که میتوان آنها را به شکلی نظارت نشده آموزش داد، فشرده گرهای تاریخچه عصبی و شبکه های باور عمیق هستند.

تفسیرها
شبکه های عصبی عمیق معمولاً از لحاظ قضیه تقریب سراسری یا استنباط آماری تفسیر میشوند.

قضیه تقریب سراسری، درباره ظرفیت شبکه های عصبی پیشخور با یک لایه پنهان با اندازه متناهی برای تقریب توابع پیوسته است. در ۱۹۸۹ اولین اثبات این قضیه توسط جورج سیبنکو برای توابع فعالسازی سیگموید منتشر شد و در ۱۹۹۱ توسط کورت هورنیک به معماری های چندلایه پیشخور تعمیم داده شد.

تفسیر احتمالاتی، از زمینه یادگیری ماشین استنتاج میشود. این تفسیر شامل مفاهیم استنباطی و نیز بهینه سازی برای یادگیری و آزمایش، به ترتیب مرتبط با برازش و تعمیم است. بطو صریح تر، تفسیر احتمالاتی، غیرخطی بودن فعالسازی را به عنوان یک تابع توزیع تجمعی در نظر میگیرد. تفسیر احتمالاتی، منجر به معرفی “بیرون انداز” به عنوان منظم ساز در شبکه های عصبی شد. تفسیر احتمالاتی توسط محققینی از جمله هُپفیلد، ویدرو و نارِندرا معرفی شد و در بررسی هایی مثل بررسی بیشاپ به محبوبیت رسید.

تاریخچه یادگیری عمیق
عبارت یادگیری عمیق توسط رینا دچر در سال ۱۹۸۶ به جامعه یادگیری ماشین، و توسط ایگور آیزنبرگ در سال ۲۰۰۰ در شبکه های عصبی مصنوعی در چارچوب نورون های آستانه ایِ بولی معرفی شد.

اولین الگوریتم موثر و عمومی یادگیری برای پرسپترون های چندلایه، پیشخور، عمیق و نظارت شده توسط الکسی ایواخنکو و لاپا در ۱۹۶۵ منتشر شد. مقاله ای در ۱۹۷۱، یک شبکه عمیق با ۸ لایه را توصیف کرد که توسط الگوریتم روش گروهی مهار داده ها­ آموزش داده میشد.

سایر معماری های موثر یادگیری عمیق، به ویژه آنهایی که برای بینایی رایانه ساخته شدند، با نئوکاگنیترونِ معرفی شده توسط کونیهیکو فوکوشیما در ۱۹۸۰ آغاز شدند. در ۱۹۸۹، یان لیکان و دیگران الگوریتم نشر عقبگرد را، که از ۱۹۷۰ به عنوان حالت معکوس مشتق گیری اوتومات وجود داشت، روی یک شبکه عصبی عمیق با هدف شناسایی کدهای پستی دست نویس روی نامه استفاده کردند. گرچه این الگوریتم کار میکرد، اما آموزش آن ۳ روز طول میکشید.

تا سال ۱۹۹۱ چنین سیستم هایی برای شناسایی ارقام دست نویسِ منفردِ ۲ بعدی استفاده میشدند، در حالیکه شناسایی اشیاء ۳ بعدی با انطباق تصاویر دو بعدی با یک مدل شیء سه بعدیِ دست ساز انجام میشد. وِنگ و دیگران اظهار کردند که مغز انسان از یک مدل سه بعدی یکپارچه استفاده نمیکند و در ۱۹۹۲ کرسپترون (Cresceptron) را منتشر نمودند، که روشی برای انجام شناسایی اشیاء سه بعدی در صحنه های درهم ریخته بود. از آنجا که این روش از تصاویر طبیعی استفاده میکرد، کرسپترون سرآغازی برای یادگیری بصریِ چندمنظوره برای جهان های سه بعدیِ طبیعی بود. کرسپترون، آبشاری از لایه ها، شبیه نئوکاگنیترون است. اما در حالیکه نئوکاگنیترون برای ادغام دستی ویژگی ها به برنامه نویس انسان نیاز داشت، کرسپترون تعداد نامحدودی ویژگی را در هر لایه بدون نظارت یادگیری میکرد، که در آن هر ویژگی با یک هسته پیچشی نمایش داده میشد. کرسپترون هر شیء یادگیری شده را با تحلیل پسین در شبکه، از یک صحنه درهم ریخته جدا میکرد. بیشینه تجمع، که امروزه اغلب توسط شبکه های عصبی عمیق اتخاذ میشود (مثلاً آزمایش های ImageNet)، اولین بار در کرسپترون به جهت کاهش وضوح مکانی با ضریب (۲*۲) به ۱ در آبشار برای تعمیم دهی بهتر استفاده شد.

در ۱۹۹۴، آندره دی کاروالو، همراه مایک فِرهارست و دوید بیسِت، نتایجی عملی از یک شبکه عصبی بولی چندلایه، که به عنوان شبکه عصبی بی وزن هم شناخته میشود، منتشر کردند که از یک مُدول شبکه عصبیِ استخراج ویژگی خودسازمانده سه لایه (SOFT) همراه با یک مدول شبکه عصبی طبقه بندی چندلایه تشکیل میشد که بطور مستقل آموزش داده میشدند. هر لایه در مدول استخراج ویژگی، ویژگی ها را با پیچیدگی افزایشی در مقایسه با لایه قبلی استخراج میکرد.

در ۱۹۹۵، برندن بری نشان داد که (طی دو روز) آموزش شبکه ای شامل شش لایه کاملاً متصل و چند صد واحد پنهان توسط الگوریتم بیدار-خواب ممکن است، که با همکاری پیتر دایان و هینتون توسعه داده شده بود. فاکتورهای زیادی باعث پایین آمدن سرعت میشوند، از جمله مسئله گرادیان صفرشونده که در ۱۹۹۱ توسط سپ هوچریتر تحلیل شد.

مدل های ساده تر که از ویژگی های دست ساز مختص کار استفاده میکنند مثل فیلترهای گابور و ماشین های بردار پشتیبانی (SVM)، به دلیل هزینه محاسباتی ANNها و عدم درک اتصالات شبکه های زیستی مغز، در دهه ۱۹۹۰ و ۲۰۰۰ انتخابی محبوب بودند.

هم یادگیری عمیق (مثل تورهای بازگشتی) و هم یادگیری کم عمق ANNها سالیان زیادی بررسی شده اند. این روش ها هرگز ازتکنولوژی مدل آمیخته/ مدل مارکوف پنهانِ گوسیِ دست سازِ درونی غیریکنواخت (GMM-HMM) مبتنی بر مدل های مولد گفتار که متمایزگرایانه آموزش داده شده اند، عملکرد بهتری نداشتند. مشکلات کلیدی، از جمله صفر شدن گرادیان و ساختار همبستگی زمانی ضعیف در مدل های پیشگوی عصبی، مورد تحلیل قرار گرفته اند. مشکلات دیگر، عدم وجود داده های آموزشی و قدرت محاسباتی محدود بودند.

بیشتر محققانِ شناسایی گفتار، از تورهای عصبی به مدلسازی تمایزگرایانه روی آوردند. یک استثنا در این زمینه، موسسه اس آر آی اینترنشنال در اواخر دهه ۱۹۹۰ بود. اس آر ای که توسط ان اس ای و دارپا دولت امریکا بنیان گذاری شده بود، شبکه های عصبی عمیق را در شناسایی متکلم و گفتار بررسی میکرد. تیم شناسایی متکلم هِک اولین موفقیت بزرگ را با شبکه های عصبی عمیق در پردازش گفتار در ارزیابی ۱۹۹۸ شناسایی متکلمِ موسسه ملی استانداردها و فناوری بدست آورد. گرچه اس آر آی با شبکه های عصبی عمیق در شناسایی متکلم توفیق کسب کرد، اما در کسب موفقیت مشابهی در شناسایی گفتار ناموفق بود. اصلِ بالا بردن ویژگی های “خام” نسبت به بهینه سازی دست ساز، اولین بار با موفقیت در معماری خودرمزنگار عمیق روی اسپکتوگرام “خام” یا ویژگی های فیلتر بانک خطی در اواخر دهه ۱۹۹۰ بررسی شد، که برتری آن را نسبت به ویژگی های مل-کِپسترال که شامل سطوح ثابت تبدیل از اسپکتوگرام هستند نشان داد. ویژگی های خام گفتار و شکل موج ها، بعداً نتایج مقیاس بزرگ فوق العاده ای تولید کردند.

بسیاری از جنبه های شناسایی گفتار تحت سیطره یک روش یادگیری عمیق به نام حافظه کوتاه مدت بلند (LSTM) قرار گرفتند که یک شبکه عصبی بازگشتی بود و هاچریتر و اشمیدهوبر در ۱۹۹۷ آن را منتشر کردند. RNN های LSTM از مسئله گرادیان صفر شونده اجتناب میکنند و میتوانند کارهای “یادگیری بسیار عمیقی” را یاد بگیرند که نیازمند خاطرات اتفاقاتی هستند که هزاران گام زمانی گسسته قبل تر افتادند، چیزی که برای گفتار اهمیت دارد. در سال ۲۰۰۳، LSTM رقابت خود را با گفتارشناس های سنتی در برخی کارهای خاص شروع کرد و بعداً در توده های LSTM RNN با طبقه بندی زمانی اتصالگر (CTC) ترکیب شد. در ۲۰۱۵، طبق گزارش ها، شناسایی گفتار گوگل بهبود عملکردی ۴۹% را از طریق LSTM آموزش دیده با CTC تجربه کرد، که از طریق جستجوی صدایی گوگل (Google Voice Search) فراهم شده بود.

در سال ۲۰۰۶، مقالاتی از جئوف هینتون، روسلان سالاخوتدینوف، اُسیندرو و تِه نشان دادند چگونه یک شبکه عصبی پُرلایهِ پیشخور را با در نظرگرفتن نوبتیِ هر لایه به عنوان یک ماشین بولتزمن محدودِ بی نظارت، و سپس تنظیم کردن آن با استفاده از پس-نشر نظارت شده، میتوان به شکلی اثربخش، لایه به لایه پیش-آموزش داد. این مقالات برای تورهای باور عمیق به یادگیری رجوع داشتند.

یادگیری عمیق، بخشی از سیستم های مدرن در رشته های مختلف است، به ویژه بینایی رایانه و شناسایی گفتار خودکار (ASR). نتایج آزمایش های ارزیابی متعارف مثل TIMIT (ASR) و MNIST (طبقه بندی تصویر)، و نیز گستره وسیعی از فعالیت های شناسایی گفتار با واژگان زیاد، بهبود مستمری داشته اند. شبکه های عصبی پیچشی (CNN) برای ASR، توسط CTC جایگزین شدند اما LSTM در بینایی رایانه موفق تر است.

تاثیر یادگیری عمیق در صنعت در اوایل سال های ۲۰۰۰ آغاز شد که به گفته یان لیکان، CNN ها حدود ۱۰% تا ۲۰% تمام چک های نوشته شده در امریکا را پردازش میکردند. کاربردهای صنعتی یادگیری عمیق در شناسایی گفتارِ مقیاس بزرگ حدود سال ۲۰۱۰ شروع شد.

محدودیت های مدل های مولد عمیق گفتار و امکان عَملی شدن تورهای عصبی عمیق (DNN) با داشتن سخت افزارهای قوی تر و مجموعه داده های بزرگتر، انگیزه ایجاد کارگاه آموزشی NIPS 2009 راجع به یادگیری عمیق برای شناسایی گفتار بود. باور بر این بود که پیش-آموزش DNN ها با استفاده از مدل های مولد تورهای باور عمیق (DBN)، بر محدودیت های اصلی تورهای عصبی فائق می آید. با این حال، معلوم شد که جایگزینی پیش-آموزش با مقدار زیادی از داده های آموزشی برای پس-نشرِ سرراست هنگام استفاده از DNN ها با لایه های خروجی بزرگِ وابسته به زمینه، نرخ خطایی بسیار پایینتر از مدل ادغامی مدرن گوسی (GMM) یا مدل مارکوف پنهان (HMM) و نیز سیستم های مدل مولد-بنیان پیشرفته تر بدست میدهد. طبیعتِ خطاهای شناسایی که توسط این دو نوع سیستم تولید میشد مشخصاً متفاوت بود، و نگرشی تکنیکی راجع به چگونگی ادغام یادگیری عمیق با سامانه بسیار موثر و سریع کدگشایی گفتارِ مورد استفاده در اکثر سیستم های شناسایی گفتار، فراهم مینمود. یک تحلیل حدود سالهای ۲۰۰۹-۲۰۱۰، GMM (و سایر مدل های گفتار تولیدی) را از مدل های DNN متمایز کرد و موجب تشویق سرمایه گذاری صنعتیِ زودهنگام در یادگیری عمیق برای شناسایی گفتار شد، و در نهایت منجر استفاده گسترده و فراگیر در آن صنعت شد. این تحلیل با نمایش عملکرد قابل مقایسه میان DNN های تمایزگر و مدل های مولد (کمتر از ۱٫۵% نرخ خطا) انجام شد.

در سال ۲۰۱۰ محققین با اتخاذ لایه های خروجی بزرگِ DNN برپایه وضعیت های HMM وابسته به زمینه که توسط درخت های تصمیم ساخته شده بودند، یادگیری عمیق را از TIMIT به شناسایی گفتار با واژه نامه بزرگ، گسترش دادند.

پیشرفت های سخت افزاری موجب احیاء علاقه به این زمینه شد. در سال ۲۰۰۹، اِن ویدیا (Nvidia) در چیزی که “انفجار بزرگ” یادگیری عمیق نامید میشد سهم داشت، “زیرا شبکه ها عصبی یادگیری عمیق با واحدهای پردازنده گرافیکی (GPU) ان ویدیا آموزش داده میشدند.” همان سال، Google Brain از GPU های Nvidia برای ایجاد DNN هایی توانا استفاده کرد. در همین هنگام، Ng کشف کرد که GPU ها میتوانند سرعت سیستم های یادگیری عمیق را تا حدود ۱۰۰ برابر افزایش دهند. به ویژه، GPU ها برای محاسبات ماتریس/برداری حاضر در یادگیری ماشین، مناسب هستند. GPU ها، الگوریتم های یادگیری را به مراتب سریعتر میکنند و زمان اجرا را از چند هفته به چند روز کاهش میدهند. میتواند از سخت افزارهای ویژه و بهینه سازی های الگوریتمی برای پردازش اثربخش بهره برد.

انقلاب یادگیری عمیق
در سال ۲۰۱۲، تیم تحت رهبری دالی با استفاده از شبکه های عصبی چندکاره برای پییش بینی هدف زیست مولکولی یک دارو، در “چالش فعالیت مولکولی مِرک” پیروز شد. در ۲۰۱۴ گروه هاچریتر از یادگیری عمیق در شناسایی اثرات سمی و نامطلوب مواد شیمیایی محیطی در تغذیه، فراورده های خانگی و دارو استفاده کرد و برنده جایزه “چالش داده Tox21” NIH، FDA و NCATS شد.

تاثیرات چشمگیری دیگری در شناسایی تصویر یا شیء از ۲۰۱۱ تا ۲۰۱۲ حس شد. گرچه DNN های آموزش دیده توسط پس-نشر از چند دهه قبل، و پیاده سازی های GPU برای NN ها از جمله CNNها از چند سال قبل حضور داشتند، اما پیاده سازی CNNها با بیشنه تجمع روی GPU به روش سیرسان و همکاران او برای پیشرفت بینایی رایانه لازم بود. در سال ۲۰۱۱، این روش در یک مسابقه الگوشناسی بصری برای اولین بار به عملکرد فرابشری دست یافت. همچنین در ۲۰۱۱، پیروز مسابقه دست خط چینی ICDAR و در می ۲۰۱۲، پیروز مسابقه بخش بندی تصویر ISBI شد. تا سال ۲۰۱۱، CNN ها نقشی بزرگ در کنفرانس های بینایی رایانه نداشتند، اما در ژوئن ۲۰۱۲، مقاله ای از سیرسان و دیگران، در کنفرانس پیشرو CVPR نشان داد بیشنه تجمع CNNها روی GPU میتواند بسیاری از رکوردهای ثبت شده بینایی رایانه را بهبود دهد. در اکتبر ۲۰۱۲، سیستمی مشابه توسط کریژفسکی و دیگران با اختلاف زیادی نسبت به روش های یادگیری ماشین کم عمق، برنده مسابقه ImageNet مقیاس بزرگ شد. در نوامبر ۲۰۱۲، سیستم سیرسان و دیگران همچنین برنده مسابقه ICPR در آنالیز تصاویر بزرگ پزشکی برای تشخیص سرطان، و سال بعد برنده چالش بزرگ MICCAI با همین موضوع شد. در ۲۰۱۳ و ۲۰۱۴ نرخ خطا در فعالیت Imagenet با استفاده از یادگیری عمیق، در پی روندی مشابه در شناسایی گفتار مقیاس بزرگ، کاهش یافت. پروژه شناسایی تصویر وُلفرام این پیشرفت ها را منتشر کرد.

طبقه بندی تصویر سپس به فعالیت چالش انگیزتر تولید توصیفات (کپشن) برای تصویر، اغلب به صورت ترکیبی از CNNها و LSTMها، گسترش یافت.

برخی از محققین اعتقاد دارند که پیروزی ImageNet در اکتبر ۲۰۱۲ سر آغاز “انقلاب یادگیری عمیق” بود که صنعت هوش مصنوعی را دگرگون کرده است.

شبکه های عصبی
شبکه های عصبی مصنوعی
شبکه های عصبی مصنوعی (ANN) یا سیستم های اتصالگر، سیستم های محاسبه گری هستند که از شبکه های عصبی زیتسیِ تشکیل دهنده ذهن حیوانات الهام گرفته شده اند. این سیستم ها، با بررسی مثال ها، فعالیت ها را یادگیری می کنند (به عبارت دیگر عملکرد خود را در در انجام فعالیت ها به مرور بهبود می دهند) و عموماً این اتفاق بدون هیچ برنامه نویسی مختص به فعالیتی انجام می شود. برای مثال، در شناسایی تصویر، این شبکه ها می توانند یاد بگیرند که تصاویر شامل گربه را با تحلیل تصاویر مثالی که قبلاً بطور دستی به عنوان “با گربه” یا “بدون گربه” برچسب گذاری شدند، شناسایی کنند و از این نتایجِ تحلیلی برای شناسایی گربه در تصاویر دیگر استفاده نمایند. این شبکه ها بیشترین استفاده را در کاربردهایی دارند که بیان آنها با یا یک الگوریتم سنتی که از برنامه نویسی قاعده-بنیان استفاده میکند، دشوار است.

یک ANN بر مجموعه ای از واحدهای متصل یا گره، به نام نورون های مصنوعی (مشابه نورون های زیستی در یک مغز زیستی)، مبتنی است. هر اتصال (سیناپس) میان نورون ها می تواند سیگنالی را از یک نورون به نورون دیگر انتقال دهد. نورون دریافت کننده (پُست سیناپتیک) می تواند سیگنال (ها) و سپس نورون های پایین دستی سیگنال متصل به آن(ها) را پردازش کند. نورون ها ممکن است دارای حالت باشند، که معمولاً با اعداد حقیقی بین ۰ و ۱ نمایش داده میشود. نورون ها و سیناپس ها همچنین ممکن است وزن داشته باشند که با پیشرفت یادگیری، تنظیم می شود. این وزن، قدرت سیگنالی را که به نورون های پایین دستی فرستاده میشود، افزایش یا کاهش می دهد.

معمولاً نورون ها در لایه ها سازماندهی می شوند. لایه های مختلف ممکن است تبدیلات مختلفی روی ورودی خود، اِعمال کنند. سیگنال ها از اولین لایه (ورودی) به آخرین لایه (خروجی) سفر می کنند، و در این بین ممکن است لایه هایی را چند بار طی کنند.

هدف آغازین رویکرد شبکه های عصبی، حل مسئله به روش ذهن انسان بود. با مرور زمان، توجه صرفاً روی برابری با برخی توانایی های خاصِ ذهنی معطوف شد، و به انحرافاتی از زیست شناسی، مثل پس-نشر، یا انتقال اطلاعات در جهت عکس و تنظیم شبکه برای انعکاس این اطلاعات، منجر شد.

شبکه های عصبی در فعالیت های متنوعی استفاده شده اند، از جمله بینایی رایانه، شناسایی گفتار، ترجمه ماشینی، فیلترینگ شبکه های اجتماعی، بازی های رومیزی و بازی های ویدیویی و تشخیص پزشکی.

تا سال ۲۰۱۷، شبکه های عصبی معمولاً از چندهزار تا چندمیلیون واحد و چند میلیون اتصال برخوردار هستند. گرچه این عدد به مراتب کوچکتر از تعداد نورون های مغز انسان است، اما این شبکه ها میتوانند فعالیت های زیادی را در سطح فرا انسانی انجام دهند (مثل شناسایی چهره، بازی “Go” و غیره).

شبکه های عصبی عمیق
شبکه عصبی عمیق (DNN)، یک نوع شبکه عصبی مصنوعی (ANN) با لایه های متعددی بین ورودی و خروجی است. DNN روابط ریاضی صحیح را برای تبدیل ورودی به خروجی پیدا میکند، خواه این رواط خطی باشند خواه غیرخطی. شبکه با حرکت در لایه ها، احتمال هر خروجی را محاسبه میکند. برای مثال، DNNای که آموزش دیده تا نژادهای سگ را تشخیص دهد، تصویر داده شده را بررسی و احتمال اینکه سگ داخل تصویر، نژادی خاص باشد را محاسبه میکند. کاربر میتواند نتایج را بررسی و تعیین کند که شبکه چه احتمالاتی را باید نشان دهد (مثلاً احتمالات بالاتر از یک مقدار خاص و غیر) و برچسب پیشنهادی را بازگرداند. هر محاسبه ریاضی این چنینی را به عنوان یک لایه در نظر میگیرند، و DNNهای پیچیده لایه های زیادی دارند، لذا نام شبکه های “عمیق” برایشان انتخاب شده است. هدف نهایی این است که شبکه ای آموزش داده شود تا تصویر را به ویژگی های آن تجزیه، روندهای موجود در تمام نمونه ها را شناسایی، و تصاویر جدید را طبق شباهت هایشان بدون نیاز به ورودی انسانی طبقه بندی کند.

DNNها میتوانند روابط پیچیده غیرخطی را مدل سازی کنند. معماری های DNN، مدل هایی ترکیبی تولید میکنند که در آن شیء به عنوان ترکیبی لایه ای از داده های اولیه بیان میشود. لایه های اضافی، ترکیب ویژگی های لایه های پایین تر را ممکن میسازند، که بطور بالقوه موجب مدل سازی داده ها با واحدهایی کمتر از یک شبکه کم عمق با عملکرد مشابه میشود.

معماری های عمیق شامل اَشکال متعدی از چند روش اساسی هستند. هر معماری در زمینه ای خاص موفق بوده است. مقایسه عملکرد چند معماری همواره ممکن نیست، مگر اینکه روی یک مجموعه داده ارزیابی شوند.

DNNها معمولاً شبکه هایی پیشخور هستند که در آن داده ها از لایه ورودی، بدون حلقه، به سمت لایه خروجی جریان پیدا میکند. ابتدا DNN نگاشتی از نورون های مجازی درست میکند و به اتصالات میان آنها، مقادیر عددی تصادفی یا “وزن” تخصیص میدهد. وزن ها و ورودی ها ضرب میشوند و یک خروجی بین ۰ و ۱ را بازمیگردانند. اگر شبکه بطور دقیق الگوی مورد نظر را تشخیص ندهد، یک الگوریتم وزن ها را تنظیم میکند. به این طریق الگوریتم میتواند تاثیر برخی پارامترها را بیشتر کند، تا وقتی که محاسبات ریاضی صحیح را برای پردازش کامل داده ها پیدا کند.

شبکه های عصبی بازگشتی (RNN)، که در داده های آنها میتوانند در هر جهتی جریان پیدا کنند، برای کاربردهایی مثل مدل سازی زبان استفاده میشوند. حافظه کوتاه مدت بلند بطور ویژه ای برای این مصرف اثربخش است.

شبکه های عصبی عمیق پیچشی (CNN) در بینایی رایانه استفاده میشوند. CNNها همچنین در مدل سازی آکوستیک برای شناسایی گفتار خودکار (ASR) استفاده میشوند.

چالش ها
مثل ANNها، ممکن است مشکلات زیادی برای DNNهایی که ساده لوحانه آموزش داده شدند پیش آید. دو مسئله متداول، بیش-برازش و زمان محاسبه هستند.

به دلیل اضافه شدن لایه های انتزاعی، که امکان مدل سازی وابستگی های نادر را در داده های آموزش ایجاد میکند، DNNها مقابل بیش-برازش آسیب پذیر هستند. روش های منظم سازی از قبیل هرس کردن واحد اواخِنکو، یا زوال وزنی (منظم سازی نرم ۲) یا تُنُکی (منظم سازی نرم ۱) را میتوان طی آموزش برای مقابله با بیش-برازش استفاده کرد. به عنوان گزینه ای دیگر، منظم سازیِ بیرون انداز، طی آموزش، واحدهایی را بطور تصادفی از لایه های پنهان حذف میکند. این کار به حذف وابستگی های نادر کمک میکند. در نهایت، داده ها را میتوان با روش هایی مثل برش و چرخش بگونه ای افزون کرد که مجموعه های آموزشی کوچکتر اندازه بزرگتری پیدا کنند تا احتمال بیش-برازش کاهش یابد.

DNNها باید پارامترهای آموزشی فراوانی را در نظر بگیرند، مثل اندازه (تعداد لایه ها و تعداد واحدها در هر لایه)، سرعت یادگیری و وزن های اولیه. جاروب کردن فضای پارامتر برای پیدا کردن پارامترهای بهینه ممکن است به علت هزینه زمانی و منابع محاسباتی بهینه نباشد. حُقه های مختلفی مثل دسته سازی (محاسبه گرادیان در چند مثال آموزشی بطور همزمان، نه جداگانه) محاسبه را تسریع میکنند. توانایی های پردازشی وسیع در معماری های با هسته های زیاد (مثل GPUها، یا Intel Xeon Phi ) به علت تناسب این معماری های پردازشی با محاسبات ماتریسی و برداری، آموزش را بطور چشمگیری تسریع کرده اند.

به عنوان گزینه ای دیگر، ممکن است مهندسان به دنبال انواع دیگری از شبکه های عصبی با الگوریتم های آموزشی سرراست تر و همگراتر بگردند.CMAC (کنترلگر محاسباتی مدل مخچه) یک چنین نوع شبکه عصبی است و نیازمند نرخ یادگیری یا وزن های اولیه تصادفی نیست. همگرایی فرایند آموزشی را با یک دسته داده جدید میتوان در یک گام تضمین کرد، و پیچیدگی محاسباتی الگوریتم آموزشی نسبت به تعداد نورون های درگیر، خطی است.

انتقاد و نظرات
یادگیری عمیق هم انتقادات و هم نظراتی را جلب کرده کرده است که برخی از آنها خارج از حوزه علوم رایانه بوده است.

تئوری
یکی از ایرادات اصلی، عدم وجود تئوری حول برخی روش ها است. یادگیری در متداول ترین معماری های عمیق، با استفاده از گرادیان کاهشی که به خوبی درک شده، پیاده سازی میشود. با این حال، تئوری سایر الگوریتم ها، مثل دیورژانس متناسب، شفافیت کمتری دارد (برای مثال، آیا همگرا میشود؟ اگر میشود، با چه سرعتی؟ چه چیزی را تقریب میزند؟) روش های یاگیری عمیق معمولاً به عنوان یک جعبه سیاه در نظر گرفته میشوند، که بیشتر تاییدیه های آن بطور تجربی بدست میایند، نه بطور تئوری.

سایر محققین اظهار میکنند که یادگیری عمیق را باید به عنوان گامی به سوی تَحَقُق هوش مصنوعی قوی در نظر گرفت، نه به عنوان راه حلی جهان شمول. روش های یادگیری عمیق، به رغم قدرتی که دارند، همچنان فاقد عمده کارکرد لازم جهت تحقق کامل این هدف هستند. روانشناس پژوهشی گری مارکوس خاطر نشان کرد:

“بطور واقع بینانه، یادگیری عمیق تنها بخشی از چالش بزرگتر ساخت ماشین های هوشمند است. چنین تکنیک هایی فاقد روش های نمایش روابط عِلّی هستند (…) هیچ راه مشخصی برای انجام استنباط های منطقی ندارند، و همچنین با یکپارچه سازی دانش انتزاعی، از قبیل اطلاعاتی راجع به اینکه اشیاء چه هستند، برای چه مصرفی هستند و معمولاً چگونه استفاده میشوند، فاصله زیادی دارند. مهمترین سیستم های A.I. مثل واتسون (…) از تکنیک هایی مثل یادگیری عمیق تنها به عنوان یک عنصر میان مجموعه ای بسیار پیچیده از تکنیک ها استفاده میکنند، که از تکنیک آماری استنباط بیزی تا استدلال استنتاجی را دربر میگیرد.”

به عنوان جایگزینی بر این تاکید روی محدودیت های یادگیری عمیق، یک نویسنده گمانه زنی کرده است که میتوان یک بسته بینایی رایانه را طوری آموزش داد که کار پیچیده تشخیص میان نقاشی های “استاد کهنه کار” و آماتور را انجام دهد، و می انگارد که چنین حساسیتی میتواند نمایشگر مقدمات همدلی نابدیهی ماشین باشد. همین نویسنده اظهار میکند که این مطلب با انسان شناسی هم راستا است، که یک نگرانی را درمورد زیبایی شناسی به عنوان عنصری کلیدی از مُدرنیته رفتاری شناسایی میکند.

در ارجاعی دیگر به این ایده که حساسیت هنری ممکن است در سطوح نسبتاً پایین سلسله ی شناختی قرار داشته باشد، یک سری نمودارهای منتشر شده از وضعیت های درونی شبکه های عصبی عمیق (۲۰ – ۳۰ لایه) که الزاماً از درون داده های تصادفی سعی در تشخیص تصاویری که با آنها آموزش دیدند را داشتند، یک جذابیت دیدنی را نشان میدهند: اعلامیه اصلی این تحقیق بیش از ۱۰۰۰ کامنت دریافت کرد، و موضوع چیزی بود که برای مدتی پربازدیدترین مقاله در وبسات گاردین بود.

خطاها
برخی معماری های یادگیری عمیق رفتارهای مشکل سازی را نشان میدهند، مثل طبقه بندی قطعیِ تصاویرِ غیرقابل تشخیص به عنوان عضو دسته آشنای تصاویر عادی و نیز طبقه بندی نادست اختلالات جزئی تصاویری که به درستی طبقه بندی شدند. گورتزل انگاشت که این رفتارها به علت محدودیت نمایش های درونی آنهاست و این محدودیت ها در یکپارچه سازی با معماری های AGI چند مولفه ایِ ناهمگون وجود دارند. این مسائل ممکن است با معماری های یادگیری عمیقی که بطور درونی وضعیت هایی همسان با تجزیه های گرامر تصویری از موجودات و اتفاقات مشاهده شده ایجاد میکنند، حل شوند. یادگیری یک گرامر (بصری یا زبانی) از داده های آموزشی معادل است با محدودسازی سیستم به استدلال حس مشترک، که از جنبه ی قواعد تولید گرامری روی مفاهیم عمل میکند، و هدفی اساسی هم برای اکتساب زبان انسان است و هم برای هوش مصنوعی.

تهدید سایبری
با انتقال یادگیری عمیق از آزمایشگاه به جهان بیرون، تحقیقات نشان میدهد که شبکه های عصبی مصنوعی در مقابل هک و فریبکاری آسیب پذیر هستند. با شناسایی الگوهایی که این سیستم ها برای عملکرد خود استفاده میکنند، مهاجم ها میتوانند ورودی های ANNها را به گونه ای تغییر دهند که ANN تطابقی پیدا کند که ناظر انسانی نتواند آن را تشخیص دهد. برای مثال، یک مهاجم میتواند در یک تصویر، تغییراتی نامحسوس ایجاد کند که ANN برای آن تطابقی پیدا کند، علی رغم اینکه تصویر از نظر انسان هیچ شباهتی به هدف جستجو ندارد. این نوع دست کاری را “حمله دشمن” مینامند. در سال ۲۰۱۶ محققین از یک ANN برای جعل تصاویر به صورت آزمون و خطا استفاده کردند، به این صورت که نقاط کانونی تصویر دیگری را شناسایی با کمک آنها تصاویری را تولید کردند که جعل تصویر اصلی بود. تصاویر دست کاری شده از چشم انسان هیچ تفاوتی نداشتند. گروهی دیگر از محققین نشان دادند عکس گرفتن از پرینت تصاویر جعلی، به خوبی یک سیسم طبقه بندی تصویر را گول میزند. یک راه دفاع، جستجوی تصویر وارون است که در آن یک تصویرِ احتمالاً جعلی در سایتی مثل TinEye ثبت میشود که میتواند سایر نمونه های آن را پیدا کند. یک اصلاح این است که جستجو فقط با استفاده از قطعه هایی از تصویر انجام شود، تا تصاویری که آن قطعه ممکن است از آنها گرفته شده باشد شناسایی شوند.

گروهی دیگر نشان دادند برخی منظره های روانگردان میتوانند یک سیستم شناسایی چهره را گول بزنند که مردم عادی را با افراد مشهور اشتباه بگیرد که به فرد، امکانِ بالقوه تقلید فرد دیگری را میدهد. در سال ۲۰۱۷ محققین به علائم ایست، برچسب هایی را چسباندند که باعث شد یک ANN آنها را اشتباه طبقه بندی کند.

با این حال میتوان ANN را برای شناسایی تلاش های فریبکارانه، بیشتر آموزش داد، چیزی که مهاجمین و مدافعین را وارد یک مسابقه تسلیحاتی بالقوه میکند، مشابه آنچه که هم اکنون صنعت دفاع در مقابل بدافزارها را تعریف میکند. ANNها آموزش دیده اند تا با حمله مکرر به یک دفاع با بدافزاری که توسط یک الگوریتم ژنتیکی بطور پیوسته تغییر کرده تا ضد بدافزار را گول بزند و درعین حال توانایی خود را برای آسیب به هدف حفظ کند، نرم افزارهای ضد بدافزار مبتنی بر ANN را شکست دهند.

گروهی دیگر نشان داده اند که برخی صوت های خاص میتوانند باعث شوند سیستم دستور صوتی Google Now آدرس وبی را باز کند که یک بدافزار را دانلود میکند.

در “سمی کردن داده ها”، داده های نادرست بطور مداوم به مجموعه آموزشی یک سیستم یادگیری ماشین تزریق میشوند تا مانع تسلط آن شوند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *