یک راهنمای جامع درباره یادگیری بدون نمونه (Zero-Shot Learning)، شامل روشها، ارتباطات آن با جستجوی شباهت و مدلهای محبوب طبقهبندی بدون نمونه.
مقدمهای بر پردازش زبان طبیعی
یکی از جالبترین ویژگیهای موج جدید ارتقاء یادگیری ماشین، یادگیری بدون نمونه (ZSL) است. ZSL اوج پارادایم یادگیری با تعداد کم نمونههاست. یادگیری با تعداد کم نمونهها شامل یادگیری مدلها از مقادیر کم داده است. یادگیری بدون نمونه یک گام جلوتر میرود و شامل آن است که مدلها بتوانند دادههایی را که هرگز ندیدهاند، شناسایی کنند.
شناسایی چیزهایی که هرگز ندیدهاید به نظر دشوار میآید، اما انسانها به خوبی این کار را انجام میدهند. به عنوان مثال، ممکن است انواع زیادی از حیوانات وجود داشته باشد که هرگز آنها را ندیدهاید. با این حال، شما احتمالاً حتی اگر هرگز آن نوع خاص از ماهی را ندیده باشید، میتوانید یک ماهی را به عنوان ماهی بشناسید. چگونه میدانید که این یک ماهی است؟
شما ممکن است بگویید چون در آب زندگی میکند، شنا میکند، آب شش دارد و معمولاً به نظر میرسد که باید یک ماهی باشد. اما بر خلاف شما، مدلهای یادگیری ماشین این حس “احساس” را ندارند، حداقل نه به شکلی که ما فکر میکنیم. پس چگونه یک مدل یادگیری ماشین میتواند این کار را انجام دهد؟ با استفاده از شباهت معنایی.
شباهت معنایی چیست؟
شباهت معنایی میزان شباهت دو چیز در معنای آنها را اندازهگیری میکند. راههای زیادی برای اندازهگیری معیارهای شباهت وکتور امبدینگ وجود دارد. در یک مقاله اخیر، پنج نوع معیار شباهت را بررسی کردیم. آن پست همچنین سه نوع معیار شباهت برای وکتورهای “چگال” و دو نوع معیار شباهت برای وکتورهای باینری را پوشش میدهد.
در زمینه یادگیری بدون نمونه، میتوانیم شباهت معنایی را از طریق وکتورهای چگال اندازهگیری کنیم. وکتورهای چگال به این نام نامیده میشوند زیرا تعداد کمی 0 در آنها وجود دارد. ورودیهای یک وکتور چگال معمولاً شامل اعداد حقیقی هستند. به عنوان مثال، یک وکتور امبدینگ چگال میتواند (0.1، 0.2، -0.1، 0.112، 0.34، -0.98) باشد.
بیشتر اوقات، این اعداد همچنین بین 0 و 1 هستند. چرا؟ زیرا این اعداد خروجی لایه دوم به آخر یک شبکه عصبی عمیق هستند. ما از این خروجی استفاده میکنیم زیرا تمام اطلاعات معنایی که یک شبکه عصبی درباره دادههای ورودیاش قبل از پیشبینی دارد، در آن وجود دارد و این چیزی است که ما میخواهیم – نمایه معنایی.
یادگیری بدون نمونه چگونه عمل میکند؟
حالا که کمی درباره شباهت معنایی میدانیم، میتوانیم به یادگیری بدون نمونه بپردازیم. ایده اصلی اکثر الگوریتمهای یادگیری بدون نمونه، یافتن راههایی برای ارتباط دادن اطلاعات غیرمستقیم درباره دادههاست. در مثال ماهی ذکر شده، این شامل عواملی خارجی مانند بودن در آب، شکل و شاید داشتن فلسهاست.
این اطلاعات میتوانند به اعداد از طریق امبدینگ وکتوری کدگذاری شوند. مدلهایی که میتوانند ZSL را انجام دهند، سپس میتوانند این نمایههای کمیسازی شده را گرفته و دادههای جدید را با دادههایی که روی آنها آموزش دیدهاند مقایسه و تضاد کنند. میتوانید آن را بهصورت اختصاص دادن یک برچسب براساس نزدیکترین کلاسترها به نقطه داده تصور کنید.
یادگیری بدون نمونه را میتوان هم در بینایی و هم در زبان به کار برد. اولین مقالات شناخته شده درباره یادگیری بدون نمونه در یک کنفرانس در سال 2008 منتشر شد، یکی در زبان و دیگری در بینایی. مقاله زبان عنوانش «طبقهبندی بدون داده» و مقاله بینایی عنوانش «یادگیری بدون داده» بود. اصطلاح یادگیری بدون نمونه برای اولین بار در سال 2009 مطرح شد.
چرا یادگیری بدون نمونه مهم است؟
پس چرا یادگیری بدون نمونه اینقدر مهم است؟ پاسخ بنیادی این است که این توانایی را ارتقا میدهد تا مدلهای یادگیری ماشین را به سطح جدیدی از کاربرد برساند.
یکی از چالشهای اصلی با یادگیری ماشین این است که معمولاً نیاز به مقدار قابل توجهی داده برای آموزش دارد. در حالی که کمیت داده خود یک چالش بزرگ است، کیفیت داده نیز برای آموزش مدل یک چالش دیگر است. ZSL به حل هر دو این مشکلات کمک میکند.
با قدرت شباهت معنایی از طریق امبدینگهای وکتوری، میتوانیم از یادگیری بدون نمونه برای طبقهبندی دادهها بدون نیاز به مقادیر زیادی از دادههای با کیفیت بالا استفاده کنیم. مدلهای ساختهشده با تکنیکهای ZSL، مانند CLIP، میتوانند تصاویر را طبقهبندی یا متون را برچسبگذاری کنند بدون اینکه قبلاً آنها را دیده باشند.
طبقهبندی دادههای جدید بدون نیاز به دانش قبلی ما را قادر میسازد تا هزینههای داده را کاهش دهیم و دسترسی به یادگیری ماشین را از طریق مدلهای پیشآموزش افزایش دهیم. این به حذف موانع برای مردم و کسبوکارها در ورود به فضای یادگیری ماشین و هوش مصنوعی کمک میکند.
برخی از مدلهای طبقهبندی بدون نمونه چیستند؟
طبقهبندی بدون نمونه از سال 2008 پیشرفتهای زیادی کرده است. یکی از محبوبترین مدلهای ZSL که اخیراً منتشر شده، CLIP – پیشآموزش زبان و تصویر متضاد – از OpenAI است. سایر مدلهای محبوب در این زمینه شامل:
- DUET توسط چن و همکاران (دانشگاه ژجیانگ)
- SPOT (VAEGAN) توسط شریانک ن گودا (دانشگاه آکسفورد)
- ZSL-KG توسط نیهال وی نایک و استفن اچ باخ (دانشگاه براون)
- ResNet-50 توسط رادفورد و همکاران (OpenAI)
خلاصهای از یادگیری بدون نمونه
در این مقاله، نگاهی به یادگیری بدون نمونه داشتیم. ZSL یک تکنیک تحولآمیز است که موانع ورود به هوش مصنوعی/یادگیری ماشین را برای کسبوکارها و افراد کاهش داده است. پژوهشگران در این حوزه و مدلهایی که ایجاد کردهاند به واقع به دموکراسیسازی هوش مصنوعی کمک کردهاند. یادگیری بدون نمونه توانایی منحصر به فردی برای طبقهبندی تصاویر یا برچسبگذاری متنی که مدل هرگز ندیده، فراهم میکند.
یادگیری بدون نمونه با استفاده از شباهت معنایی از طریق امبدینگهای وکتوری کار میکند. مدلهایی که ZSL را انجام میدهند، به طور اساسی کلاسها را بر اساس اینکه چیزها چه اندازه از نظر معنایی مشابه هستند پیشبینی میکنند. به طور مشابه با نحوه عملکرد مغز ما، مانند مثال ماهی، آنها از اطلاعات کمکی برای نشان دادن اینکه آیا داده ورودی میتواند طبقهبندی شود یا خیر استفاده میکنند.
از آغازهای خاضعانه در بینایی و زبان در سال 2008، یادگیری بدون نمونه پیشرفتهای زیادی کرده است. اکنون برای طبقهبندی تصویر، مانند ResNet 50، یا حتی طبقهبندی چندرسانهای، مانند CLIP در دسترس است. تکنیکهای یادگیری بدون نمونه مختلفی وجود دارد و ما انتظار داریم که تکنیکهای بهتری و کارآمدتری در آینده به همراه ظهور مدلهای زبانی بزرگ ارائه شود.