توسط admin

DeepSeek: هر آنچه که باید در مورد برنامه چت بات هوش مصنوعی بدانید

172 بازدید

DeepSeek به صورت ویروسی معروف شده است.

آزمایشگاه هوش مصنوعی چینی DeepSeek این هفته به ساحت عمومی راه پیدا کرد بعد از اینکه اپلیکیشن چت‌بات آن به بالای لیست فروشگاه اپل (و همچنین گوگل پلی) رسید. مدل‌های هوش مصنوعی DeepSeek، که با استفاده از تکنیک‌های محاسباتی کارآمد آموزش دیده‌اند، موجب شده‌اند که تحلیلگران وال‌استریت و تکنولوژیست‌ها سوال کنند آیا ایالات متحده می‌تواند در رقابت هوش مصنوعی پیشتاز بماند و آیا تقاضا برای چیپ‌های هوش مصنوعی پایدار خواهد بود.

اما DeepSeek از کجا آمده و چگونه به این سرعت به شهرت بین‌المللی رسیده است؟

فهرست عناوین

ریشه‌های تجاری DeepSeek

DeepSeek توسط High-Flyer Capital Management، یک صندوق پرچمدار کمی چینی که از AI برای تصمیم‌گیری‌های تجاری خود استفاده می‌کند، پشتیبانی می‌شود.

لیانگ وِن‌فنگ، که به عنوان یک علاقه‌مند به هوش مصنوعی شناخته می‌شود، در سال 2015 High-Flyer را تأسیس کرد. وِن‌فنگ که reportedly در دوران تحصیل در دانشگاه Zhejiang وارد دنیای معامله‌گری شده بود، در سال 2019 High-Flyer Capital Management را به‌عنوان یک صندوق پرچمدار با تمرکز بر توسعه و انجام الگوریتم‌های AI راه‌اندازی کرد.

در سال 2023، High-Flyer DeepSeek را به‌عنوان یک آزمایشگاه اختصاصی برای پژوهش در ابزارهای هوش مصنوعی جدا از کسب و کار مالی خود آغاز کرد. با High-Flyer به‌عنوان یکی از سرمایه‌گذارانش، این آزمایشگاه به یک شرکت مستقل با نام DeepSeek تبدیل شد.

از روز اول، DeepSeek خوشه‌های مرکز داده خود را برای آموزش مدل‌ها ساخته است. اما مانند سایر شرکت‌های هوش مصنوعی در چین، DeepSeek تحت تأثیر ممنوعیت‌های صادراتی ایالات متحده در مورد سخت‌افزار قرار گرفته است. برای آموزش یکی از مدل‌های جدیدش، این شرکت مجبور شد از چیپ‌های Nvidia H800 استفاده کند که نسخه‌ای کمتر قدرت‌مند از چیپ H100 است که برای شرکت‌های ایالات متحده در دسترس است.

تیم فنی DeepSeek به گفته‌ها جوان محسوب می‌شود. گزارش‌ها حاکی از آن است که این شرکت به‌طور تهاجمی از محققان دکترای AI از دانشگاه‌های برتر چین استخدام می‌کند. DeepSeek همچنین افرادی بدون پیشینه علوم کامپیوتر را استخدام می‌کند تا به فناوری‌اش کمک کند تا درک بهتری از دامنه‌های مختلف داشته باشد، طبق گزارش نیویورک تایمز.

مدل‌های قوی DeepSeek

DeepSeek مجموعه اول مدل‌های خود را — DeepSeek Coder، DeepSeek LLM و DeepSeek Chat — در نوامبر 2023 معرفی کرد. اما تا بهار گذشته، زمانی که استارتاپ نسل بعدی خانواده مدل‌های DeepSeek-V2 را منتشر کرد، صنعت هوش مصنوعی شروع به توجه به آن کرد.

DeepSeek-V2، یک سیستم تحلیل متن و تصویر همه‌کاره، در آزمایش‌های مختلف هوش مصنوعی عملکرد خوبی داشت — و از نظر هزینه نسبت به مدل‌های مشابه در آن زمان به مراتب مقرون به صرفه‌تر بود. این موضوع موجب شد تا رقبای داخلی DeepSeek، از جمله ByteDance و Alibaba، قیمت‌های استفاده‌ از برخی مدل‌های خود را کاهش دهند و دیگر مدل‌ها را کاملاً رایگان کنند.

DeepSeek-V3، که در دسامبر 2024 منتشر شد، فقط بر شهرت DeepSeek افزود.

بر اساس آزمون‌های داخلی DeepSeek، DeepSeek V3 عملکرد بهتری نسبت به مدل‌های قابل دانلود و به‌طور عمومی موجود مانند Llama از متا و مدل‌های “بسته” که فقط از طریق API قابل دسترسی هستند، مانند GPT-4 از OpenAI دارد.

مدل R1 “استدلال” DeepSeek نیز به همان اندازه چشمگیر است. released در ژانویه، DeepSeek ادعا می‌کند که R1 در معیارهای کلیدی به خوبی با مدل o1 از OpenAI رقابت می‌کند.

از آنجا که یک مدل استدلالی است، R1 به‌طور مؤثر به بررسی خود می‌پردازد، که به آن کمک می‌کند تا از برخی دام‌های معمول که مدل‌ها را به زانو درمی‌آورد، اجتناب کند. مدل‌های استدلالی کمی بیشتر وقت می‌برند — معمولاً چند ثانیه تا چند دقیقه بیشتر — تا به راه‌حل‌ها برسند در مقایسه با یک مدل غیر استدلالی معمولی. نکته مثبت این است که آن‌ها معمولاً در حوزه‌هایی مانند فیزیک، علوم و ریاضیات قابل اعتمادتر هستند.

با این حال، یک اشکال برای R1، DeepSeek V3 و دیگر مدل‌های DeepSeek وجود دارد. به عنوان یک هوش مصنوعی توسعه‌یافته چینی، این مدل‌ها تحت نظارت معیارهای تعیین شده توسط نهاد تنظیم‌کننده اینترنت چین قرار دارند تا اطمینان حاصل شود که پاسخ‌های آن‌ها “ارزش‌های اصلی سوسیالیستی” را تجسم می‌کنند. به عنوان مثال، در اپلیکیشن چت‌بات DeepSeek، R1 به سوالات درباره میدان تیان‌آن‌من یا خودمختاری تایوان پاسخ نخواهد داد.

رویکرد اختلال‌آمیز

اگر DeepSeek یک مدل تجاری دارد، مشخص نیست که این مدل دقیقاً چیست. این شرکت محصولات و خدمات خود را بسیار پایین‌تر از ارزش بازار قیمت‌گذاری می‌کند — و برخی از آن‌ها را به‌طور رایگان ارائه می‌دهد.

به گفته DeepSeek، پیشرفت‌های کارایی به این شرکت اجازه داده است که هزینه‌های رقابتی فوق‌العاده‌ای را حفظ کند. با این حال، برخی کارشناسان به اعداد ارائه شده توسط این شرکت شک دارند.

هر چه که باشد، توسعه‌دهندگان به مدل‌های DeepSeek که به‌طور معمول به عنوان متن باز شناخته نمی‌شوند، بلکه تحت مجوزهای مجاز قابل تجاری‌سازی در دسترس هستند، پیوسته‌اند. طبق گفته کلم دلانگ، مدیرعامل Hugging Face، یکی از پلتفرم‌های میزبان مدل‌های DeepSeek، توسعه‌دهندگان در Hugging Face بیش از 500 مدل “حاصل‌خیز” از R1 ایجاد کرده‌اند که مجموعاً 2.5 میلیون دانلود داشته‌اند.

موفقیت DeepSeek در برابر رقبای بزرگ‌تر و مستحکم‌تر به عنوان “تغییر دهنده AI” و “بسیار تبلیغ شده” توصیف شده است. موفقیت این شرکت حداقل تا حدی مسئول افت 18 درصدی قیمت سهام Nvidia در ژانویه بوده و باعث شده واکنش عمومی از سوی سام آلتمن، مدیر عامل OpenAI، صورت گیرد.

مایکروسافت اعلام کرد که DeepSeek در خدمت Azure AI Foundry خود، پلتفرمی که خدمات AI را برای شرکت‌ها تحت یک برند واحد جمع می‌کند، در دسترس است. وقتی از مارک زاکربرگ درباره تأثیر DeepSeek بر هزینه‌های AI متا در طول کنفرانس درآمدی سه‌ماهه اول پرسیده شد، او گفت که هزینه‌های زیرساخت AI همچنان “مزیت استراتژیک” برای متا خواهد بود.

در طول کنفرانس درآمدی سه‌ماهه چهارم Nvidia، جنسن هوانگ به ابتکار “عالی” DeepSeek اشاره کرد و گفت که این مدل و سایر “مدل‌های استدلالی” برای Nvidia بسیار عالی هستند زیرا به محاسبات بیشتری نیاز دارند.

در عین حال، برخی از شرکت‌ها به ممنوعیت DeepSeek پرداخته‌اند و همچنین خود کشورها و دولت‌ها، از جمله کره جنوبی. ایالت نیویورک نیز استفاده از DeepSeek بر روی دستگاه‌های دولتی را ممنوع کرده است.

به عنوان آینده DeepSeek، مشخص نیست که چه خواهد بود. مدل‌های بهبود یافته غیرقابل انکار است. اما به نظر می‌رسد که دولت ایالات متحده نسبت به آنچه به عنوان تأثیر زیان‌آور خارجی درک می‌کند، محتاط شده است.

این داستان در اصل در تاریخ 28 ژانویه 2025 منتشر شده.