DeepSeek به صورت ویروسی معروف شده است.
آزمایشگاه هوش مصنوعی چینی DeepSeek این هفته به ساحت عمومی راه پیدا کرد بعد از اینکه اپلیکیشن چتبات آن به بالای لیست فروشگاه اپل (و همچنین گوگل پلی) رسید. مدلهای هوش مصنوعی DeepSeek، که با استفاده از تکنیکهای محاسباتی کارآمد آموزش دیدهاند، موجب شدهاند که تحلیلگران والاستریت و تکنولوژیستها سوال کنند آیا ایالات متحده میتواند در رقابت هوش مصنوعی پیشتاز بماند و آیا تقاضا برای چیپهای هوش مصنوعی پایدار خواهد بود.
اما DeepSeek از کجا آمده و چگونه به این سرعت به شهرت بینالمللی رسیده است؟
ریشههای تجاری DeepSeek
DeepSeek توسط High-Flyer Capital Management، یک صندوق پرچمدار کمی چینی که از AI برای تصمیمگیریهای تجاری خود استفاده میکند، پشتیبانی میشود.
لیانگ وِنفنگ، که به عنوان یک علاقهمند به هوش مصنوعی شناخته میشود، در سال 2015 High-Flyer را تأسیس کرد. وِنفنگ که reportedly در دوران تحصیل در دانشگاه Zhejiang وارد دنیای معاملهگری شده بود، در سال 2019 High-Flyer Capital Management را بهعنوان یک صندوق پرچمدار با تمرکز بر توسعه و انجام الگوریتمهای AI راهاندازی کرد.
در سال 2023، High-Flyer DeepSeek را بهعنوان یک آزمایشگاه اختصاصی برای پژوهش در ابزارهای هوش مصنوعی جدا از کسب و کار مالی خود آغاز کرد. با High-Flyer بهعنوان یکی از سرمایهگذارانش، این آزمایشگاه به یک شرکت مستقل با نام DeepSeek تبدیل شد.
از روز اول، DeepSeek خوشههای مرکز داده خود را برای آموزش مدلها ساخته است. اما مانند سایر شرکتهای هوش مصنوعی در چین، DeepSeek تحت تأثیر ممنوعیتهای صادراتی ایالات متحده در مورد سختافزار قرار گرفته است. برای آموزش یکی از مدلهای جدیدش، این شرکت مجبور شد از چیپهای Nvidia H800 استفاده کند که نسخهای کمتر قدرتمند از چیپ H100 است که برای شرکتهای ایالات متحده در دسترس است.
تیم فنی DeepSeek به گفتهها جوان محسوب میشود. گزارشها حاکی از آن است که این شرکت بهطور تهاجمی از محققان دکترای AI از دانشگاههای برتر چین استخدام میکند. DeepSeek همچنین افرادی بدون پیشینه علوم کامپیوتر را استخدام میکند تا به فناوریاش کمک کند تا درک بهتری از دامنههای مختلف داشته باشد، طبق گزارش نیویورک تایمز.
مدلهای قوی DeepSeek
DeepSeek مجموعه اول مدلهای خود را — DeepSeek Coder، DeepSeek LLM و DeepSeek Chat — در نوامبر 2023 معرفی کرد. اما تا بهار گذشته، زمانی که استارتاپ نسل بعدی خانواده مدلهای DeepSeek-V2 را منتشر کرد، صنعت هوش مصنوعی شروع به توجه به آن کرد.
DeepSeek-V2، یک سیستم تحلیل متن و تصویر همهکاره، در آزمایشهای مختلف هوش مصنوعی عملکرد خوبی داشت — و از نظر هزینه نسبت به مدلهای مشابه در آن زمان به مراتب مقرون به صرفهتر بود. این موضوع موجب شد تا رقبای داخلی DeepSeek، از جمله ByteDance و Alibaba، قیمتهای استفاده از برخی مدلهای خود را کاهش دهند و دیگر مدلها را کاملاً رایگان کنند.
DeepSeek-V3، که در دسامبر 2024 منتشر شد، فقط بر شهرت DeepSeek افزود.
بر اساس آزمونهای داخلی DeepSeek، DeepSeek V3 عملکرد بهتری نسبت به مدلهای قابل دانلود و بهطور عمومی موجود مانند Llama از متا و مدلهای “بسته” که فقط از طریق API قابل دسترسی هستند، مانند GPT-4 از OpenAI دارد.
مدل R1 “استدلال” DeepSeek نیز به همان اندازه چشمگیر است. released در ژانویه، DeepSeek ادعا میکند که R1 در معیارهای کلیدی به خوبی با مدل o1 از OpenAI رقابت میکند.
از آنجا که یک مدل استدلالی است، R1 بهطور مؤثر به بررسی خود میپردازد، که به آن کمک میکند تا از برخی دامهای معمول که مدلها را به زانو درمیآورد، اجتناب کند. مدلهای استدلالی کمی بیشتر وقت میبرند — معمولاً چند ثانیه تا چند دقیقه بیشتر — تا به راهحلها برسند در مقایسه با یک مدل غیر استدلالی معمولی. نکته مثبت این است که آنها معمولاً در حوزههایی مانند فیزیک، علوم و ریاضیات قابل اعتمادتر هستند.
با این حال، یک اشکال برای R1، DeepSeek V3 و دیگر مدلهای DeepSeek وجود دارد. به عنوان یک هوش مصنوعی توسعهیافته چینی، این مدلها تحت نظارت معیارهای تعیین شده توسط نهاد تنظیمکننده اینترنت چین قرار دارند تا اطمینان حاصل شود که پاسخهای آنها “ارزشهای اصلی سوسیالیستی” را تجسم میکنند. به عنوان مثال، در اپلیکیشن چتبات DeepSeek، R1 به سوالات درباره میدان تیانآنمن یا خودمختاری تایوان پاسخ نخواهد داد.
رویکرد اختلالآمیز
اگر DeepSeek یک مدل تجاری دارد، مشخص نیست که این مدل دقیقاً چیست. این شرکت محصولات و خدمات خود را بسیار پایینتر از ارزش بازار قیمتگذاری میکند — و برخی از آنها را بهطور رایگان ارائه میدهد.
به گفته DeepSeek، پیشرفتهای کارایی به این شرکت اجازه داده است که هزینههای رقابتی فوقالعادهای را حفظ کند. با این حال، برخی کارشناسان به اعداد ارائه شده توسط این شرکت شک دارند.
هر چه که باشد، توسعهدهندگان به مدلهای DeepSeek که بهطور معمول به عنوان متن باز شناخته نمیشوند، بلکه تحت مجوزهای مجاز قابل تجاریسازی در دسترس هستند، پیوستهاند. طبق گفته کلم دلانگ، مدیرعامل Hugging Face، یکی از پلتفرمهای میزبان مدلهای DeepSeek، توسعهدهندگان در Hugging Face بیش از 500 مدل “حاصلخیز” از R1 ایجاد کردهاند که مجموعاً 2.5 میلیون دانلود داشتهاند.
موفقیت DeepSeek در برابر رقبای بزرگتر و مستحکمتر به عنوان “تغییر دهنده AI” و “بسیار تبلیغ شده” توصیف شده است. موفقیت این شرکت حداقل تا حدی مسئول افت 18 درصدی قیمت سهام Nvidia در ژانویه بوده و باعث شده واکنش عمومی از سوی سام آلتمن، مدیر عامل OpenAI، صورت گیرد.
مایکروسافت اعلام کرد که DeepSeek در خدمت Azure AI Foundry خود، پلتفرمی که خدمات AI را برای شرکتها تحت یک برند واحد جمع میکند، در دسترس است. وقتی از مارک زاکربرگ درباره تأثیر DeepSeek بر هزینههای AI متا در طول کنفرانس درآمدی سهماهه اول پرسیده شد، او گفت که هزینههای زیرساخت AI همچنان “مزیت استراتژیک” برای متا خواهد بود.
در طول کنفرانس درآمدی سهماهه چهارم Nvidia، جنسن هوانگ به ابتکار “عالی” DeepSeek اشاره کرد و گفت که این مدل و سایر “مدلهای استدلالی” برای Nvidia بسیار عالی هستند زیرا به محاسبات بیشتری نیاز دارند.
در عین حال، برخی از شرکتها به ممنوعیت DeepSeek پرداختهاند و همچنین خود کشورها و دولتها، از جمله کره جنوبی. ایالت نیویورک نیز استفاده از DeepSeek بر روی دستگاههای دولتی را ممنوع کرده است.
به عنوان آینده DeepSeek، مشخص نیست که چه خواهد بود. مدلهای بهبود یافته غیرقابل انکار است. اما به نظر میرسد که دولت ایالات متحده نسبت به آنچه به عنوان تأثیر زیانآور خارجی درک میکند، محتاط شده است.
این داستان در اصل در تاریخ 28 ژانویه 2025 منتشر شده.