این مجموعه داده شامل بیش از چهارصد هزار نام دست نویس است که از طریق پروژه های خیریه برای حمایت از کودکان محروم در سراسر جهان جمع آوری شده است.
تشخیص کاراکتر نوری (OCR) از فناوری های پردازش تصویر برای تبدیل کاراکترهای روی اسناد اسکن شده به فرم های دیجیتال استفاده می کند. معمولاً در فونت های چاپ شده ماشینی عملکرد خوبی دارد. با این حال، به دلیل تنوع بسیار زیاد در سبکهای نوشتاری، هنوز هم چالشهای دشواری برای ماشینها برای تشخیص کاراکترهای دستنویس ایجاد میکند.
در مجموع 206799 نام و 207024 نام خانوادگی وجود دارد. داده ها به ترتیب به مجموعه آموزشی (331059)، تست (41382) و مجموعه اعتبارسنجی (41382) تقسیم شدند.
برچسبهای تمام تصاویر ایجاد شده از طریق حاشیه نویسی انسان در حلقه در پلتفرم Appen نیز ارائه شده است که به شما امکان میدهد مجموعه دادهها را با دادههای خود گسترش دهید.
داده های ورودی در این کار صدها هزار تصویر از نام های دست نویس است. در برگه «داده ها» در بالا، تصاویر رونویسی شده را خواهید دید که به تست، آموزش و اعتبار سنجی تقسیم شده اند.
نقد و بررسیها
هنوز بررسیای ثبت نشده است.