NER معمولی موجودیت های مختلفی را در متن شناسایی می کند، اما هر نامی با زمینه مناسب همراه نیست. دیتاست ها داده های ساختار یافته را در قالب XML ارائه می دهد و کاربران خود را ملزم به استخراج موجودیت های مختلف می کند.
مجموعه داده شامل فایل های XML و تصاویر است. فایل های XML حاوی داده های استخراج شده از تصویر فاکتورها هستند، نام متن و فایل XML برای وضوح یکسان نگه داشته می شود. کاربران مجموعه داده باید اشخاصی مانند شماره فاکتور، داده های فاکتور، نام شرکت (فاکتور از شرکت 1 به شرکت 2 / شخص)، شماره تلفن شرکت، آدرس و غیره را استخراج کنند.
نقد و بررسیها
هنوز بررسیای ثبت نشده است.