تشخیص نوری کاراکتر (OCR) چیست؟
تعریف OCR تشخیص نوری کاراکتر (OCR) تکنولوژیای است که به طور اتوماتیک اطلاعات را استخراج کرده و تصاویر متنی را به فرمتهایی تبدیل میکند که ماشینها قادر به خواندن آن باشند. این فناوری بعضاً به عنوان تشخیص متن نیز شناخته میشود. برنامههای OCR میتوانند دادهها را از اسناد اسکن شده، تصاویر دوربین و فایلهای PDF فقط تصویری استخراج کرده و دوباره مورد استفاده قرار دهند. نرمافزارهای OCR حروف را روی تصاویر شناسایی کرده، آنها را به کلمات و جملات تبدیل میسازند و بدین ترتیب دسترسی و ویرایش محتوای اصلی را ممکن میکنند. این فرآیند همچنین از نیاز به وارد کردن دستی دادهها جلوگیری میکند.
سیستمهای OCR ترکیبی از سختافزار و نرمافزار را برای تبدیل اسناد فیزیکی و چاپی به متن قابل خواندن توسط ماشین به کار میگیرند. سختافزار، مانند اسکنر یا مدارهای خاص، متن را کپی یا خوانده و سپس نرمافزار اغلب پردازشهای پیشرفتهتری را انجام میدهد. نرمافزارهای OCR همچنین میتوانند از هوش مصنوعی (AI) برای پیادهسازی روشهای پیشرفتهتر تشخیص کاراکتر هوشمند (ICR) بهرهبرداری کنند تا زبانها یا خط دست را شناسایی کنند. سازمانها معمولاً از OCR برای تبدیل اسناد قانونی یا تاریخی به اسناد PDF استفاده میکنند تا امکان ویرایش، قالببندی و جستجوی بهتر برای کاربران فراهم شود.
تاریخچه OCR
در سال 1974، ری کروزایل (Ray Kurzweil) شرکت Kurzweil Computer Products را تأسیس کرد که اولین محصول OCR با قابلیت تشخیص متن با اکثر فونتها را معرفی کرد. وی این فناوری را به عنوان وسیلهای مناسب برای کمک به افراد با اختلال بینایی معرفی کرد و ماشینی ساخت که میتوانست متن را با صدای بلند بخواند. در سال 1980، کروزایل شرکتش را به زیراکس فروخت که قصد داشت این فناوری را بیشتر تجاریسازی کند.
فناوری OCR در اوایل دهه 1990 با دیجیتالی کردن روزنامههای تاریخی به طور گستردهای مورد استفاده قرار گرفت و از آن زمان این فناوری همچنان پیشرفتهایی را تجربه کرده است. امروزه محصولات قدرتمندی وجود دارند که دقت تشخیص OCR را به حد بسیار بالایی میرسانند و توانایی اتوماتیک کردن فرآیندهای پیچیده پردازش اسناد را دارند. پیش از ظهور فناوری OCR، تنها گزینه برای دیجیتالی کردن مستندات، وارد کردن دستی دوباره متن بود. این روش نه تنها زمانبر است بلکه دقت کمتری نیز دارد. هماکنون، خدمات OCR به گستردگی در دسترس هستند و برای مثال، Google Cloud Vision OCR میتواند برای اسکن و ذخیرهسازی اسناد در گوشیهای هوشمند استفاده شود.
نحوه کار OCR
نرمافزار OCR از اسکنر برای تبدیل فرم فیزیکی یک سند به متن دیجیتال قابل ویرایش استفاده میکند. این نرمافزار میتواند به صورت یک برنامه مستقل، رابط برنامهنویسی کاربردی OCR یا یک سرویس مبتنی بر وب عمل کند.
دریافت تصویر: ابتدا تمامی صفحات یک سند کپی میشوند و سپس موتور OCR آن را به یک نسخه سیاه و سفید یا دو رنگ تبدیل میکند. تصویر اسکن شده که به صورت بیتی ذخیره شده، برای شناسایی قسمتهای روشن و تاریک تحلیل میشود. بخشهای تاریک به عنوان کاراکترهای قابل شناسایی و مناطق روشن به عنوان پسزمینه شناسایی میشوند.
پیشپردازش: تصویر دیجیتال به منظور حذف پیکسلهای اضافی تمیز میشود. این مرحله میتواند شامل تصحیح تراز نادرست تصویر، حذف خطوط گرافیکی و تعیین وجود متن نوشته شده باشد.
تشخیص متن: بخشهای تاریک برای شناسایی حروف، اعداد و نمادها پردازش میشوند. این مرحله معمولاً به تشخیص یک کاراکتر، کلمه یا بلوک متن در یک زمان مشخص میپردازد و کاراکترها با استفاده از دو الگوریتم اصلی، یعنی تشخیص الگو (Pattern Recognition) و تشخیص ویژگی (Feature Recognition) شناسایی میشوند.
- تشخیص الگو: نرمافزار OCR از قبل روی نمونههایی از متنهای مختلف آموزش دیده و کاراکترها را با الگوهای مستند مقایسه میکند. برای این کار، کاراکترها باید با فونتی مطابقت داشته باشند که برنامه OCR قبلاً آموزش دیده است.
- تشخیص ویژگی: این متد در زمانی به کار میرود که برنامه OCR در حال تحلیل فونتی است که روی آن آموزش ندیده است. OCR با استفاده از قوانین خاص، ویژگیهایی از کاراکترها یا اعداد را شناسایی میکند.
تشخیص چیدمان: OCR همچنین ساختار یک تصویر سند را تحلیل میکند و آن را به اجزایی مانند بلوکهای متن، جداول و تصاویر تقسیم میکند. پس از جداسازی کاراکترها، برنامه آنها را با تصاویر الگو مقایسه میکند و متن شناسایی شده را باز میگرداند.
پسپردازش: اطلاعات جمعآوری شده پس از پردازش به صورت یک فایل دیجیتال و قابل ویرایش یا به شکل PDF ذخیره میشود. برخی سیستمها هم نسخه ورودی و هم نسخههای پردازش شده را برای مدیریت بهتر اسناد حفظ میکنند.
انواع OCR
OCR به چهار نوع متفاوت تقسیم میشود که به شرح زیر است:
OCR ساده: این نوع تنها به تجزیه و تحلیل کاراکترهای جداگانه میپردازد و کاراکترهای اسکن شده را با گلیفهای ذخیره شده مقایسه میکند. به دلیل تنوع فونتها و زبانها، این نوع محدودیتهایی در تحلیل اسناد دارد.
تشخیص علامت نوری (OMR): این تکنولوژی برای شناسایی کادرهای علامتگذاری شده، مانند کمبلهای موجود در نظرسنجیها، استفاده میشود.
تشخیص کاراکتر هوشمند (ICR): این نوع از قدرت هوش مصنوعی بهره میبرد و با استفاده از یادگیری ماشین و یادگیری عمیق، به یادگیری خواندن متن مانند انسانها میپردازد.
تشخیص هوشمند کلمه: این روش به تحلیل کل کلمات میپردازد و فناوری هوش مصنوعی برای شناسایی بهتر کلمات در تصاویر به کار میرود.
مزایای OCR
استفاده از فناوری OCR مزایایی به همراه دارد که شامل موارد زیر است:
- کاهش هزینهها به واسطه کاهش یا حذف ورودی دستی.
- سادهسازی گردش کار و افزایش سرعت دسترسی به اطلاعات دیجیتالی قابل جستجو.
- خودکارسازی مراحل پردازش و آمادهسازی دادهها برای متنکاوی.
- صرفهجویی در هزینههای نگهداری سوابق کاغذی.
- متمرکز و ایمنسازی دادهها جهت حفاظت از آنها در برابر حوادث و سرقت.
- افزایش دسترسی به دادهها برای کارکنان و مشتریان کمبینا.
- بهبود خدمات با ارائه بهروزترین و دقیقترین اطلاعات به کادر.
موارد استفاده از OCR
یکی از شناختهشدهترین موارد استفاده از OCR تبدیل اسناد کاغذی به متنهایی است که توسط ماشینها قابل خواندن هستند. بعد از پردازش OCR، میتوان متن را با نرمافزارهایی مانند Microsoft Word یا Google Docs ویرایش کرد. این فناوری همچنین میتواند کارایی را در صنایع مختلف مانند آموزش، امور مالی، بهداشت و درمان، تدارکات و حمل و نقل افزایش دهد.
OCR به عنوان یک فناوری پشت صحنه به طور گسترده در بسیاری از سیستمها و خدمات روزانه ما مورد استفاده قرار میگیرد. موارد استخدام کمتر شناختهشده شامل اتوماسیون ورود دادهها، کمک به افراد نابینا و کمبینا و نمایهسازی اسناد برای موتورهای جستجو است.
با تبدیل کاغذ و اسناد به فایلهای PDF قابل جستجو، OCR به بهینهسازی مدلسازی کلان دادهها کمک میکند. این فرآیند میتواند به سازمانها اجازه دهد تا دادهها را از اسناد مختلف، به طور خودکار فراخوانی و پردازش کنند.
آخرین پیشرفتها در OCR
فناوری OCR در این سالها پیشرفتهای چشمگیری را تجربه کرده و این روند همچنان ادامه دارد. برنامههای OCR با قابلیت استخراج اطلاعات کلیدی از اسناد حتی در شرایط نامناسب، مانند وضوح پایین و فونتهای نامتعارف، طراحی شدهاند. پیشرفتها شامل استفاده از بینایی کامپیوتری و پردازش زبان طبیعی به همراه یادگیری ماشین به منظور تسهیل این فرایند هستند. امروزه بعضی از برنامههای OCR از هوش مصنوعی مولد برای ساختاردهی سریعتر اسناد استفاده میکنند که نشاندهنده پویایی و خلاقیت این فناوری است.