فناوری OCR چیست و چه کاربردهایی دارد؟
گاهی اوقات ممکن است به یک دست نوشته و یا سند تایپی بر بخورید که بخواهید یک نسخه دیجیتالی از آن را در اختیار داشته باشید، اولین راهی که به ذهنتان میرسد تایپ آن توسط اپراتور است که این خود کار زمانبری است، اما فناوری OCR به شما این امکان را میدهد که صفحات حاوی متنی که اسکن کردهاید را از فرمت عکس به متن تبدیل کنید. در اینجا شما را بیشتر با این فناوری آشنا می کنیم، با ما همراه باشید:
OCR چیست؟
OCR که کوچک شده عبارت Optical Character Reader است، تکنولوژی است که به شما این امکان را میدهد تا صفحات حاوی متنی که اسکن کردهاید را از فرمت عکس به متن تبدیل کنید. دانشجویان، مترجمان و… که مقالات و متون مختلفی را اسکن میکنند، به راحتی میتوانند با تبدیل این فایلها به متن از تایپ مجدد آنها رها شوند.
بعد از آنکه تصویر حاوی متن را اسکن میکنیم، رایانه پردازشی را بر روی تصویر انجام میدهد. ابتدا تصویر را به قسمتها یا پارتیشنهای مجزا تقسیم میکند. بعد با استفاده از الگوریتمهای پردازش تصویر و هوش مصنوعی حروف کاراکترهایی را از درون متن استخراج میکند. اما ممکن است متن شما هنگام عکسبرداری چرخیده باشد. در نتیجه کامپیوتر عکس را چند درجه میچرخاند و باز عمل قبل را بر روی آن انجام میدهد و نتیجه را به دست میآورد. البته در اکثر موارد کار به همین راحتی که گفته میشود نیست و کلی عملیات پیچیده دیگر باید روی تصویر انجام بگیرد.
انواع OCR
فناوری OCR به دو نوع تایپی و دست نویس تقسیم میشود؛ یعنی یا باید یک متن که از قبل تایپ شده (مانند مجله، کتاب، روزنامه و یا …) را وارد رایانه کنیم، یا متون دست نویس را.
متون دست نویس نیز به دو دسته «گسسته» و «پیوسته» تقسیم میشوند: متون پیوسته متونی هستند که ما به طور روزانه آنها را مینویسیم مانند روزنوشتهها، خاطرات، نامه و … ، و اما متون گسسته متونی هستند که در آنها حروف جدا از هم نوشته میشوند، مانند فرمهای اطلاعاتی که نام و نام خانوادگی خود را در آنها به صورت هر حرف داخل یک کادر مینویسیم.
بدیهی است که OCR متون گسسته، کار بسیار راحت تری نسبت به مدل پیوسته است.
OCR چگونه کار میکند؟
اگر روند کار OCR را به صورت یک جعبه سیاه در نظر بگیریم، تصویر اسناد مورد نظر ورودی آن و خروجی آن فایل متنی دیجیتالی (مثلاً به فرمت MS- Word) از متن سند است.
تصویر زیر روند کار OCR را با به طور دقیقتر نشان می دهد.
با دریافت تصویر یک سند، ابتدا فرآیند، تحلیل محتوا میشود و نواحی مختلف اطلاعاتی در تصویر شناسایی میشوند. شکل زیر نمونهای از تصویر یک سند را نشان میدهد که شامل ۳ نوع ناحیه مختلف است: ناحیه متنی، ناحیه تصویری و ناحیه جدول.