স্ক্যান এবং ওসিআর

শুভ বিকাল

আপনি যখন কাগজের কাগজ নথিটি ইলেকট্রনিক রূপে অনুবাদ করতে চান তখন সম্ভবত আমাদের প্রত্যেকেই এটির মুখোমুখি হন। এটি বিশেষ করে যারা গবেষণা করে, ডকুমেন্টেশনের সাথে কাজ করে, ইলেকট্রনিক অভিধান ব্যবহার করে পাঠ্য অনুবাদ করে।

এই প্রবন্ধে আমি এই প্রক্রিয়ার বুনিয়াদি কিছু ভাগ করতে চাই। সাধারণভাবে, স্ক্যানিং এবং পাঠ্য সনাক্তকরণটি বেশ ব্যয়বহুল, কারণ বেশীরভাগ ক্রিয়াকলাপ নিজে সম্পন্ন করতে হবে। আমরা কীভাবে, কিভাবে এবং কেন তা বুঝতে চেষ্টা করব।

সবাই অবিলম্বে এক জিনিস বোঝে না। স্ক্যান করার পরে (স্ক্যানারের সমস্ত শিট ফিটিং) আপনার বিএমপি, JPG, PNG, GIF ফর্ম্যাটের ছবি থাকবে (অন্য ফরম্যাট থাকতে পারে)। তাই এই ছবি থেকে আপনি টেক্সট পেতে হবে - এই পদ্ধতি স্বীকৃতি বলা হয়। এই আদেশ, এবং নীচে উপস্থাপন করা হবে।

কন্টেন্ট

  • স্ক্যানিং এবং স্বীকৃতির জন্য কী প্রয়োজন?
  • 2. টেক্সট স্ক্যান বিকল্প
  • 3. ডকুমেন্ট টেক্সট স্বীকৃতি
    • 3.1 পাঠ্য
    • 3.2 ছবি
    • 3.3 টেবিল
    • 3.4 অপ্রয়োজনীয় আইটেম
  • 4. পিডিএফ / ডিজেভিউ ফাইলের স্বীকৃতি
  • 5. ত্রুটি পরীক্ষা এবং কাজের ফলাফল সংরক্ষণ

স্ক্যানিং এবং স্বীকৃতির জন্য কী প্রয়োজন?

1) স্ক্যানার

মুদ্রিত নথির পাঠ্য ফর্মের অনুবাদ করতে, আপনাকে প্রথমে স্ক্যানার প্রয়োজন এবং সেই অনুসারে "স্থানীয়" প্রোগ্রাম এবং ড্রাইভারগুলি যা তার সাথে গিয়েছিল। তাদের সাথে আপনি নথি স্ক্যান করতে এবং আরও প্রক্রিয়াকরণের জন্য এটি সংরক্ষণ করতে পারেন।

আপনি অন্যান্য উপাদানের ব্যবহার করতে পারেন, কিন্তু যে সফ্টওয়্যারটি কিট স্কানারের সাথে আসে তা সাধারণত দ্রুত কাজ করে এবং আরো বিকল্প থাকে।

আপনি স্ক্যানার ধরনের কি উপর নির্ভর করে - কাজের গতি উল্লেখযোগ্যভাবে পরিবর্তিত হতে পারে। 10 সেকেন্ডের মধ্যে একটি শীট থেকে ছবি তুলতে পারে এমন স্ক্যানার রয়েছে, 30 সেকেন্ডের মধ্যে এটি এমন কিছু থাকবে। ২00-300 শীটগুলিতে যদি আপনি কোনও বই স্ক্যান করেন - আমার মনে হয় সময় কতটা পার্থক্য হবে তা গণনা করা কি কঠিন?

2) স্বীকৃতি জন্য প্রোগ্রাম

আমাদের নিবন্ধে, আমি আপনাকে ABBYY FineReader - কোনওও দস্তাবেজ স্ক্যান এবং স্বীকৃতি দেওয়ার জন্য সেরা প্রোগ্রামগুলির একটিতে কাজটি দেখাবো। কারণ প্রোগ্রামটি প্রদান করা হয়, তারপরে অবিলম্বে আমি অন্যকে একটি লিঙ্ক দেব - এটি কুনি ফর্মের বিনামূল্যে অ্যালালগ। সত্যই, আমি তাদের তুলনা করব না, কারণ FineReader সব ক্ষেত্রেই জিতেছে, আমি এটিকে সব চেষ্টা করার সুপারিশ করছি।

এবিবি ওয়াইন রিডার 11

অফিসিয়াল সাইট: //www.abbyy.ru/

তার ধরনের সেরা প্রোগ্রাম এক। এটি ছবির টেক্সট চিনতে ডিজাইন করা হয়। অনেক অপশন এবং বৈশিষ্ট্য নির্মিত। এটি ফন্টের গুচ্ছ বিশ্লেষণ করতে পারে, এমনকি হস্তলিখিত সংস্করণগুলিকে সমর্থন করে (যদিও আমি ব্যক্তিগতভাবে এটি চেষ্টা করে নিই, তবে মনে হয় হাতের লেখা লিখিত সংস্করণটি যদি আপনার কাছে নিখুঁত কিলগ্রাফিক হাতের লেখা না থাকে তবে)। তার সাথে কাজ সম্পর্কে আরও তথ্য নীচে আলোচনা করা হবে। আমরা এখানে 11 টি সংস্করণে নিবন্ধটিকে আচ্ছাদন করে নিবন্ধটিও উল্লেখ করব।

একটি নিয়ম হিসাবে, ABBYY FineReader এর বিভিন্ন সংস্করণ একে অপরের থেকে খুব আলাদা নয়। আপনি সহজে অন্য একই করতে পারেন। প্রধান পার্থক্য সুবিধা, প্রোগ্রাম এবং তার ক্ষমতা গতিতে হতে পারে। উদাহরণস্বরূপ, পূর্ববর্তী সংস্করণগুলি একটি পিডিএফ নথি এবং ডিজেভিইউ খুলতে অস্বীকার করে ...

3) স্ক্যান করতে ডকুমেন্টস

হ্যাঁ, তাই এখানে, আমি একটি পৃথক কলামে নথি গ্রহণ করার সিদ্ধান্ত নিয়েছে। অধিকাংশ ক্ষেত্রে, কোন পাঠ্যপুস্তক, সংবাদপত্র, নিবন্ধ, পত্রিকা, ইত্যাদি স্ক্যান করুন চাহিদা যে বই এবং সাহিত্য। আমি কি নেতৃত্ব দিচ্ছি? ব্যক্তিগত অভিজ্ঞতা থেকে, আমি বলতে পারি যে আপনি যা স্ক্যান করতে চান - ইতিমধ্যে নেটতে থাকতে পারে! যখন আমি একটি বই বা অন্য কেউ ইতিমধ্যে নেটওয়ার্কে স্ক্যান করেছি তখন কতবার আমি ব্যক্তিগতভাবে সময় বাঁচিয়েছি। আমি শুধু নথিতে পাঠ্য অনুলিপি করতে এবং এটি দিয়ে অবিরত ছিল।

এই সহজ পরামর্শ থেকে - আপনি কিছু স্ক্যান করার আগে, কেউ ইতিমধ্যে স্ক্যান করেছেন কিনা তা যাচাই করুন এবং আপনার সময় নষ্ট করার দরকার নেই।

2. টেক্সট স্ক্যান বিকল্প

এখানে, স্ক্যানারের জন্য আমি আপনার ড্রাইভারগুলির সাথে কথা বলব না, প্রোগ্রামগুলি যা দিয়েছিল, কারন সমস্ত স্ক্যানার মডেল ভিন্ন, সফটওয়্যারটি সর্বত্র ভিন্ন এবং অনুমান করা এবং অপারেশনটি কীভাবে সম্পাদন করা যায় তা আরও পরিষ্কারভাবে অবাস্তব।

কিন্তু সমস্ত স্কানারগুলির একই সেটিংস রয়েছে যা আপনার কাজের গতি এবং গুণকে ব্যাপকভাবে প্রভাবিত করতে পারে। এখানে তাদের সম্পর্কে আমি এখানে কথা বলতে হবে। আমি অর্ডার তালিকা হবে।

1) স্ক্যান মান - ডিপিআই

প্রথম, 300 ডিপিআই থেকে কম নয় এমন বিকল্পগুলিতে স্ক্যান গুণমান সেট করুন। এটা সম্ভব হলে একটু বেশি করা যুক্তিযুক্ত। DPI নির্দেশকের উচ্চতর, আপনার ছবিটি আরও পরিষ্কার হয়ে যাবে এবং তাই, আরো প্রক্রিয়া দ্রুততর হয়ে যাবে। উপরন্তু, স্ক্যানের গুণমানটি উচ্চতর - আপনার ভুলগুলি পরবর্তীতে ভুল সংশোধন করতে হবে।

সর্বোত্তম বিকল্প সাধারণত 300-400 ডিপিআই সরবরাহ করে।

2) ক্রোমোটিটি

এই প্যারামিটারটি স্ক্যান সময়টিকে ব্যাপকভাবে প্রভাবিত করে (উপায় অনুসারে, ডিপিআইও প্রভাবিত করে, তবে তারা এত শক্তিশালী, এবং ব্যবহারকারী যখন উচ্চ মান নির্ধারণ করে)।

সাধারণত তিনটি মোড আছে:

- কালো এবং সাদা (প্লেইন টেক্সট জন্য নিখুঁত);

- ধূসর (টেবিল এবং ছবি সহ টেক্সট জন্য উপযুক্ত);

- রঙ (রঙ পত্রিকা, বই, সাধারণভাবে, নথি, যেখানে রঙ গুরুত্বপূর্ণ)।

সাধারণত স্ক্যান সময় রং পছন্দ উপর নির্ভর করে। সব পরে, যদি আপনার কাছে একটি বড় দস্তাবেজ থাকে, তবে পুরো পৃষ্ঠায় অতিরিক্ত 5-10 সেকেন্ডেরও একটি উপযুক্ত সময় হবে ...

3) ছবি

আপনি শুধুমাত্র স্ক্যান করে নথিটি পেতে পারেন, তবে এটির একটি ছবিও গ্রহণ করতে পারেন। একটি নিয়ম হিসাবে, এই ক্ষেত্রে আপনি কিছু অন্যান্য সমস্যা হবে: ছবি বিকৃতি, blurring। এর কারণে, এটি প্রাপ্ত পাঠের আরও বেশি সম্পাদনা এবং প্রক্রিয়াকরণের প্রয়োজন হতে পারে। ব্যক্তিগতভাবে, আমি এই ব্যবসার জন্য ক্যামেরা ব্যবহার করার সুপারিশ করি না।

এটি উল্লেখ্য যে প্রতিটি যেমন নথি সনাক্ত করা হবে না, কারণ স্ক্যান মান তিনি অত্যন্ত কম হতে পারে ...

3. ডকুমেন্ট টেক্সট স্বীকৃতি

আমরা অনুভূত যে পরিপূর্ণ পৃষ্ঠাগুলি আপনাকে স্ক্যান করেছে। বেশিরভাগ ক্ষেত্রে তারা ফরম্যাটগুলি থাকে: টিআইএফ, বিএমবি, জেপিপি, পিএনজি। সাধারণভাবে, ABBYY FineReader- এটি খুব গুরুত্বপূর্ণ নয় ...

ABBYY FineReader এ ছবিটি খোলার পরে, প্রোগ্রাম হিসাবে, একটি নিয়ম হিসাবে, মেশিনে এলাকা নির্বাচন এবং তাদের চিনতে শুরু করে। কিন্তু মাঝে মাঝে সে ভুল করে। এই জন্য আমরা নিজে পছন্দসই এলাকায় নির্বাচন বিবেচনা।

এটা গুরুত্বপূর্ণ! প্রোগ্রামে কোনও দস্তাবেজ খোলার পরেই সবারই বুঝে না যে, সোর্স নথিটি উইন্ডোতে বাম দিকে প্রদর্শিত হয়, যেখানে আপনি বিভিন্ন এলাকায় হাইলাইট করেন। "স্বীকৃতি" বোতামে ক্লিক করার পরে, ডানদিকের উইন্ডোতে প্রোগ্রামটি আপনাকে শেষ পাঠ্য দেবে। স্বীকৃতি পাওয়ার পর, একই FineReader এ ত্রুটিগুলির জন্য পাঠ্যটি পরীক্ষা করা যুক্তিযুক্ত।

3.1 পাঠ্য

এই এলাকা টেক্সট হাইলাইট ব্যবহার করা হয়। ছবি এবং টেবিল এটি থেকে বাদ দেওয়া উচিত। বিরল এবং অস্বাভাবিক ফন্ট ম্যানুয়ালি প্রবেশ করতে হবে ...

একটি টেক্সট এলাকা নির্বাচন করতে, FineReader এর শীর্ষে প্যানেলে মনোযোগ দিন। একটি বাটন "টি" আছে (দেখুন। নীচের স্ক্রিনশট, মাউস পয়েন্টার এই বোতামটিতেই রয়েছে)। এটির উপর ক্লিক করুন, তারপরে নীচের চিত্রটিতে পাঠ্যটি অবস্থিত সুস্পষ্ট আয়তক্ষেত্রাকার এলাকা নির্বাচন করুন। যাইহোক, কিছু ক্ষেত্রে আপনাকে 2-3 পৃষ্ঠার পাঠ্য ব্লকগুলি তৈরি করতে হবে, এবং মাঝে মাঝে 10-12 প্রতি পৃষ্ঠায় পাঠ্য বিন্যাস ভিন্ন হতে পারে এবং সমগ্র আয়তনের সাথে একটি আয়তক্ষেত্র নির্বাচন করতে পারে না।

এটি গুরুত্বপূর্ণ যে ইমেজ টেক্সট এলাকায় পড়া উচিত নয়! ভবিষ্যতে, এটি আপনাকে অনেক সময় বাঁচাবে ...

3.2 ছবি

চিত্রগুলি এবং নিম্নোক্ত ক্ষেত্রগুলিকে হীন গুণমান বা অস্বাভাবিক ফন্টের কারণে সনাক্ত করা কঠিন।

নীচের স্ক্রিনশটটিতে মাউস পয়েন্টারটি "ছবি" এলাকাটি নির্বাচন করার জন্য ব্যবহৃত বাটনটিতে অবস্থিত। যাইহোক, এই এলাকার একেবারে কোনও অংশটি নির্বাচন করা যেতে পারে এবং FineReader তারপর নথিতে এটি একটি সাধারণ চিত্র হিসাবে সন্নিবেশ করবে। অর্থাত শুধু "মূঢ়" কপি করা হবে ...

সাধারণত, এই ক্ষেত্রটি নন-স্ট্যান্ডার্ড টেক্সট এবং ফন্ট হাইলাইট, চিত্রগুলি নিজেদেরকে হাইলাইট করতে, খারাপভাবে স্ক্যান করা সারণিতে হাইলাইট করতে ব্যবহৃত হয়।

3.3 টেবিল

নীচের স্ক্রিনশট টেবিলগুলি হাইলাইট করতে বাটনটি দেখায়। সাধারণভাবে, আমি ব্যক্তিগতভাবে খুব কমই এটি ব্যবহার। আসলে আপনি বেশিরভাগ টেবিলে প্রতিটি লাইন আঁকতে এবং প্রোগ্রামটি কীভাবে এবং কীভাবে দেখান তা নিয়মিতভাবে আঁকতে হবে। টেবিল ছোট এবং খুব ভাল মানের না হলে, আমি এই উদ্দেশ্যে "ছবি" এলাকা ব্যবহার করার পরামর্শ দিই। এর ফলে অনেক সময় বাঁচায় এবং তারপরে আপনি ছবির ভিত্তিতে শব্দটিতে দ্রুত একটি টেবিল তৈরি করতে পারেন।

3.4 অপ্রয়োজনীয় আইটেম

এটা নোট গুরুত্বপূর্ণ। কখনও কখনও পৃষ্ঠায় অপ্রয়োজনীয় উপাদানগুলি রয়েছে যা পাঠ্যটিকে সনাক্ত করা কঠিন করে তোলে, বা আপনি পছন্দসই এলাকাটি নির্বাচন করতে দেয় না। এগুলি "ইরেজার" ব্যবহার করে সরিয়ে ফেলা যেতে পারে।

এটি করার জন্য, চিত্র সম্পাদনা মোডে যান।

Eraser টুল নির্বাচন করুন এবং অবাঞ্ছিত এলাকা নির্বাচন করুন। এটি মুছে ফেলা হবে এবং তার জায়গায় কাগজ একটি সাদা শীট হবে।

যাইহোক, আমি যত তাড়াতাড়ি সম্ভব আপনি এই বিকল্পটি ব্যবহার করার সুপারিশ। আপনার নির্বাচিত সমস্ত পাঠ্য এলাকাগুলি চেষ্টা করুন, যেখানে আপনার পাঠ্যের একটি টুকরা দরকার নেই, বা কোন অপ্রয়োজনীয় বিন্দু, অস্পষ্টতা, বিকৃতি রয়েছে - একটি ইরেজার দিয়ে মুছুন। ধন্যবাদ এই স্বীকৃতি দ্রুত হবে!

4. পিডিএফ / ডিজেভিউ ফাইলের স্বীকৃতি

সাধারণভাবে, এই স্বীকৃতি বিন্যাস অন্যদের থেকে আলাদা হবে না - যেমন। আপনি ছবির সাথে ঠিক মত কাজ করতে পারেন। প্রোগ্রামটি খুব পুরাতন সংস্করণ না হওয়া উচিত, যদি আপনি PDF / DJVU ফাইল খুলেন না - সংস্করণটি 11 এ আপডেট করুন।

একটু পরামর্শ। FineReader এ দস্তাবেজটি খোলার পরে - এটি স্বয়ংক্রিয়ভাবে দস্তাবেজটিকে চিনতে শুরু করবে। প্রায়শই পিডিএফ / ডিজেভিউ ফাইলগুলিতে, পুরো ডকুমেন্টে পৃষ্ঠার একটি নির্দিষ্ট এলাকা প্রয়োজন হয় না! সমস্ত পৃষ্ঠায় যেমন একটি এলাকা অপসারণ করতে, নিম্নলিখিত কাজ করুন:

1. ছবি সম্পাদনা বিভাগে যান।

2. "trimming" বিকল্পটি সক্রিয় করুন।

3. আপনি সমস্ত পৃষ্ঠায় প্রয়োজন এলাকায় নির্বাচন করুন।

4. সমস্ত পৃষ্ঠা এবং ছাঁটাই আবেদন করুন।

5. ত্রুটি পরীক্ষা এবং কাজের ফলাফল সংরক্ষণ

মনে হচ্ছে অন্যান্য সমস্যা হতে পারে, যখন সমস্ত এলাকা নির্বাচন করা হয়েছিল, তখন স্বীকৃত - এটি গ্রহণ করুন এবং এটি সংরক্ষণ করুন ... এটি সেখানে ছিল না!

প্রথম, আমাদের নথি পরীক্ষা করতে হবে!

এটি সক্ষম করার জন্য, স্বীকৃতির পরে ডানদিকের উইন্ডোতে একটি "চেক" বোতাম থাকবে, নীচের স্ক্রিনশটটি দেখুন। এটি ক্লিক করার পরে, FineReader প্রোগ্রাম স্বয়ংক্রিয়ভাবে আপনাকে সেই এলাকায় দেখাবে যেখানে প্রোগ্রামটিতে ত্রুটি রয়েছে এবং এটি এক বা অন্য প্রতীকটি নির্ভরযোগ্যভাবে নির্ধারণ করতে পারে না। আপনি শুধুমাত্র নির্বাচন করতে হবে, অথবা আপনি প্রোগ্রামের মতামতের সাথে একমত, বা আপনার চরিত্র লিখুন।

যাইহোক, অর্ধেক ক্ষেত্রে, আনুমানিক, প্রোগ্রামটি আপনাকে একটি তৈরি করা সঠিক শব্দ সরবরাহ করবে - আপনি কেবল আপনার পছন্দসই বিকল্পটি চয়ন করতে মাউসটি ব্যবহার করতে হবে।

দ্বিতীয়ত, চেক করার পরে আপনাকে আপনার কাজের ফলাফল সংরক্ষণ করার জন্য বিন্যাসটি নির্বাচন করতে হবে।

এখানে FineReader আপনাকে পুরোপুরি পাল্টে দেয়: আপনি সহজেই শব্দটি এক-একের মধ্যে তথ্য স্থানান্তর করতে পারেন এবং আপনি এটি কয়েক ডজন ফর্ম্যাটে সংরক্ষণ করতে পারেন। কিন্তু আমি অন্য গুরুত্বপূর্ণ দিক হাইলাইট করতে চাই। আপনি যে কোন ফরম্যাট চয়ন করেন, কপি টাইপ নির্বাচন করা আরো গুরুত্বপূর্ণ! সবচেয়ে আকর্ষণীয় বিকল্প বিবেচনা করুন ...

সঠিক কপি

স্বীকৃত নথির পৃষ্ঠায় আপনি যে সমস্ত এলাকা নির্বাচন করেছেন সেটি উত্স দস্তাবেজে ঠিক মিলবে। আপনার জন্য গুরুত্বপূর্ণ যখন একটি খুব সুবিধাজনক বিকল্প টেক্সট বিন্যাস হারান না। যাইহোক, ফন্ট এছাড়াও মূল অনুরূপ হতে হবে। আমি ডকুমেন্ট স্থানান্তর করতে এই বিকল্পটির সাথে সুপারিশ করি, সেখানে আরও কাজ চালিয়ে যেতে।

সম্পাদনাযোগ্য কপি

এই বিকল্পটি ভাল কারণ আপনি পাঠ্যের একটি ফর্ম্যাট করা সংস্করণ পেয়েছেন। অর্থাত "কিলোমিটার" এর ইন্ডেন্টেশন যা মূল নথিতে থাকতে পারে - আপনি তা পূরণ করবেন না। গুরুত্বপূর্ণ তথ্যটি সম্পাদনা করার সময় দরকারী বিকল্প।

সত্য, আপনি ডিজাইন শৈলী, ফন্ট, ইন্ডেন্ট রক্ষা করার জন্য আপনার পক্ষে গুরুত্বপূর্ণ কিনা তা নির্বাচন করা উচিত নয়। কখনও কখনও, স্বীকৃতি খুব সফল না হলে - আপনার নথির পরিবর্তিত বিন্যাসের কারণে "স্কু" হতে পারে। এই ক্ষেত্রে, এটি একটি সঠিক কপি নির্বাচন করার পরামর্শ দেওয়া হয়।

সাধারণ টেক্সট

অন্য সব ছাড়া পৃষ্ঠা থেকে শুধু পাঠ্য প্রয়োজন যারা জন্য একটি বিকল্প। ছবি এবং টেবিল ছাড়া নথি জন্য উপযুক্ত।

এই নথি স্ক্যানিং এবং স্বীকৃতি নিবন্ধটি উপসংহার। আমি এই সহজ টিপস সাহায্যে আপনি আপনার সমস্যা সমাধান করতে পারেন আশা করি যে ...

গুড লাক!

ভিডিও দেখুন: আইডয নট: ওসআর টকসট সকযনর, জটড, রঙ নটIdea Note: OCR Text Scanner,GTD,Color Notes (নভেম্বর 2024).