গুগল ওসিআর থেকে উইকিসোর্স

কিছুদিন আগে গুগল ড্রাইভে বাংলা এবং ভারতীয় অন্যান্য ভাষার ওসিআর যুক্ত করা হয়েছে। কোনো ছবি বা পিডিএফ ফাইল গুগল ড্রাইভে আপলোড করা ফাইলের লেখাগুলো আলাদা করা যায়। 

বাংলা উইকিসোর্সে (https://bn.wikisource.org) মুক্ত লাইসেন্সের অধিনে এমন অনেক বই রয়েছে। স্ক্যান করা এই বইগুলো এতোদিন পর্যন্ত দেখে দেখে টাইপ করতে হতো। এই কাজটি কিছুটা সহজ হয়ে যাবে যদি এটি সয়ংক্রিয় পদ্ধতিতে করা যায়। গুগল ড্রাইভ ব্যবহার করে এই কাজটি সহজেই করা যায়, কিন্তু বইএর প্রতিটি পাতা আলাদা করে আপলোড করা এবং পরবর্তীতে সেটি উইকিসোর্সে আপলোড করার জন্য বেশ অনেকটা সময় প্রয়োজন। বেশি সংখ্যক পাতা রয়েছে এমন বইগুলোর জন্য কাজটি প্রায় অসম্ভব বলে মনে হতে পারে। 

OCR4wikisource (https://github.com/tshrinivasan/OCR4wikisource) নামের একটি স্ক্রিপ্ট ব্যবহার করে এই সম্পূর্ণ কাজটি সংয়ক্রিয়ভাবে সম্পন্ন করা সম্ভব । নিচে উল্লেখিত পদ্ধতি অনুসরণ করে এই স্ক্রিপ্টটি সক্রিয় করা এবং বই আপলোডের কাজে ব্যবহার করা যাবে। এই টুলটি কেবলমা্ত্র লিনাক্স থেকে ব্যবহার করা যাবে। উইন্ডোজ ব্যবহারকারীদের উপযোগী সংস্করণটি এখনো প্রকাশিত হয়নি।

ধাপ ১ : OCR4wikisource ডাউনলোড করা

https://github.com/tshrinivasan/OCR4wikisource লিংক থেকে Download ZIP বাটনে ক্লিক করলে স্ক্রিপ্টটি ডাউনলোড হবে। অথবা সরাসরি এই লিংকে (https://github.com/tshrinivasan/OCR4wikisource/archive/master.zip) ক্লিক করলেও ডাউলোড শুরু হবে। 

এই স্ক্রিপ্টটি সম্প্রতি নিয়মিত আপডেট করা হচ্ছে, তাই ব্যবহার করার সময় ভার্সন নম্বরটি দেখে নিন। এবং পরবর্তীতে ব্যবহার করার সময় নতুন সংস্করণ প্রকাশিত হলে স্ক্রিপ্টটি আপডেট করতে হবে। 

ধাপ ২: ইনস্টল করা

Ctrl+Alt+T সর্টকাট ব্যবহার করে টার্মিনাল ওপেন করুন। এবার OCR4wikisource স্ক্রিপ্টটি যেখানে ডাউনলোড করা হয়েছে সে পাথ ওপেন করুন। 

cd PathTo/OCR4wikisource
bash ./setup.sh

ধাপ ৩: এপিআই কনফিগার করা

গুগল ড্রাইভ ফাইল আপলোড এবং ডাউনলোডের কাজটি করা হবে এপিআই এর মাধ্যমে। এজন্য নিচের পদ্ধতি অনুযায়ী এপিআই কনফিগার করতে হবে। 

  • https://console.developers.google.com ঠিকানা থেকে নতুন একটি প্রজেক্ট তৈরী করুন
  • "APIs & auth/APIs" অংশ থেকে দুটি এপিআই সক্রিয় করতে হবে। 
    • Drive API
    • Fusion Tables API
  • খেয়াল রাখতে হবে যে "APIs & auth/Consent screen" স্ক্রিনে "PRODUCT NAME" লেখা বাধ্যতামূলক
  • এপিআই সক্রিয় করার পর "APIs & auth/Credentials" মেনু থেকে নতুন ক্রিডেনশিয়াল তৈরী করতে হবে
    • Credentials এর ধরণ OAuth 2.0 client ID নির্বাচন করুন
    • Application type > Other
    • Name অংশে পছন্দমত নাম নির্ধারণ করতে হবে
    • তৈরী হয়ে যাওয়ার পরে JSON ফরম্যাটে ডাউনলোড করতে হবে

ধাপ ৪: এপিআই সক্রিয় করা 

এপিআই কী ডাউনলোড করার পরে Google drive command-line tools  নামের আরও একটি টুল ডাউনলোড করতে হবে এই ঠিকানা থেকে https://github.com/tienfuc/gdcmdtools

অথবা টারমিনালে নিচের কমান্ডগুলো পরপর ব্যবহার করলেও এই টুলটি ইনস্টল হয়ে যাবে, 

    
sudo apt-get install python-pip
sudo pip install google-api-python-client
sudo pip install gdcmdtools

 ইনস্টল হয়ে যাওয়ার পরে যেখানে API Credentials ডাউনলোড করা হয়েছে সেই ফোল্ডারে যেতে হবে এবং নিচের কমান্ডটি ব্যবহার করতে হবে। 

python gdauth.py client_secrets.json

client_secrets এর স্থানে ডাউনলোড করা ফাইলের নাম লিখতে হবে। টার্মিনালে কমান্ডটি রান করা হলে সেখানে একটি ওয়েব লিংক দেয়া থাকবে। লিংক থেকে যে পাতাটি ওপেন হবে সেটি দেখতে নিচের ছবির মত হবে এবং সেখানে Allow বাটনে ক্লিক করা হলে টোকেন সহ একটি নতুন পাতা ওপেন হবে।

এবার এই টোকেনটি কপি করে আগের টার্মিনালে পেস্ট করতে হবে এবং পরপর এপিআই সক্রিয় রয়েছে এমন একটি বার্তা দেখানো হবে।

ধাপ ৫: অ্যাপলিকেশন কনফিগার করা

এবার পুনরায় OCR4wikisource যে ডিরেকটরীতে ডাউনলোড করা হয়েছে সেখানে যেতে হবে। এই ডিরেকটরীতে config.ini নামের একটি ফাইল রয়েছে। ফাইলের তথ্যগুলো পরিবর্তন করে নিতে হবে।

ধরা যাক, উইকিসংকলনের (https://bn.wikisource.org/wiki/Index:OCR-test-1.djvu বইটি ব্যবহার করা হবে। এক্ষেত্রে config.ini ফাইলের তথ্যগুলো নিচের মত হতে হবে।

file_url = https://upload.wikimedia.org/wikipedia/commons/f/f8/OCR-test-1.djvu
columns = 1
wiki_username = WikiSource_Username
wiki_password = WikiSource_Password
wikisource_language_code = bn
keep_temp_folder_in_google_drive = no
edit_summary = Text from Google OCR

 ধাপ ৬: স্ক্রিপ্ট ব্যবহার করা

config.ini ফাইলটি আপডেট করার পরে, নিচের কমান্ডটির মাধ্যমে স্ক্রিপ্টটি ব্যবহার করা যাবে।

python do_ocr.py

এই কমান্ডটির মাধ্যমে পর্যায়ক্রমে এই কাজগুলো সম্পন্ন হবে,

  • https://bn.wikisource.org/wiki/Index:OCR-test-1.djvu বইটি সয়ংক্রিয়ভাবে ডাউনলোড হবে
  • DJVU থেকে PDF ফরম্যাটে রূপান্তর হবে
  • প্রতিটি পাতা আলাদা আলাদা পিডিএফ হিসাবে তৈরী হবে
  • ফাইলগুলো গুগল ড্রাইভে আপলোড করা হবে 
  • ওসিআর কাজ সম্পন্ন করার পরে, পুনরয় ফাইলগুলো ডাউনলোড করা হবে
  • ডাউনলোড করা টেক্সক্ট ফাইলগুলো উইকিসংকলনে আপলোড করা হবে

ফাইলগুলো কনভার্ট করার সময় কোনো বাধা পড়লে অথবা বন্ধ করে দেয়াদ প্রয়োজন হলে পুনরায় এই কমান্ড ব্যবহার করা যাবে।

আবার আপলোড করার সময় কোনো সমস্যা হলে আগের কমান্ডটির পরিবর্তে নতুন এই কমান্ডটি ব্যবহার করতে হবে

python mediawiki_uploader.py

 আপলোড সম্পন্ন হলে টার্মিনালে একটি বার্তা দেখানো হবে এবং পুনরায় https://bn.wikisource.org/wiki/Index:OCR-test-1.djvu পাতায় আপলোড করা ফাইলগুলো প্রুফরিডের উপয়োগী হিসাবে পাওয়া যাব।

Related Articles