বাংলা কথা ও টেক্সট বুঝতে পারে যে এআই

বাংলা কথা ও টেক্সট বুঝতে পারে যে এআই
ছবি: জারিফ ফাইয়াজ/টগল

আমরা প্রতিদিনের কাজে কোনো ইংরেজি শব্দ বা বাক্যকে দ্রুত বাংলায় রূপান্তরিত করতে সাধারণত গুগল ট্রান্সলেট ব্যবহার করে থাকি।

তবে এই অনুবাদ বেশিরভাগ ক্ষেত্রেই নিখুঁত হয় না। এআইয়ের করা গুগল ট্রান্সলেটের অনুবাদে অনেক ভুল থেকে যায়। তাছাড়া এআইয়ের করা অনুবাদ সাবলীল নয়, অনেকটাই দুর্বোধ্য। বিশেষ করে বাংলা ভাষার মতো একটি ভাষা যা বিভিন্ন আঞ্চলিক উপভাষায় পরিপূর্ণ, সেক্ষেত্রে এআইয়ের অনুবাদ অনেকটাই দুর্বোধ্য থেকে যায়।

তাই বলে কি এআইকে সাবলীল বাংলা, বাংলা ভাষার কথ্য ও লিখিত রূপটি শেখানো সম্ভব নয়? এই সমস্যা নিয়েই কাজ করছে বেঙ্গলি ডট এআই।

বাংলা কথা শনাক্তকরণের জন্যে অভিযান

বেঙ্গলি ডট এআইয়ে কাজ করছেন ২০১৭ সালের ডিসেম্বরে বুয়েট, কুয়েট এবং ব্র্যাক বিশ্ববিদ্যালয় থেকে স্নাতক পাশ করা একটি দল। এটি একটি স্বেচ্ছাসেবী গবেষণা উদ্যোগ, যার লক্ষ্য হলো আমরা প্রতিদিন যে বাংলা ব্যবহার করি তা এআইকে শেখানোর মাধ্যমে বাংলায় এআই গবেষণাকে সর্বজনীন করে তোলা। এটি একটি অলাভজনক উদ্যোগ।

কম্পিউটার কীভাবে ভাষা পড়ে, বলে এবং বোঝে তা দেখে এআইকে জটিল বাংলা ভাষা শেখানোর জন্য বড় আকারের মেশিন লার্নিং ডেটাসেট তৈরি করছেন এই দল। তাদের এই ডেটাসেট বিভিন্ন বাংলাভাষী জনসংখ্যা থেকে নেওয়া হচ্ছে।

যেহেতু কথোপকথনমূলক বাংলা ডেটাসেট তৈরির একটি মূল অংশ বৈচিত্র্য, তাই বেঙ্গলি ডট এআই যত বেশি সম্ভব মানুষের কাছ থেকে ভয়েস ডেটা সংগ্রহের চেষ্টা করছে। বর্তমানে সামাজিক যোগাযোগমাধ্যমে তারা 'বক বক' নামে একটি বিশেষ প্রচারণা চালাচ্ছে। বিশ্বের যেকোন স্থান থেকে বাংলাভাষীরা এই পাবলিক ডোমেন গবেষণা ডেটাসেটের জন্য তাদের 'ভয়েস ডেটা' প্রদানের মাধ্যমে অবদান রাখতে পারে।

'বক বক'-এ অংশ নেবেন যেভাবে

'বক বক'-এ আপনার অবদান রাখতে কন্ট্রিবিউট প্ল্যাটফরমে লগইন করুন এবং উচ্চস্বরে ও স্পষ্টভাবে স্ক্রিনে প্রদর্শিত বাক্য পড়ুন। বাংলা ডেটাবেসের এই ক্রমাগত বিকাশে আপনার অবদানের চিহ্ন হিসেবে, বেঙ্গলি ডট এআই অবদানকারীদের কিছু সম্মানী দিয়ে থাকে।
এতে অংশ নিতে লিঙ্কে দেওয়া পদ্ধতি অনুসরণ করুন: 

https://commonvoice.mozilla.org/bn/speak

বেঙ্গলি ডট এআই-এর কো-অর্ডিনেটর আসিফ সুস্মিত ডেইলি স্টারকে বলেন, '২০২২ সালের ২১ ফেব্রুয়ারি থেকে প্রায় ২২ হাজার জনেরও বেশি লোকের কাছ থেকে ২ হাজার ঘণ্টার ডেটা সংগ্রহ করা হয়েছে, যা একটি ইন্ডাস্ট্রি-গ্রেড স্পিচ রিকগনিশন মডেল প্রশিক্ষণের মানদণ্ডের সমান।'

তবে তাদের লক্ষ্য আরও ওপরে। তারা চায় ১০ হাজার ঘণ্টার ডেটা সংগ্রহ করতে যাতে করে ভাষার আরও সূক্ষ্ম এবং বৈচিত্র্যপূর্ণ বিষয়গুলোও অন্তর্ভুক্ত করা যায়। এতে করে গবেষকরা তাদের নিজস্ব এআইগুলোকে আরও ভালোভাবে প্রশিক্ষণ দিতে পারবেন।

বক বক-এ, আপনি পাবলিক ডোমেন গবেষণা ডেটাসেটের জন্য আপনার ভয়েস ডেটা প্রদান করতে পারেন। বেঙ্গলি ডট এআই একটি সর্বজনীনভাবে উপলব্ধ স্বয়ংক্রিয় স্পিচ রিকগনিশন সিস্টেম তৈরির পরিকল্পনা করছে। তাত্ত্বিকভাবে এই এআই আলেক্সা ও সিরির মতোই কথোপকথনমূলক বাংলা বুঝতে সক্ষম হবে।

অন্যান্য প্রকল্প

বেঙ্গলি ডট এআইয়ের যাত্রা ২০১৮ সালে নামতাডিবির মাধ্যমে শুরু হয়েছিল। নামতাডিবি একটি ডেটাসেট যেখানে হাতে লেখা বাংলা সংখ্যার ৮৫ হাজারটিরও বেশি ছবি রয়েছে। ভৌগোলিক, লিঙ্গ এবং বয়সভিত্তিক পক্ষপাতমুক্ত বাংলা সংখ্যা শনাক্তকরণ অ্যালগরিদম তৈরির জন্য ডেটাসেটটি সংকলিত হয়েছিল।

২০২০ সালে বেঙ্গলি ডট এআই ৫ লাখেরও বেশি হাতে লেখা বাংলা গ্রাফিমের প্রথম ডেটাসেট প্রকাশ করে এবং গুগলের সহযোগিতায় একটি আন্তর্জাতিক ক্যাগল প্রতিযোগিতা চালু করে। প্রতিযোগিতাটিতে সারা বিশ্ব থেকে ভিন্ন ভিন্ন ভাষাভাষীর ২ হাজারটিরও বেশি দল ছিল। এই দলগুলোর মধ্যে এনভিডিয়া এবং এইচটুও ডট এআই এর মতো বেশ কিছু বড় বড় দলও ছিল। বাংলায় অপটিক্যাল ক্যারেক্টার শনাক্তকরণের বিষয়টি সমাধানের জন্য দলগুলো সেখানে একসঙ্গে কাজ করেছিল।

২০২১ সাল পর্যন্ত বেঙ্গলি ডট এআই অনেকগুলো পার্শ্ব প্রকল্প চালু করেছে। যার মধ্যে প্রায় সবগুলো প্রকল্পই ভাষার মেশিন লার্নিং ও প্রাকৃতিক ভাষা প্রক্রিয়াকরণের অগ্রগতি সম্পর্কিত ছিল। এর মধ্যে সর্বজনীনভাবে পাওয়া যায় এমন প্রকল্পগুলোর মধ্যে রয়েছে: একটি বাংলা অভিধান যা স্বয়ংক্রিয়ভাবে কথার মধ্যের টীকা বিশ্লেষণ করতে পারে, একটি ট্রান্সক্রাইবার বা প্রতিলিপিকারী যা ভিন্ন বর্ণমালায় প্রকাশ করা বা বিকৃত ধরনের বাংলা টেক্সটকে লক্ষ্য করে তৈরি এবং 'বেঠিক' নামে একটি ওপেনসোর্স বাংলা বানান পরীক্ষক যা উচ্চমাত্রার বাংলা টাইপিং ত্রুটি চিহ্নিত করতে ও ঠিক করতে পারে। শাবিপ্রবি এবং ব্র্যাক বিশ্ববিদ্যালয়ের ৪০ জন শিক্ষার্থীর একটি দল এবং বিভিন্ন ক্ষেত্রের স্বেচ্ছাসেবী গবেষক নিয়ে তৈরি হয়েছে 'বেঠিক', যা আগামী মাসের মধ্যে সর্বজনীনভাবে ব্যবহারযোগ্য হবে।

বর্তমানে বেঙ্গলি ডট এআইয়ে ৬ হাজারেরও বেশি আন্তর্জাতিক গবেষক কাজ করছেন। যারা সবাই অসম্ভব বলে মনে করা- বাংলা ভাষা-সম্পর্কিত প্রযুক্তির সার্বজনীনকরণের বিষয়টি অর্জনের লক্ষ্যে কাজ করছেন। কয়েক হাজার বাংলাভাষীদের কাছ থেকে পাওয়া ডেটাবেসের মাধ্যমে তারা এমন একটি এআই তৈরির লক্ষ্যে কাজ করছেন যা হবে সর্বজনীনভাবে ব্যবহারযোগ্য এবং 'সংশোধনযোগ্য'।

অনুবাদ করেছেন আহমেদ বিন কাদের অনি

Comments

The Daily Star  | English

Govt condemns attack on Nur

Reaffirms its commitment to holding the national election in the first half of February 2026

1h ago