কৃত্রিম বুদ্ধিমত্তার টেক্সট-টু-ভিডিও: থাকতে পারে যেসব ঝুঁকি

ছবি: সংগৃহীত

জেনারেটিভ এআই নিয়ে আলোচনার অনেকটা অংশই বর্তমানে দখল করে আছে চ্যাটজিপিটি। জেনারেটিভ এআইয়ের ক্ষেত্রে চ্যাটজিপিটির মতো ল্যাংগুয়েজ মডেলের বাইরেও অনেককিছু আছে, যা সবাইকে চমকে দিতে পারে।

কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে টেক্সট থেকে ছবি তৈরির প্রযুক্তি এখন গণমাধ্যম ও সামাজিক যোগাযোগমাধ্যমে ভালো সাড়া ফেলছে। 

কৃত্রিম বুদ্ধিমত্তার টেক্সট-টু-ভিডিও কী?

আপনি কেমন ভিডিও তৈরি করতে চান, তার শুধু লিখিত নির্দেশনা থেকেই কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে কয়েক মিনিটের মধ্যেই ভিডিওটি তৈরি হয়ে যাবে। হ্যাঁ, ব্যাপারটা এতটাই সহজ। মার্কিন স্টার্টআপ প্রতিষ্ঠান 'রানওয়ে' এ ক্ষেত্রে এখনো পর্যন্ত উল্লেখযোগ্য সফলতা দেখাতে পেরেছে। 

এটা কী নতুন কিছু?

একদম নতুন, তেমনটা বলা যাবে না। চ্যাটজিপিটির নির্মাতা প্রতিষ্ঠান ওপেনএআইয়ের অনুরূপ একটি প্রযুক্তি আছে, যার নাম 'ডাল-ই'। ডাল-ই'র সাহায্যে অবশ্য লিখিত নির্দেশনা থেকে ছবি তৈরি করা যাচ্ছে। এই প্রযুক্তিটিও জেনারেটিভ এআই ল্যাংগুয়েজ মডেল ব্যবহার করে। কোনা নির্দিষ্ট ছবি তৈরির নির্দেশ পেলে ডাল-ই একাধিক ছবি তৈরি করে, যাতে ব্যবহারকারীরা তাদের পছন্দমতো ছবিটি বাছাই করতে পারে। 

বড় বড় প্রযুক্তি প্রতিষ্ঠানগুলো টেক্সট-টু-ভিডিও প্রযুক্তি নিয়ে কাজ করছে?

সাম্প্রতিক বছরগুলোতে বড় বড় প্রতিষ্ঠানগুলো কৃত্রিম বুদ্ধিমত্তার ওপর বিশাল অঙ্কের বিনিয়োগ করছে, যার মধ্যে টেক্সট-টু-ভিডিও প্রযুক্তিও আছে। ২০২২ সালের সেপ্টেম্বরে ফেসবুকের মূল প্রতিষ্ঠান মেটা 'মেক-এ-ভিডিও' নামের একটি প্রযুক্তির ঘোষণা দেয়। মেটার এই প্রযুক্তির সাহায্যে জেনারেটিভ এআই ব্যবহার করে মাত্র কয়েক শব্দ বা লাইনের নির্দেশনা থেকে ভিডিও তৈরি করা সম্ভব। তবে এই ভিডিওতে কোনো শব্দ থাকবে না। মেটার প্রধান নির্বাহী মার্ক জাকারবার্গ তখন প্রযুক্তিটি সম্পর্কে বলেছিলেন, 'কৃত্রিম বুদ্ধিমত্তার সাহায্যে ছবি তৈরির চেয়ে ভিডিও তৈরি অনেক কঠিন। কারণ, এখানে প্রতিটি পিক্সেল ঠিক করতে হয়।' 

মেটার মাত্র এক সপ্তাহ পরে গুগলও অনুরূপ একটি প্রযুক্তির ঘোষণা দেয়। গুগলের প্রযুক্তিটির নাম 'ইমাজেন ভিডিও (Imagen Video)'। লিখিত নির্দেশনা থেকে হাই ডেফিনিশন ভিডিও করা যাবে গুগলের এই প্রযুক্তির সাহায্যে। 

দীর্ঘ ভিডিও তৈরির জন্য গুগল 'ফেনাকি' নামের আরেকটি প্রযুক্তির ঘোষণা দেয় তখন। এই দীর্ঘ ভিডিওগুলোও লিখিত নির্দেশনার সাহায্যেই তৈরি করা যাবে। 

এ ক্ষেত্রে বাধাগুলো কী?

বাধা অনেক। অপারেশনাল থেকে নৈতিক- সবদিক থেকেই বাধা আছে। অনেকে বিষয়টি নিয়ে এখনো বিভ্রান্ত। সম্ভবত এখনো জেনারেটিভ এআই ব্যবহার করে টেক্সট-টু-ভিডিও প্রযুক্তিগুলো অনেকটাই ডেমো ভার্সনে আছে, তাই এই বিভ্রান্তি। প্রাথমিকভাবে মনে হতে পারে শুধু টেক্সট থেকে ভিডিও তৈরি করাটা হয়তো খুবই সোজা। কিন্তু যথার্থ ভিডিও তৈরি করতে হলে  ব্যবহারকারীকে সুনির্দিষ্ট নির্দেশনা দিতে হবে। নির্দেশনা যত নির্দিষ্ট ও ভালো হবে, ভিডিও তত ভালো হবে। 

এরপর আসে নৈতিক বাধা। কৃত্রিম বুদ্ধিমত্তার এসব ভিডিওগুলো ভবিষ্যতে মিথ্যা তথ্য ছড়ানোর অন্যতম হাতিয়ার হিসেবে ব্যবহৃত হতে পারে। বর্তমানেই ডিপফেক (কৃত্রিমভাবে চেহারা, ছবি ও কণ্ঠ পরিবর্তন করা, যা অনেকটা আসলের মতোই মনে হয়) ভুয়া তথ্য ছড়ানোর ক্ষেত্রে একটি বড় সমস্যা। জেনারেটিভ এআই ভিডিও আসলে এই সমস্যা আরও বাড়তে পারে। যদি সঠিকভাবে প্রযুক্তিটি তৈরি করা না হয় কিংবা যথাযথ নিয়ন্ত্রণ না থাকে, তাহলে এআই ভিডিওর সাহায্যে ভুয়া তথ্য ছড়ানোটা আরও সহজ হয়ে যাবে, যার ব্যাপক খারাপ পড়বে সর্বত্র। 
 
সূত্র: গ্যাজেটস নাউ
গ্রন্থনা: আহমেদ হিমেল

 

Comments

The Daily Star  | English

No price too high for mass deportations

US President-elect Donald Trump has doubled down on his campaign promise of the mass deportation of illegal immigrants, saying the cost of doing so will not be a deterrent.

4h ago