কৃত্রিম বুদ্ধিমত্তার টেক্সট-টু-ভিডিও: থাকতে পারে যেসব ঝুঁকি

ছবি: সংগৃহীত

জেনারেটিভ এআই নিয়ে আলোচনার অনেকটা অংশই বর্তমানে দখল করে আছে চ্যাটজিপিটি। জেনারেটিভ এআইয়ের ক্ষেত্রে চ্যাটজিপিটির মতো ল্যাংগুয়েজ মডেলের বাইরেও অনেককিছু আছে, যা সবাইকে চমকে দিতে পারে।

কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে টেক্সট থেকে ছবি তৈরির প্রযুক্তি এখন গণমাধ্যম ও সামাজিক যোগাযোগমাধ্যমে ভালো সাড়া ফেলছে। 

কৃত্রিম বুদ্ধিমত্তার টেক্সট-টু-ভিডিও কী?

আপনি কেমন ভিডিও তৈরি করতে চান, তার শুধু লিখিত নির্দেশনা থেকেই কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে কয়েক মিনিটের মধ্যেই ভিডিওটি তৈরি হয়ে যাবে। হ্যাঁ, ব্যাপারটা এতটাই সহজ। মার্কিন স্টার্টআপ প্রতিষ্ঠান 'রানওয়ে' এ ক্ষেত্রে এখনো পর্যন্ত উল্লেখযোগ্য সফলতা দেখাতে পেরেছে। 

এটা কী নতুন কিছু?

একদম নতুন, তেমনটা বলা যাবে না। চ্যাটজিপিটির নির্মাতা প্রতিষ্ঠান ওপেনএআইয়ের অনুরূপ একটি প্রযুক্তি আছে, যার নাম 'ডাল-ই'। ডাল-ই'র সাহায্যে অবশ্য লিখিত নির্দেশনা থেকে ছবি তৈরি করা যাচ্ছে। এই প্রযুক্তিটিও জেনারেটিভ এআই ল্যাংগুয়েজ মডেল ব্যবহার করে। কোনা নির্দিষ্ট ছবি তৈরির নির্দেশ পেলে ডাল-ই একাধিক ছবি তৈরি করে, যাতে ব্যবহারকারীরা তাদের পছন্দমতো ছবিটি বাছাই করতে পারে। 

বড় বড় প্রযুক্তি প্রতিষ্ঠানগুলো টেক্সট-টু-ভিডিও প্রযুক্তি নিয়ে কাজ করছে?

সাম্প্রতিক বছরগুলোতে বড় বড় প্রতিষ্ঠানগুলো কৃত্রিম বুদ্ধিমত্তার ওপর বিশাল অঙ্কের বিনিয়োগ করছে, যার মধ্যে টেক্সট-টু-ভিডিও প্রযুক্তিও আছে। ২০২২ সালের সেপ্টেম্বরে ফেসবুকের মূল প্রতিষ্ঠান মেটা 'মেক-এ-ভিডিও' নামের একটি প্রযুক্তির ঘোষণা দেয়। মেটার এই প্রযুক্তির সাহায্যে জেনারেটিভ এআই ব্যবহার করে মাত্র কয়েক শব্দ বা লাইনের নির্দেশনা থেকে ভিডিও তৈরি করা সম্ভব। তবে এই ভিডিওতে কোনো শব্দ থাকবে না। মেটার প্রধান নির্বাহী মার্ক জাকারবার্গ তখন প্রযুক্তিটি সম্পর্কে বলেছিলেন, 'কৃত্রিম বুদ্ধিমত্তার সাহায্যে ছবি তৈরির চেয়ে ভিডিও তৈরি অনেক কঠিন। কারণ, এখানে প্রতিটি পিক্সেল ঠিক করতে হয়।' 

মেটার মাত্র এক সপ্তাহ পরে গুগলও অনুরূপ একটি প্রযুক্তির ঘোষণা দেয়। গুগলের প্রযুক্তিটির নাম 'ইমাজেন ভিডিও (Imagen Video)'। লিখিত নির্দেশনা থেকে হাই ডেফিনিশন ভিডিও করা যাবে গুগলের এই প্রযুক্তির সাহায্যে। 

দীর্ঘ ভিডিও তৈরির জন্য গুগল 'ফেনাকি' নামের আরেকটি প্রযুক্তির ঘোষণা দেয় তখন। এই দীর্ঘ ভিডিওগুলোও লিখিত নির্দেশনার সাহায্যেই তৈরি করা যাবে। 

এ ক্ষেত্রে বাধাগুলো কী?

বাধা অনেক। অপারেশনাল থেকে নৈতিক- সবদিক থেকেই বাধা আছে। অনেকে বিষয়টি নিয়ে এখনো বিভ্রান্ত। সম্ভবত এখনো জেনারেটিভ এআই ব্যবহার করে টেক্সট-টু-ভিডিও প্রযুক্তিগুলো অনেকটাই ডেমো ভার্সনে আছে, তাই এই বিভ্রান্তি। প্রাথমিকভাবে মনে হতে পারে শুধু টেক্সট থেকে ভিডিও তৈরি করাটা হয়তো খুবই সোজা। কিন্তু যথার্থ ভিডিও তৈরি করতে হলে  ব্যবহারকারীকে সুনির্দিষ্ট নির্দেশনা দিতে হবে। নির্দেশনা যত নির্দিষ্ট ও ভালো হবে, ভিডিও তত ভালো হবে। 

এরপর আসে নৈতিক বাধা। কৃত্রিম বুদ্ধিমত্তার এসব ভিডিওগুলো ভবিষ্যতে মিথ্যা তথ্য ছড়ানোর অন্যতম হাতিয়ার হিসেবে ব্যবহৃত হতে পারে। বর্তমানেই ডিপফেক (কৃত্রিমভাবে চেহারা, ছবি ও কণ্ঠ পরিবর্তন করা, যা অনেকটা আসলের মতোই মনে হয়) ভুয়া তথ্য ছড়ানোর ক্ষেত্রে একটি বড় সমস্যা। জেনারেটিভ এআই ভিডিও আসলে এই সমস্যা আরও বাড়তে পারে। যদি সঠিকভাবে প্রযুক্তিটি তৈরি করা না হয় কিংবা যথাযথ নিয়ন্ত্রণ না থাকে, তাহলে এআই ভিডিওর সাহায্যে ভুয়া তথ্য ছড়ানোটা আরও সহজ হয়ে যাবে, যার ব্যাপক খারাপ পড়বে সর্বত্র। 
 
সূত্র: গ্যাজেটস নাউ
গ্রন্থনা: আহমেদ হিমেল

 

Comments

The Daily Star  | English

Pathways to the downfall of a regime

The erosion in the credibility of the Sheikh Hasina regime did not begin in July 2024.

7h ago