ডিসমিসল্যাব
অডিও ডিপফেক ধরার প্রযুক্তিতেই দুর্বলতা, বিকল্প কী হতে পারে
ডিসমিসল্যাব
যুক্তরাষ্ট্রের নিউ অরলিন্সের পথে পথে ঘুরে জাদু দেখিয়ে বেড়ান এমন একজন জাদুকর মাত্র ২০ মিনিট সময় আর এক ডলার ব্যয় করে প্রেসিডেন্ট জো বাইডেনের কণ্ঠের ভুয়া অডিওবার্তা বানাতে সক্ষম হয়েছিলেন। সেই ভুয়া অডিওতে বাইডেনকে নিউ হ্যাম্পশায়ারে অনুষ্ঠিত প্রাইমারি নির্বাচনে ডেমোক্র্যাট প্রার্থীদের ভোট দিতে নিরুৎসাহিত করতে শোনা যায়।
পরে জানা যায়, এই রোবোকলটি (এআই দিয়ে তৈরি কণ্ঠস্বর) কৃত্রিম বুদ্ধিমত্তার সাহায্যে তৈরি। এরপরই যুক্তরাষ্ট্রের ফেডারেল কমিউনিকেশন কমিশন ফোনকলে এআই দিয়ে তৈরি কণ্ঠস্বর ব্যবহার নিষিদ্ধ করে।
আসলে এআই-জেনারেটেড অডিও শনাক্ত করার কাজটি বলা সহজ, কিন্তু করা কঠিন।
আমরা এমন চারটি ফ্রি অনলাইন টুল দিয়ে এটি পরীক্ষা করেছি যারা এআই-জেনারেটেড অডিও ক্লিপ শনাক্ত করতে পারে বলে দাবি করে থাকে। এরমধ্যে মাত্র একটি টুল আমাদের বলতে সক্ষম হয় যে বাইডেনের কণ্ঠস্বর বলে দাবিকারী রোবোকলটি সম্ভবত এআই দিয়ে তৈরি। পলিটিফ্যাক্ট থেকে যোগােযাগ করা হলে বিশেষজ্ঞরা আমাদের জানান যে, এআই অডিও সনাক্তকরণ টুলগুলো আসলে সূক্ষ্মভাবে কাজ করতে পারে না, তাই এগুলোর উপর ভরসা করা যাবে না। সম্ভাব্য ভুয়া তথ্য শনাক্তকরণে মানুষ বরং অন্যান্য কৌশল অবলম্বন করতে পারে।
সেন্ট টমাস বিশ্ববিদ্যালয়ের ব্যবহারিক কৃত্রিম বুদ্ধিমত্তা কেন্দ্রের পরিচালক মনজিৎ রেগে বলেন, “ছবি বা ভিডিও ডিপফেকের তুলনায় অডিও ডিপফেক শনাক্ত করা বেশি চ্যালেঞ্জিং হতে পারে। ভিডিওতে পুরো প্রেক্ষাপট ও ভিজ্যুয়াল সংকেত দেখা যায়, যা অডিওতে অনুপস্থিত থাকে। ফলে এধরনের অডিও সহজে বানিয়েও ফেলা যায়।”
ডিপফেক অডিও শনাক্ত করার চ্যালেঞ্জ
বহু মানুষই বিভিন্ন ব্যবসায়িক বা সরকারি সংস্থায় টেলিফোন করার পর যান্ত্রিক বা সিনথেটিক ভয়েসের স্বয়ংক্রিয় উত্তর শুনে থাকবেন।
মাত্র অতিসম্প্রতি মানুষ ডিপফেক তৈরির কাজে প্রযুক্তি ব্যবহার শুরু করেছে, বলেন ইউনিভার্সিটি অ্যাট বাফেলোর কম্পিউটার বিজ্ঞান ও প্রকৌশল অধ্যাপক সিওয়েই লিউ।
লিউ বলেন, অডিও ডিপফেক সাধারণত দুই ধরনের হয়: লেখাকে কথায় রূপান্তর (টেক্সট-টু-স্পিচ) এবং কণ্ঠ বদল। তার মতে, এই দুটির মধ্যে সবচেয়ে বড় পার্থক্য হচ্ছে ইনপুট। টেক্সট-টু-স্পিচ সিস্টেমে কম্পিউটারকে বলা হয় লেখায় কণ্ঠ বসিয়ে দিতে। বিপরীতে, ভয়েস বা কণ্ঠ রূপান্তর প্রক্রিয়ায় একজনের কণ্ঠ কারসাজির মাধ্যমে অন্য একজনের কণ্ঠের মতো করে দেওয়া হয়; এটি এমন নিখুঁতভাবে করার চেষ্টা থাকে যেন এতে সত্যিকারের বক্তব্যের মতোই আবেগ থাকে এবং শ্বাস-প্রশ্বাসের ধারাবাহিকতাও স্বাভাবিক মনে হয়।
ডিপফেক ভিডিও তৈরির তুলনায় ডিপফেক অডিও তৈরি করা সহজ, খরচও পড়ে কম; ফলে অডিও কারসাজি হয়ে উঠেছে এক আকর্ষণীয় বিকল্প।
উদাহরণস্বরূপ, অনলাইনে কৃত্রিম বুদ্ধিমত্ত্বা সেবাদানকারী নতুন প্রতিষ্ঠান (স্টার্টআপ) ইলেভেনল্যাবস বিনামূল্যে লেখাকে মানুষের কণ্ঠে পরিবর্তনের সুযোগ দিয়ে থাকে। প্রতিষ্ঠানটি এরই মধ্যে শিল্পখাতে গ্রহণযোগ্যতা অর্জন করেছে এবং সম্প্রতি ৮০ মিলিয়ন ইউএস ডলার তহবিল সংগ্রহের পর এর মূল্য দাঁড়িয়েছে ১.১ বিলিয়ন ডলার। প্রতিষ্ঠানটির পেইড প্যাকেজ শুরু করা যায় মাসে মাত্র এক ডলার দিয়ে, যা দিয়ে কণ্ঠ বদলও (ক্লোনিং) করা যায়। পেইড প্ল্যানে আরও একটি টুল পাওয়া যায়, যা দিয়ে এআই দিয়ে তৈরি কনটেন্টগুলোকে শ্রেণিবদ্ধ করা সম্ভব হয়।
মনজিৎ রেগে বলেন,”অডিও ডিপফেকের উত্থানে ভুয়া তথ্য ছড়ানোর অস্বস্তিকর ঝুঁকি আরও বাড়ছে”। এর ব্যাখ্যা দিয়ে তিনি বলেন, যন্ত্র এখন জনব্যক্তিত্ব, রাজনীতিবিদ ও তারকাদের যেমন নকল করতে পারে, তেমনি এটি এমন কণ্ঠ বানিয়ে দিতে পারে যা দিয়ে ‘ভয়েস অথেনটিকেশনের’ মতো সুরক্ষা ব্যবস্থাগুলোকে ফাঁকি দেওয়া সম্ভব। উদাহরণস্বরূপ, ২০২৩ সালের ফেব্রুয়ারিতে ভাইসের একজন রিপোর্টার এআই দিয়ে তৈরি নকল কণ্ঠ দিয়ে ব্যাংকে ফোন করেন এবং ব্যাংকের নিরাপত্তা ব্যবস্থাকে বিভ্রান্ত করতে সক্ষম হন। ভাইসের প্রতিবেদক পরীক্ষামূলক এ কাজ করেছিলেন।
মনজিৎ রেগে সতর্ক করে দিয়ে বলেন, নকল কণ্ঠ আদালতের মামলা, গোয়েন্দা কার্যক্রম এবং রাজনীতিতে প্রভাব ফেলতে পারে। এর ফলে তৈরি হতে পারে এরকম পরিস্থিতি:
- নকল অডিও রেকর্ডিং দিয়ে কর্তৃপক্ষকে উদ্ধুদ্ধ করে গোয়েন্দাদের ভুয়া টার্গেটের পেছনে চালিত করা
- আসামি অপরাধ স্বীকার করছে বা অপরাধমূলক বক্তব্য রাখছে এমন জাল অডিও রেকর্ডিং আদালতে জমা দেওয়া।
- ভুল তথ্য ছড়াতে বা সংবেদনশীল তথ্য পেতে সরকারি কর্মকর্তাদের কণ্ঠস্বর নকল করা।
মনজিৎ রেগে এবং লিউ বলেন, সিনথেটিক অডিওগুলো ‘ডিপ লার্নিং’ প্রযুক্তি ব্যবহার করে বানানো হয়। এখানে নানা ধরনের বক্তা, কণ্ঠস্বর ও কথোপকথনের একটি বিশাল ডেটাসেট ব্যবহার করে এআই মডেলগুলোকে প্রশিক্ষণ দেওয়া হয়। এইভাবে যে ডেটা পাওয়া যায় তার ভিত্তিতেই কৃত্রিম বুদ্ধিমত্তা মানুষের মতো অবিকল কণ্ঠস্বর তৈরি করতে সক্ষম হয়।
পলিটিফ্যাক্ট সেই সকল টিকটক ও ইউটিউব অ্যাকাউন্টগুলো শনাক্ত করেছে যারা ২০২৪ সালের মার্কিন নির্বাচন সম্পর্কে মিথ্যা বয়ানের অডিও আপলোড করেছে এবং বিশেষজ্ঞরা বিশ্লেষণে দেখিয়েছেন যে এগুলো এআই দিয়ে তৈরি।
লিউ বলেন, সাধারণত অডিও এক-মাত্রিক হয় এবং ছবি ও ভিডিওর থেকেও এর স্থায়ীত্ব কম হয়ে থাকে। ফলে নকল কণ্ঠস্বর ধরার কাজটি কঠিন; আর একারণেই মানুষকে বিভ্রান্ত করার ক্ষেত্রে অডিও বেশি সফল হচ্ছে। লিউ বলেন, ভিডিও থামিয়ে পরীক্ষা করা যায়, ছবিও যাচাই করা অনেক সময় নিয়ে। কিন্তু কোনো অডিও এআই দিয়ে তৈরি কিনা, তা যাচাই করাটা কঠিন। তিনি উদাহরণ দিয়ে বলেন, একটি ফোনকলের অডিও এআই দিয়ে তৈরি কিনা তা কলে থাকা অবস্থায় যেমন যাচাই করা যায় না, কলটি অনেক সময় রেকর্ড করাও সম্ভব হয় না। লিউ মনে করেন, বিকল্প কোনো ডিজিটাল কপি থাকে না বলে এ ধরনের অডিও বিশ্লেষণ করা কঠিন।
সনাক্তকারী টুলগুলোও দুর্বল
অডিও ডিপফেক প্রযুক্তি যখন দ্রুত বিকশিত হচ্ছে, সনাক্তকারী টুলগুলো এর সঙ্গে তাল মেলাতে হিমশিম খাচ্ছে।
সাউদাম্পটন বিশ্ববিদ্যালয়ের প্রভাষক ও অডিও এআই সুরক্ষায় বিশেষজ্ঞ জেনিফার উইলিয়ামস বলেন, অডিও ডিপফেক শনাক্ত করা একটি সক্রিয় গবেষণার ক্ষেত্র, এর অর্থ হচ্ছে এটি বর্তমানে একটি অমীমাংসিত সমস্যা।
এআই দিয়ে তৈরি কণ্ঠস্বর ধরতে পারার দাবি করে এমন অনেক এআই অনলাইন টুল শুধু পেইড সাবস্ক্রিপশন বা ডেমো হিসেবে পাওয়া যায়। অন্যরা নির্দিষ্ট ইমেল ঠিকানায় গ্রাহকদের অডিও ফাইল পাঠাতে বলে।
এরপর আমরা বিনামূল্যের টুলসগুলোর কাজ দেখতে চাচ্ছিলাম।
নর্থওয়েস্টার্ন ইউনিভার্সিটির কম্পিউটার সায়েন্সের অধ্যাপক ভি.এস. সুব্রাহ্মানিয়ান নর্থওয়েস্টার্ন সিকিউরিটি অ্যান্ড এআই ল্যাবে পরীক্ষামূলক এআই অডিও শনাক্তকরণ ব্যবস্থা চালু করেছেন। তাঁর নেতৃত্বে একটি দল এমন ১৪টি অডিও ডিপফেক সনাক্তকরণ টুল পরীক্ষা করে যেগুলো ছিল হাতের নাগালে, বিনামূল্যের এবং জনসাধারণের জন্য উন্মুক্ত। গবেষণার ফলাফল এখনও সবার জন্য উন্মুক্ত নয় বলে জানান সুব্রাহ্মানিয়ান। তবে তিনি এটুকু জানান যে ফলাফল হতাশাজনক।
সুব্রাহ্মানিয়ান বলেন, “এই মুহূর্তে আপনি ডিপফেক অডিও শনাক্তকারী কোনো টুলের উপরই ভরসা করতে পারবেন না আর আমি আপনাকে এর কোনোটিই ব্যবহার করার পরামর্শও দেব না”।
আমরা অনেক খুঁজে তিনটি ফ্রি টুল পেয়েছি: স্পিচ ক্লাসিফায়ার, এআই অর নট এবং প্লেএইচটি। এর মধ্যে প্রথমটি ইলেভেন ল্যাবের। এছাড়াও আমরা ডিপফেক-ও-মিটার পরীক্ষা করেছি; এটি ইউনিভার্সিটি অব বাফেলোর মিডিয়া ফরেনসিক ল্যাবে তৈরি করা হয়েছে, যার নেতৃত্ব দিচ্ছেন লিউ।
আমরা আমাদের পরীক্ষার জন্য বাইডেনের ভুয়া রোবোকলের একটি কপি নিউ হ্যাম্পশায়ার অ্যাটর্নি জেনারেলের অফিস থেকে সংগ্রহ করি এবং চারটি টুলের মাধ্যমে তা যাচাই করি।
গত ২৩ জানুয়ারি নিউ হ্যাম্পশায়ারের প্রাইমারির (প্রেসিডেন্ট প্রার্থী বাছাইয়ের জন্য প্রাথমিক নির্বাচন) আগে যে রোবোকলটি ছড়িয়েছিল তার কণ্ঠস্বর বাইডেনের মতোই ছিল। এতে ডেমোক্রেট ভোটারদের উদ্দেশ্যে বলতে শোনা যায় প্রাইমারিতে ভোট দেওয়ার অর্থ হবে, “কেবল রিপাবলিকানদের জন্য ডোনাল্ড ট্রাম্পকে পুনর্নিবাচিত করার পথ পরিষ্কার করে দেওয়া”। অডিওটিতে নভেম্বরের আগ পর্যন্ত মানুষকে ভোট না দিতে উৎসাহিত করা হয়। বিষয়টি জানার সঙ্গে সঙ্গেই নিরাপত্তা সফটওয়্যার প্রতিষ্ঠান পিনড্রপ এটি যাচাই করে এবং জানায় যে অডিওটি ইলেভেনল্যাবসের তৈরি- এমন সম্ভাবনা ৯৯ শতাংশ। পরে জাদুকর পল কার্পেন্টার এনবিসি নিউজকে দেওয়া একটি সাক্ষাৎকারে বিষয়টি নিশ্চিত করে জানান, ভিডিওটি বানাতে তাঁর ২০ মিনিটেরও কম সময় এবং ১ ডলারেরও কম অর্থ খরচ পড়েছে।
ইলেভেনল্যাবসের রয়েছে নিজস্ব ‘এআই স্পিচ ক্লাসিফায়ার’, ২০২৩ সালে বাইডেনের রোবোকলটি ছড়িয়ে পড়ার আগেই এটি উন্মুক্ত করা হয়েছিল। ইলেভেনল্যাবসে কোনো অডিও ক্লিপ তৈরি করা হয়ে থাকলে ক্লাসিফায়ারটি তা ধরতে পারে। আমরা নিউ হ্যাম্পশায়ার অ্যাটর্নি জেনারেলের অফিস থেকে প্রাপ্ত অডিও ক্লিপটি ইলেভেনল্যাবসের স্পিচ ক্লাসিফায়ারে আপলোড করেছিলাম। ফলাফল? সম্ভাবনা মাত্র ২ শতাংশ- অর্থাৎ, ইলেভেনল্যাবস দিয়ে অডিওটি বানানো হয়েছে এমন সম্ভাবনা “খুবই কম।”
কেন ইলেভেনল্যাবস এত কম সম্ভাবনা দেখালো তা স্পষ্ট নয়। পিনড্রপও ইলেভেনল্যাবসের টুল ব্যবহার করে পরীক্ষা করেছে এবং তাদেরকে বলা হয়েছে অডিওটি ইলেভেনল্যাবসে তৈরি হওয়ার সম্ভাবনা ৮৪ শতাংশ। লিও বলেন, ফাইল সংকোচন এবং অন্যান্য কিছু কারণে অডিওতে গুণগত পরিবর্তন আসতে পারে। ফলে যে বৈশিষ্ট্যগুলোর উপর ভিত্তি করে এআই ব্যবহার শনাক্ত করা হয় সেগুলো নষ্ট হয়ে যেতে পারে। এছাড়া পিনড্রপ সেই একই অডিও ফাইল ব্যবহার করেছে কিনা, আমরা জানি না। (পিনড্রপের নিজস্ব ডিপফেক শনাক্তকরণ ব্যবস্থা রয়েছে, অনুমতিক্রমে যার ডেমো ব্যবহার করা যায়)।
আমরা আমেরিকান প্রযুক্তি প্রতিষ্ঠান অপটিকের তৈরি করা ‘এআই অর নট’ ব্যবহার করে একই পরীক্ষা চালিয়েছিলাম। ফলাফল এসেছে যে অডিও ক্লিপটি ‘সম্ভবত মানুষের।’
এআই অর নট এর প্রধান নির্বাহী আনাতোলি কভিনিতস্কি পলিটিফ্যাক্টকে বলেন, অডিও নমুনাটির সঙ্গে “অনেক নয়েজ যুক্ত ছিল”, যার ফলে এর এআই সংশ্লিষ্টতা ভাষা বিশেষজ্ঞদের সাহায্য ছাড়া শনাক্ত করা কঠিন। “এটা এআই তখনই নিশ্চিত করা গিয়েছিল যখন রেকর্ডিংয়ের নির্মাতা এটিকে এআই নির্মিত বলে স্বীকার করেছিলেন,” বলেন কভিনিতস্কি।
আমরা প্লেএইচটি ব্যবহার করেও অডিওটি পরীক্ষা করেছি, কিন্তু প্রতিবার বাইডেনের জাল অডিও আপলোড করার চেষ্টাকালে ‘ইরর’ বার্তা দিয়েছে।
মন্তব্যের জন্য আমরা ইলেভেনল্যাবস ও প্লেএইচটির সঙ্গে যোগাযোগ করেছিলাম, কিন্তু কোনো সাড়া পাইনি।
লিউ বলেন, ছবি ও ভিডিওর তুলনায় ডিপফেক অডিও সনাক্তকরণ পরিষেবা কম। তিনি বলেন, এর একটি কারণ হচ্ছে ডিপফেক ছবি, ডিপফেক ভিডিও- এগুলো এসেছে আরও আগে।
মনজিৎ রেগে বলেন, যদিও গবেষকরা ওপেন-সোর্স টুলসও তৈরি করেছেন, তবে সেগুলোর যথার্থতা এখনো পরীক্ষিত নয়।
“আমি বলব ডিপফেক শনাক্ত করতে জনসাধারণের ব্যবহারের উপযোগী কোনো টুল এখন পর্যন্ত আসেনি,” বলেন মনজিৎ রেগে; সঙ্গে যোগ করেন “এই অবস্থায় আমি একাধিক সনাক্তকরণ পদ্ধতি নিয়ে সম্মিলিত পদ্ধতিতে ব্যবহারের পরামর্শ দেব।”
দ্য ইউনিভার্সিটি অ্যাট বাফেলোর মিডিয়া ফরেনসিক ল্যাবের ডিপফেক-ও-মিটার এখনো আনুষ্ঠানিকভাবে চালু হয়নি। তবে এটি বিনামূল্যে ব্যবহার করা যাবে এবং সেজন্য শুধুমাত্র একটি অ্যাকাউন্ট তৈরি করলেই হবে বলে লিউ জানান। ডিপফেক-ও-মিটার বাইডেনের অডিওটি এআই জেনারেটেড হওয়ার সম্ভাবনা ৬৯.৭ শতাংশ বলে জানিয়েছে— আমরা যে টুলগুলো যাচাই করেছি তার মধ্যে সবচেয়ে কাছাকাছি ফলাফল ছিল এটি।
অডিও ডিপফেক কীভাবে ধরা যাবে
সুব্রাহ্মানিয়ান বলেন, যেসব অডিওকলের মাধ্যমে অর্থ, ব্যক্তিগত তথ্য, পাসওয়ার্ড, ব্যাংক কোড বা দ্বিধাপ সনাক্তকরণ কোডের অনুরোধ করা হয় সেই কলগুলো “অত্যন্ত সতর্কতার সঙ্গে নেওয়া উচিত।” তিনি ফোনে কাওকে এই জাতীয় তথ্য না দিতেও সতর্ক করেন।
“তাড়াহুড়ো একটি বড় বিষয়,” বলেন তিনি। “স্ক্যামাররা সাধারণত চায় আপনারা চটজলদি কিছু করুন, সেটি নিয়ে গভীরভাবে চিন্তা বা কারও সঙ্গে পরামর্শ করার আগেই। তবে এই ফাঁদে পা দেবেন না।”
লিউ এবং রেগে বলেন, কোনো অডিও এআই জেনারেটেড কিনা বোঝার জন্য গভীর মনোযোগ দিয়ে শুনতে হবে। যেমন শ্বাস-প্রশ্বাস অনিয়মিত কিনা, ইচ্ছাকৃত কোনো দম নেওয়া হচ্ছে কিনা বা নেপথ্যে পারিপার্শ্বিক শব্দ বদলে যাচ্ছে কিনা এগুলোও যাচাই করে দেখা উচিত।
অডিওর উৎস ও বক্তব্য ব্যবহারকারীদের ক্রস-চেক করে দেখা উচিত বলেও মনে করেন লিউ এবং রেগে।
“অযাচিত অডিও বার্তা বা রেকর্ডিং সম্পর্কে সন্দেহপ্রবণ হোন, বিশেষ করে যখন কোনো দায়িত্বশীল কর্তৃপক্ষ, তারকা বা আপনার পরিচিত ব্যক্তি বলে দাবি করা হয়”, বলেন রেগে।
সাধারণ জ্ঞান ব্যবহার করুন এবং কে করেছে বা কোথা থেকে কলটি এসেছে, এটি বিচ্ছিন্ন বা সংযোগহীন কোনো সূত্র থেকে এসেছে কিনা, তা যাচাই করুন,” বলেন লিউ।
সায়েন্টিফিক আমেরিকানের সঙ্গে একটি সাক্ষাৎকারে ক্যালিফোর্নিয়া ইউনিভার্সিটি, বার্কলের কম্পিউটার সায়েন্সের অধ্যাপক হ্যানি ফরিদ অডিও রেকর্ডিংগুলো বিশ্লেষণ করার সময় উৎপত্তি – বা মৌলিক ও বিশ্বাসযোগ্য কিনা এসব তথ্যে জোর দিয়ে অডিও যাচাই করতে বলেছেন। এ সময় কিছু প্রশ্ন মাথায় রাখারও পরামর্শ দেন তিনি; যেমন: “অডিওটি কোথায় রেকর্ড করা হয়েছিল? কখন রেকর্ড করা হয়েছিল? কে রেকর্ড করেছে? যে সাইটে এটি পোস্ট করা হয়েছে সেখানে কে এটি ফাঁস করেছে?”
আইনি বিষয়, আর্থিক লেনদেন বা গুরুত্বপূর্ণ ইভেন্টের বিষয়ে রেগে বলেন, মানুষ অডিও বা ভয়েসে নির্ভর না করে এর বাইরে গিয়ে অন্যান্য নিরাপদ চ্যানেলের মাধ্যমে পরিচয় যাচাই করার মধ্য দিয়ে নিজেদের রক্ষা করতে পারে।
রেগে আরো বলেন, উদীয়মান এই প্রযুক্তিটি এতোটাই এগিয়েছে যে ডিপফেক অডিওকে সত্যি বলেই মনে হয়। তাই ডিপফেক অডিও থেকে বাঁচতে সন্দেহ করার চর্চার ওপর জোর দেন তিনি।
এই লেখাটি প্রথম প্রকাশিত হয়েছিল পয়েন্টার-এ। বাংলায় অনুবাদ করেছেন তামারা ইয়াসমীন তমা।