ডিসমিসল্যাব

অফিসিয়াল ডেস্ক
অডিও ডিপফেক ধরার প্রযুক্তিতেই দুর্বলতা, বিকল্প কী হতে পারে
This article is more than 7 months old

অডিও ডিপফেক ধরার প্রযুক্তিতেই দুর্বলতা, বিকল্প কী হতে পারে

ডিসমিসল্যাব

অফিসিয়াল ডেস্ক

যুক্তরাষ্ট্রের নিউ অরলিন্সের পথে পথে ঘুরে জাদু দেখিয়ে বেড়ান এমন একজন জাদুকর মাত্র ২০ মিনিট সময় আর এক ডলার ব্যয় করে প্রেসিডেন্ট জো বাইডেনের কণ্ঠের ভুয়া অডিওবার্তা বানাতে সক্ষম হয়েছিলেন। সেই ভুয়া অডিওতে বাইডেনকে নিউ হ্যাম্পশায়ারে অনুষ্ঠিত প্রাইমারি নির্বাচনে ডেমোক্র্যাট প্রার্থীদের ভোট দিতে নিরুৎসাহিত করতে শোনা যায়।

পরে জানা যায়, এই রোবোকলটি (এআই দিয়ে তৈরি কণ্ঠস্বর) কৃত্রিম বুদ্ধিমত্তার সাহায্যে তৈরি। এরপরই যুক্তরাষ্ট্রের ফেডারেল কমিউনিকেশন কমিশন ফোনকলে এআই দিয়ে তৈরি কণ্ঠস্বর ব্যবহার নিষিদ্ধ করে। 

আসলে এআই-জেনারেটেড অডিও শনাক্ত করার কাজটি বলা সহজ, কিন্তু করা কঠিন।

আমরা এমন চারটি ফ্রি অনলাইন টুল দিয়ে এটি পরীক্ষা করেছি যারা এআই-জেনারেটেড অডিও ক্লিপ শনাক্ত করতে পারে বলে দাবি করে থাকে। এরমধ্যে মাত্র একটি টুল আমাদের বলতে সক্ষম হয় যে বাইডেনের কণ্ঠস্বর বলে দাবিকারী রোবোকলটি সম্ভবত এআই দিয়ে তৈরি। পলিটিফ্যাক্ট থেকে যোগােযাগ করা হলে বিশেষজ্ঞরা আমাদের জানান যে, এআই অডিও সনাক্তকরণ টুলগুলো আসলে সূক্ষ্মভাবে কাজ করতে পারে না, তাই এগুলোর উপর ভরসা করা যাবে না। সম্ভাব্য ভুয়া তথ্য শনাক্তকরণে মানুষ বরং অন্যান্য কৌশল অবলম্বন করতে পারে।

সেন্ট টমাস বিশ্ববিদ্যালয়ের ব্যবহারিক কৃত্রিম বুদ্ধিমত্তা কেন্দ্রের পরিচালক মনজিৎ রেগে বলেন, “ছবি বা ভিডিও ডিপফেকের তুলনায় অডিও ডিপফেক শনাক্ত করা বেশি চ্যালেঞ্জিং হতে পারে। ভিডিওতে পুরো প্রেক্ষাপট ও ভিজ্যুয়াল সংকেত দেখা যায়, যা অডিওতে অনুপস্থিত থাকে। ফলে এধরনের অডিও সহজে বানিয়েও ফেলা যায়।”

ডিপফেক অডিও শনাক্ত করার চ্যালেঞ্জ

বহু মানুষই বিভিন্ন ব্যবসায়িক বা সরকারি সংস্থায় টেলিফোন করার পর যান্ত্রিক বা সিনথেটিক ভয়েসের স্বয়ংক্রিয় উত্তর শুনে থাকবেন।

মাত্র অতিসম্প্রতি মানুষ ডিপফেক তৈরির কাজে প্রযুক্তি ব্যবহার শুরু করেছে, বলেন ইউনিভার্সিটি অ্যাট বাফেলোর কম্পিউটার বিজ্ঞান ও প্রকৌশল অধ্যাপক সিওয়েই লিউ।  

লিউ বলেন, অডিও ডিপফেক সাধারণত দুই ধরনের হয়: লেখাকে কথায় রূপান্তর (টেক্সট-টু-স্পিচ) এবং কণ্ঠ বদল। তার মতে, এই দুটির মধ্যে সবচেয়ে বড় পার্থক্য হচ্ছে ইনপুট। টেক্সট-টু-স্পিচ সিস্টেমে কম্পিউটারকে বলা হয় লেখায় কণ্ঠ বসিয়ে দিতে। বিপরীতে, ভয়েস বা কণ্ঠ রূপান্তর প্রক্রিয়ায় একজনের কণ্ঠ কারসাজির মাধ্যমে অন্য একজনের কণ্ঠের মতো করে দেওয়া হয়; এটি এমন নিখুঁতভাবে করার চেষ্টা থাকে যেন এতে সত্যিকারের বক্তব্যের মতোই আবেগ থাকে এবং শ্বাস-প্রশ্বাসের ধারাবাহিকতাও স্বাভাবিক মনে হয়। 

ডিপফেক ভিডিও তৈরির তুলনায় ডিপফেক অডিও তৈরি করা সহজ, খরচও পড়ে কম; ফলে অডিও কারসাজি হয়ে উঠেছে এক আকর্ষণীয় বিকল্প। 

উদাহরণস্বরূপ, অনলাইনে কৃত্রিম বুদ্ধিমত্ত্বা সেবাদানকারী নতুন প্রতিষ্ঠান (স্টার্টআপ) ইলেভেনল্যাবস বিনামূল্যে লেখাকে মানুষের কণ্ঠে পরিবর্তনের সুযোগ দিয়ে থাকে। প্রতিষ্ঠানটি এরই মধ্যে  শিল্পখাতে গ্রহণযোগ্যতা অর্জন করেছে এবং সম্প্রতি ৮০ মিলিয়ন ইউএস ডলার তহবিল সংগ্রহের পর এর মূল্য  দাঁড়িয়েছে ১.১ বিলিয়ন ডলার। প্রতিষ্ঠানটির পেইড প্যাকেজ শুরু করা যায় মাসে মাত্র এক ডলার দিয়ে, যা দিয়ে কণ্ঠ বদলও (ক্লোনিং) করা যায়। পেইড প্ল্যানে আরও একটি টুল পাওয়া যায়, যা দিয়ে এআই দিয়ে তৈরি কনটেন্টগুলোকে শ্রেণিবদ্ধ করা সম্ভব হয়।

মনজিৎ রেগে বলেন,”অডিও ডিপফেকের উত্থানে ভুয়া তথ্য ছড়ানোর অস্বস্তিকর ঝুঁকি আরও বাড়ছে”। এর ব্যাখ্যা দিয়ে তিনি বলেন, যন্ত্র এখন জনব্যক্তিত্ব, রাজনীতিবিদ ও তারকাদের যেমন নকল করতে পারে, তেমনি এটি এমন কণ্ঠ বানিয়ে দিতে পারে যা দিয়ে ‘ভয়েস অথেনটিকেশনের’ মতো সুরক্ষা ব্যবস্থাগুলোকে ফাঁকি দেওয়া সম্ভব। উদাহরণস্বরূপ, ২০২৩ সালের ফেব্রুয়ারিতে ভাইসের একজন রিপোর্টার এআই দিয়ে তৈরি নকল কণ্ঠ দিয়ে ব্যাংকে ফোন করেন এবং ব্যাংকের নিরাপত্তা ব্যবস্থাকে বিভ্রান্ত করতে সক্ষম হন। ভাইসের প্রতিবেদক পরীক্ষামূলক এ কাজ করেছিলেন। 

মনজিৎ রেগে সতর্ক করে দিয়ে বলেন, নকল কণ্ঠ আদালতের মামলা, গোয়েন্দা কার্যক্রম এবং রাজনীতিতে প্রভাব ফেলতে পারে। এর ফলে তৈরি হতে পারে এরকম পরিস্থিতি:

  • নকল অডিও রেকর্ডিং দিয়ে কর্তৃপক্ষকে উদ্ধুদ্ধ করে গোয়েন্দাদের ভুয়া টার্গেটের পেছনে চালিত করা
  • আসামি অপরাধ স্বীকার করছে বা অপরাধমূলক বক্তব্য রাখছে এমন জাল অডিও রেকর্ডিং আদালতে জমা দেওয়া।
  • ভুল তথ্য ছড়াতে বা সংবেদনশীল তথ্য পেতে সরকারি কর্মকর্তাদের কণ্ঠস্বর নকল করা।

মনজিৎ রেগে এবং লিউ বলেন, সিনথেটিক অডিওগুলো ‘ডিপ লার্নিং’ প্রযুক্তি ব্যবহার করে বানানো হয়। এখানে নানা ধরনের বক্তা, কণ্ঠস্বর ও কথোপকথনের একটি বিশাল ডেটাসেট ব্যবহার করে এআই মডেলগুলোকে প্রশিক্ষণ দেওয়া হয়। এইভাবে যে ডেটা পাওয়া যায় তার ভিত্তিতেই কৃত্রিম বুদ্ধিমত্তা মানুষের মতো অবিকল কণ্ঠস্বর তৈরি করতে সক্ষম হয়।

পলিটিফ্যাক্ট সেই সকল টিকটক ও ইউটিউব অ্যাকাউন্টগুলো শনাক্ত করেছে যারা ২০২৪ সালের মার্কিন নির্বাচন সম্পর্কে মিথ্যা বয়ানের অডিও আপলোড করেছে এবং বিশেষজ্ঞরা বিশ্লেষণে দেখিয়েছেন যে এগুলো এআই দিয়ে তৈরি। 

লিউ বলেন, সাধারণত অডিও এক-মাত্রিক হয় এবং ছবি ও ভিডিওর থেকেও এর স্থায়ীত্ব কম হয়ে থাকে। ফলে নকল কণ্ঠস্বর ধরার কাজটি কঠিন; আর একারণেই মানুষকে বিভ্রান্ত করার ক্ষেত্রে অডিও বেশি সফল হচ্ছে। লিউ বলেন, ভিডিও থামিয়ে পরীক্ষা করা যায়, ছবিও যাচাই করা অনেক সময় নিয়ে। কিন্তু কোনো অডিও এআই দিয়ে তৈরি কিনা, তা যাচাই করাটা কঠিন। তিনি উদাহরণ দিয়ে বলেন, একটি ফোনকলের অডিও এআই দিয়ে তৈরি কিনা তা কলে থাকা অবস্থায় যেমন যাচাই করা যায় না, কলটি অনেক সময় রেকর্ড করাও সম্ভব হয় না। লিউ মনে করেন, বিকল্প কোনো ডিজিটাল কপি থাকে না বলে এ ধরনের অডিও বিশ্লেষণ করা কঠিন।  

সনাক্তকারী টুলগুলোও দুর্বল

অডিও ডিপফেক প্রযুক্তি যখন দ্রুত বিকশিত হচ্ছে, সনাক্তকারী টুলগুলো এর সঙ্গে তাল মেলাতে হিমশিম খাচ্ছে।

সাউদাম্পটন বিশ্ববিদ্যালয়ের প্রভাষক ও অডিও এআই সুরক্ষায় বিশেষজ্ঞ জেনিফার উইলিয়ামস বলেন, অডিও ডিপফেক শনাক্ত করা একটি সক্রিয় গবেষণার ক্ষেত্র, এর অর্থ হচ্ছে এটি বর্তমানে একটি অমীমাংসিত সমস্যা। 

এআই দিয়ে তৈরি কণ্ঠস্বর ধরতে পারার দাবি করে এমন অনেক এআই অনলাইন টুল শুধু পেইড সাবস্ক্রিপশন বা ডেমো হিসেবে পাওয়া যায়। অন্যরা নির্দিষ্ট ইমেল ঠিকানায় গ্রাহকদের অডিও ফাইল পাঠাতে বলে। 

এরপর আমরা বিনামূল্যের টুলসগুলোর কাজ দেখতে চাচ্ছিলাম।

নর্থওয়েস্টার্ন ইউনিভার্সিটির কম্পিউটার সায়েন্সের অধ্যাপক ভি.এস. সুব্রাহ্মানিয়ান নর্থওয়েস্টার্ন সিকিউরিটি অ্যান্ড এআই ল্যাবে পরীক্ষামূলক এআই অডিও শনাক্তকরণ ব্যবস্থা চালু করেছেন। তাঁর নেতৃত্বে একটি দল এমন ১৪টি অডিও ডিপফেক সনাক্তকরণ টুল পরীক্ষা করে যেগুলো ছিল হাতের নাগালে, বিনামূল্যের এবং জনসাধারণের জন্য উন্মুক্ত। গবেষণার ফলাফল এখনও সবার জন্য উন্মুক্ত নয় বলে জানান সুব্রাহ্মানিয়ান। তবে তিনি এটুকু জানান যে ফলাফল হতাশাজনক।

সুব্রাহ্মানিয়ান বলেন, “এই মুহূর্তে আপনি ডিপফেক অডিও শনাক্তকারী কোনো টুলের উপরই ভরসা করতে পারবেন না আর আমি আপনাকে এর কোনোটিই ব্যবহার করার পরামর্শও দেব না”।

আমরা অনেক খুঁজে তিনটি ফ্রি টুল পেয়েছি: স্পিচ ক্লাসিফায়ার, এআই অর নট এবং প্লেএইচটি। এর মধ্যে প্রথমটি ইলেভেন ল্যাবের। এছাড়াও আমরা ডিপফেক-ও-মিটার পরীক্ষা করেছি; এটি ইউনিভার্সিটি অব বাফেলোর মিডিয়া ফরেনসিক ল্যাবে তৈরি করা হয়েছে, যার নেতৃত্ব দিচ্ছেন লিউ।

আমরা আমাদের পরীক্ষার জন্য বাইডেনের ভুয়া রোবোকলের একটি কপি নিউ হ্যাম্পশায়ার অ্যাটর্নি জেনারেলের অফিস থেকে সংগ্রহ করি এবং চারটি টুলের মাধ্যমে তা যাচাই করি।

গত ২৩ জানুয়ারি নিউ হ্যাম্পশায়ারের প্রাইমারির (প্রেসিডেন্ট প্রার্থী বাছাইয়ের জন্য প্রাথমিক নির্বাচন) আগে যে রোবোকলটি ছড়িয়েছিল তার কণ্ঠস্বর বাইডেনের মতোই ছিল। এতে ডেমোক্রেট ভোটারদের উদ্দেশ্যে বলতে শোনা যায় প্রাইমারিতে ভোট দেওয়ার অর্থ হবে, “কেবল রিপাবলিকানদের জন্য ডোনাল্ড ট্রাম্পকে পুনর্নিবাচিত করার পথ পরিষ্কার করে দেওয়া”। অডিওটিতে নভেম্বরের আগ পর্যন্ত মানুষকে ভোট না দিতে উৎসাহিত করা হয়। বিষয়টি জানার সঙ্গে সঙ্গেই নিরাপত্তা সফটওয়্যার প্রতিষ্ঠান পিনড্রপ এটি যাচাই করে এবং জানায় যে অডিওটি ইলেভেনল্যাবসের তৈরি- এমন সম্ভাবনা ৯৯ শতাংশ। পরে জাদুকর পল কার্পেন্টার এনবিসি নিউজকে দেওয়া একটি সাক্ষাৎকারে বিষয়টি নিশ্চিত করে জানান, ভিডিওটি বানাতে তাঁর ২০ মিনিটেরও কম সময় এবং ১ ডলারেরও কম অর্থ খরচ পড়েছে।  

ইলেভেনল্যাবসের রয়েছে নিজস্ব ‘এআই স্পিচ ক্লাসিফায়ার’, ২০২৩ সালে বাইডেনের রোবোকলটি ছড়িয়ে পড়ার আগেই এটি উন্মুক্ত করা হয়েছিল। ইলেভেনল্যাবসে কোনো অডিও ক্লিপ তৈরি করা হয়ে থাকলে ক্লাসিফায়ারটি তা ধরতে পারে। আমরা নিউ হ্যাম্পশায়ার অ্যাটর্নি জেনারেলের অফিস থেকে প্রাপ্ত অডিও ক্লিপটি ইলেভেনল্যাবসের স্পিচ ক্লাসিফায়ারে আপলোড করেছিলাম। ফলাফল? সম্ভাবনা মাত্র ২ শতাংশ- অর্থাৎ, ইলেভেনল্যাবস দিয়ে অডিওটি বানানো হয়েছে এমন সম্ভাবনা “খুবই কম।”

কেন ইলেভেনল্যাবস এত কম সম্ভাবনা দেখালো তা স্পষ্ট নয়। পিনড্রপও ইলেভেনল্যাবসের টুল ব্যবহার করে পরীক্ষা করেছে এবং তাদেরকে বলা হয়েছে অডিওটি ইলেভেনল্যাবসে তৈরি হওয়ার সম্ভাবনা ৮৪ শতাংশ। লিও বলেন, ফাইল সংকোচন এবং অন্যান্য কিছু কারণে অডিওতে গুণগত পরিবর্তন আসতে পারে। ফলে যে বৈশিষ্ট্যগুলোর উপর ভিত্তি করে এআই ব্যবহার শনাক্ত করা হয় সেগুলো নষ্ট হয়ে যেতে পারে। এছাড়া পিনড্রপ সেই একই অডিও ফাইল ব্যবহার করেছে কিনা, আমরা জানি না। (পিনড্রপের নিজস্ব ডিপফেক শনাক্তকরণ ব্যবস্থা রয়েছে, অনুমতিক্রমে যার ডেমো ব্যবহার করা যায়)।

আমরা আমেরিকান প্রযুক্তি প্রতিষ্ঠান অপটিকের তৈরি করা ‘এআই অর নট’ ব্যবহার করে একই পরীক্ষা চালিয়েছিলাম। ফলাফল এসেছে যে অডিও ক্লিপটি ‘সম্ভবত মানুষের।’ 

এআই অর নট এর প্রধান নির্বাহী আনাতোলি কভিনিতস্কি পলিটিফ্যাক্টকে বলেন, অডিও নমুনাটির সঙ্গে “অনেক নয়েজ যুক্ত ছিল”, যার ফলে এর এআই সংশ্লিষ্টতা ভাষা বিশেষজ্ঞদের সাহায্য ছাড়া শনাক্ত করা কঠিন। “এটা এআই তখনই নিশ্চিত করা গিয়েছিল যখন রেকর্ডিংয়ের নির্মাতা এটিকে এআই নির্মিত বলে স্বীকার করেছিলেন,” বলেন কভিনিতস্কি। 

আমরা প্লেএইচটি ব্যবহার করেও অডিওটি পরীক্ষা করেছি, কিন্তু প্রতিবার বাইডেনের জাল অডিও আপলোড করার চেষ্টাকালে ‘ইরর’ বার্তা দিয়েছে।

মন্তব্যের জন্য আমরা ইলেভেনল্যাবস ও প্লেএইচটির সঙ্গে যোগাযোগ করেছিলাম, কিন্তু কোনো সাড়া পাইনি।

লিউ বলেন, ছবি ও ভিডিওর তুলনায় ডিপফেক অডিও সনাক্তকরণ পরিষেবা কম। তিনি বলেন, এর একটি কারণ হচ্ছে ডিপফেক ছবি, ডিপফেক ভিডিও- এগুলো এসেছে আরও আগে।

মনজিৎ রেগে বলেন, যদিও গবেষকরা ওপেন-সোর্স টুলসও তৈরি করেছেন, তবে সেগুলোর যথার্থতা এখনো পরীক্ষিত নয়।

“আমি বলব ডিপফেক শনাক্ত করতে জনসাধারণের ব্যবহারের উপযোগী কোনো টুল এখন পর্যন্ত আসেনি,” বলেন মনজিৎ রেগে; সঙ্গে যোগ করেন “এই অবস্থায় আমি একাধিক সনাক্তকরণ পদ্ধতি নিয়ে সম্মিলিত পদ্ধতিতে ব্যবহারের পরামর্শ দেব।” 

দ্য ইউনিভার্সিটি অ্যাট বাফেলোর মিডিয়া ফরেনসিক ল্যাবের ডিপফেক-ও-মিটার এখনো আনুষ্ঠানিকভাবে চালু হয়নি। তবে এটি বিনামূল্যে ব্যবহার করা যাবে এবং সেজন্য শুধুমাত্র একটি অ্যাকাউন্ট তৈরি করলেই হবে বলে লিউ জানান। ডিপফেক-ও-মিটার বাইডেনের অডিওটি এআই জেনারেটেড হওয়ার সম্ভাবনা ৬৯.৭ শতাংশ বলে জানিয়েছে— আমরা যে টুলগুলো যাচাই করেছি তার মধ্যে সবচেয়ে কাছাকাছি ফলাফল ছিল এটি।

অডিও ডিপফেক কীভাবে ধরা যাবে

সুব্রাহ্মানিয়ান বলেন, যেসব অডিওকলের মাধ্যমে অর্থ, ব্যক্তিগত তথ্য, পাসওয়ার্ড, ব্যাংক কোড বা দ্বিধাপ সনাক্তকরণ কোডের অনুরোধ করা হয় সেই কলগুলো “অত্যন্ত সতর্কতার সঙ্গে নেওয়া উচিত।” তিনি ফোনে কাওকে এই জাতীয় তথ্য না দিতেও সতর্ক করেন।

“তাড়াহুড়ো একটি বড় বিষয়,” বলেন তিনি। “স্ক্যামাররা সাধারণত চায় আপনারা চটজলদি কিছু করুন, সেটি নিয়ে গভীরভাবে চিন্তা বা কারও সঙ্গে পরামর্শ করার আগেই। তবে এই ফাঁদে পা দেবেন না।”

লিউ এবং রেগে বলেন, কোনো অডিও এআই জেনারেটেড কিনা বোঝার জন্য গভীর মনোযোগ দিয়ে শুনতে হবে। যেমন শ্বাস-প্রশ্বাস অনিয়মিত কিনা, ইচ্ছাকৃত কোনো দম নেওয়া হচ্ছে কিনা বা নেপথ্যে পারিপার্শ্বিক শব্দ বদলে যাচ্ছে কিনা এগুলোও যাচাই করে দেখা উচিত।

অডিওর উৎস ও বক্তব্য ব্যবহারকারীদের ক্রস-চেক করে দেখা উচিত বলেও মনে করেন লিউ এবং রেগে।

“অযাচিত অডিও বার্তা বা রেকর্ডিং সম্পর্কে সন্দেহপ্রবণ হোন, বিশেষ করে যখন কোনো দায়িত্বশীল কর্তৃপক্ষ, তারকা বা আপনার পরিচিত ব্যক্তি বলে দাবি করা হয়”, বলেন রেগে।

সাধারণ জ্ঞান ব্যবহার করুন এবং কে করেছে বা কোথা থেকে কলটি এসেছে, এটি বিচ্ছিন্ন বা সংযোগহীন কোনো সূত্র থেকে এসেছে কিনা, তা যাচাই করুন,” বলেন লিউ। 

সায়েন্টিফিক আমেরিকানের সঙ্গে একটি সাক্ষাৎকারে ক্যালিফোর্নিয়া ইউনিভার্সিটি, বার্কলের কম্পিউটার সায়েন্সের অধ্যাপক হ্যানি ফরিদ অডিও রেকর্ডিংগুলো বিশ্লেষণ করার সময় উৎপত্তি – বা মৌলিক ও বিশ্বাসযোগ্য কিনা এসব তথ্যে জোর দিয়ে অডিও যাচাই করতে বলেছেন। এ সময় কিছু প্রশ্ন মাথায় রাখারও পরামর্শ দেন তিনি; যেমন: “অডিওটি কোথায় রেকর্ড করা হয়েছিল? কখন রেকর্ড করা হয়েছিল? কে রেকর্ড করেছে? যে সাইটে এটি পোস্ট করা হয়েছে সেখানে কে এটি ফাঁস করেছে?”

আইনি বিষয়, আর্থিক লেনদেন বা গুরুত্বপূর্ণ ইভেন্টের বিষয়ে রেগে বলেন, মানুষ অডিও বা ভয়েসে নির্ভর না করে এর বাইরে গিয়ে অন্যান্য নিরাপদ চ্যানেলের মাধ্যমে পরিচয় যাচাই করার মধ্য দিয়ে নিজেদের রক্ষা করতে পারে।

রেগে আরো বলেন, উদীয়মান এই প্রযুক্তিটি এতোটাই এগিয়েছে যে ডিপফেক অডিওকে সত্যি বলেই মনে হয়। তাই ডিপফেক অডিও থেকে বাঁচতে সন্দেহ করার চর্চার ওপর জোর দেন তিনি।


এই লেখাটি প্রথম প্রকাশিত হয়েছিল পয়েন্টার-এ। বাংলায় অনুবাদ করেছেন তামারা ইয়াসমীন তমা।

আরো কিছু লেখা