تین سیکنڈ میں آواز کی نقل اتارنے والا سافٹ ویئر تیار

کمپیوٹر سافٹ ویئر بنانے والی امریکی کمپنی مائیکروسافٹ نے مصنوعی ذہانت کی مدد سے صرف تین سیکنڈ تک کسی شخص کی آواز سننے کے بعد ہوبہو نقل تیار کرنے کی صلاحیت رکھنے والا وائس سمولیٹر متعارف کیا ہے۔

آلہ بنانے کے لیے سات ہزار افراد کی انگریزی میں 60 ہزار گھنٹوں کی تقاریر استعمال کی گئیں (اے ایف پی)

کمپیوٹر سافٹ ویئر بنانے والی امریکی کمپنی مائیکروسافٹ نے مصنوعی ذہانت کی مدد سے صرف تین سیکنڈ تک کسی شخص کی آواز سننے کے بعد ہوبہو نقل تیار کرنے کی صلاحیت رکھنے والا وائس سمولیٹر متعارف کیا ہے۔

اس وی اے ایل ایل ای لینگویج ماڈل کو بنانے کے لیے سات ہزار افراد کی انگریزی میں 60 ہزار گھنٹوں تقاریر استعمال کی گئیں تاکہ کسی بھی ان دیکھے شخص کی ’اعلیٰ معیار کی تقریر‘ کی ترکیب بنائی جا سکے۔

مصنوعی ذہانت کے اس سسٹم میں جب کسی شخص کی صرف ایک بار کی وائس ریکارڈنگ ہو، تو یہ سسٹم اس شخص کی طرح کچھ بھی کہنے کی آواز نکال سکتا ہے۔ حتیٰ کہ یہ بولنے والے کے جذباتی لہجے اور صوتی ماحول کی بھی نقل کر سکتا ہے۔

اس سسٹم کی وضاحت کرنے والے ایک پیپر کے مطابق ’تجربے کے نتائج سے پتہ چلتا ہے کہ وی اے ایل ایل-ای نے تقریر کے فطری ہونے اور بولنے والے کے ساتھ مماثلت کے لحاظ سے جدید ترین زیرو شاٹ ٹیکسٹ ٹو سپیچ سنتھیسس(ٹی ٹی ایس) سسٹم کو پیچھے چھوڑ دیا ہے۔

’علاوہ ازیں، ہمیں پتہ چلا کہ وی اے ایل ایل-ای بولنے والے کے جذبات اور صوتی ماحول کو سنتھیسس میں محفوظ کر سکتا ہے۔‘

ممکنہ ایپلی کیشنز میں مصنفین کا نمونے کی صرف ایک ریکارڈنگ سے پوری آڈیو بک پڑھنا، اصل زبان میں وائس اوور والی ویڈیوز، اور اگر اصل ریکارڈنگ خراب ہو گئی ہو تو فلمی اداکار کے لیے بات چیت کو مکمل کرنا شامل ہے۔

ویڈیوز میں کسی شخص کی بصری مماثلت کی نقل کرنے والی ڈیپ فیک ٹیکنالوجی کی طرح  اس کے بھی غلط استعمال کا امکان موجود ہے۔

مزید پڑھ

اس سیکشن میں متعلقہ حوالہ پوائنٹس شامل ہیں (Related Nodes field)

مائیکروسافٹ نے ماڈل کے غلط استعمال کی صورت میں ممکنہ خطرات، جیسا کہ آواز کی جعل سازی یا کسی بولنے والے کی نقل بنانا، کا حوالہ دیتے ہوئے کہا ہے کہ ’نقلی آواز بنانے کے لیے استعمال ہونے والا وی اے ایل ای سافٹ ویئر فی الحال عوامی استعمال کے لیے دستیاب نہیں۔‘

مائیکروسافٹ نے کہا کہ وہ وی اے ایل ایل ای  میں بہتری لانے کے ساتھ ساتھ اپنے مصنوعی ذہانت کے اصولوں پر بھی عمل کرے گی۔ نیز اس طرح کے خطرات کو کم کرنے کے لیے سنتھیسس آواز کا پتہ لگانے کے ممکنہ طریقوں پر بھی غور کیا جائے گا۔

مائیکروسافٹ نے عوامی ڈومین میں صوتی ریکارڈنگ کا استعمال کرتے ہوئے وی اے ایل ایل ای کو تربیت دیا، جبکہ جن بولنے والے افراد کی آواز کی نقل کی گئی انہوں نے رضاکارانہ طور پر تجربات میں حصہ لیا۔

مائیکروسافٹ کے محققین نے ایک بیان میں کہا کہ ’جب ماڈل کو نادیدہ افراد کے سامنے لایا جاتا ہے تو، سپیچ ایڈیٹنگ ماڈلز کے ساتھ متعلقہ چیزوں کا ہونا ضروری ہے، جن میں یہ پروٹوکول بھی شامل ہے کہ بولنے، ترمیم کرنے اور ترمیم شدہ تقریر کا پتہ لگانے والے سسٹم پر راضی ہیں۔‘

© The Independent

whatsapp channel.jpeg

زیادہ پڑھی جانے والی ٹیکنالوجی