آیا میتوانید صدای انسان را از هوش مصنوعی تشخیص دهید؟
سازندههای گفتار مبتنی بر هوش مصنوعی اکنون این توانایی را دارند که مکالمات صوتی ایجاد کنند که به شکل ترسناکی شبیه به صدای واقعی یک انسان است و لهجهها، زمزمه کردنها را شبیهسازی میکند و حتی میتواند نسخهای مشابه صدای یک انسان واقعی ارائه دهد. پس چگونه میتوان صدای هوش مصنوعی را از صدای انسان واقعی تشخیص داد؟
به گزارش دنده6 : این روزها گفتگو با هوش مصنوعی کار بسیار آسانی است. کافی است از چند چتبات سوال بپرسید و آنها حتی به صورت شفاهی پاسخ جذابی را ارائه خواهند کرد. میتوانید با آنها به چندین زبان چت کنید یا درخواست کنید که با یک گویش یا لهجه خاص به شما پاسخ بدهند.
به نقل از بیبیسی، اکنون حتی میتوان از ابزارهای شبیهسازی گفتار مبتنی بر هوش مصنوعی برای شبیهسازی صدای انسانهای واقعی استفاده کرد. یکی از این ابزارها به تازگی برای شبیهسازی صدای پخش گوینده فقید بریتانیایی سر مایکل پارکینسون(Sir (Michael Parkinson برای تولید یک مجموعه پادکست هشت قسمتی استفاده شد، در حالی که گوینده تاریخ طبیعی سر دیوید آتنبرو(Sir David Attenborough) از شنیدن صدای خودش که توسط هوش مصنوعی شبیهسازی شده بود «عمیقاً آشفته» شد.
در برخی موارد از این فناوری برای کلاهبرداریهای پیچیده استفاده میشود تا افراد را فریب دهند که پول را به مجرمان تحویل دهند.
البته همهی صداهای تولید شده توسط هوش مصنوعی برای مقاصد مجرمانه استفاده نمیشوند. آنها همچنین در چتباتهای مدلهای زبانی بزرگ استفاده میشوند تا بتوانند به روشی بسیار طبیعیتر و قانعکنندهتر صحبت کنند. برای مثال، عملکرد صوتی چت جیپیتی اکنون میتواند با استفاده از تغییرات لحن و تاکید بر کلمات خاص به روشهای بسیار مشابهی که یک انسان برای انتقال همدلی و احساس بیان میکند، پاسخ دهد. همچنین میتواند نشانههای غیرکلامی مانند آه کشیدن و گریه را دریافت کند و به ۵۰ زبان صحبت کند و لهجه هم داشته باشد. حتی میتواند از طرف کاربران برای کمک به آنها، تماس تلفنی برقرار کند.
این قابلیتها یک سوال قابل توجه را بر میانگیزد: آیا نکتهای منحصر به فرد در صدای انسان وجود دارد که به ما کمک کند آن را از گفتار هوش مصنوعی تمیز دهیم؟
جاناتان هرینگتون(Jonathan Harrington)، استاد آوایی و پردازش گفتار دیجیتال در دانشگاه مونیخ، آلمان، دههها را صرف مطالعه پیچیدگیهای نحوه صحبت کردن، تولید صداهای کلمات و لهجههای انسان کرده است. حتی او نیز تحت تأثیر قابلیتهای صوتی هوش مصنوعی قرار گرفته است.
او میگوید: در ۵۰ سال گذشته، و بهویژه به تازگی، سیستمهای تولید و ترکیب گفتار به قدری بهبود یافتهاند که تشخیص صدای تولید شده توسط هوش مصنوعی از صدای واقعی بسیار دشوار است.
اما او معتقد است که هنوز برخی نشانههای مهم وجود دارد که میتواند به ما کمک کند تا بفهمیم در حال صحبت با یک انسان هستیم یا با یک هوش مصنوعی.
با این حال، قبل از پرداختن به این موضوع، تصمیم گرفتیم یک چالش کوچک ترتیب دهیم تا ببینیم صدای تولید شده توسط هوش مصنوعی تا چه اندازه میتواند متقاعد کننده باشد. برای انجام این کار، از معمار هوش مصنوعی استرن دانشگاه نیویورک، کانر گرنان(Conor Grennan)، خواستیم دو کلیپ صوتی ایجاد کند که بخشهای کوتاهی از متن در آن خوانده میشود.
یکی قسمتی از داستان کلاسیک لوئیس کارول، «آلیس در سرزمین عجایب» بود که توسط گرنان خوانده شد و دیگری بخش مشابهی بود که با ابزار شبیهسازی گفتار هوش مصنوعی از شرکت نرمافزار الونلبز(ElevenLabs) تولید شد. میتوانید هر دوی آنها را در ادامه گوش دهید تا ببینید آیا میتوانید تفاوت را تشخیص دهید یا خیر. پاسخ این سوال را در انتها خواهیم داد اما پیش از آن به نکاتی میپردازیم که میتوانند برای تشخیص هوش مصنوعی از انسان واقعی مفید باشند.
در کمال تعجب، تقریبا نیمی از افرادی که کلیپها را برایشان پخش میکردیم، نمیتوانستند تشخیص دهند کدام هوش مصنوعی و کدام انسان است. شایان ذکر است که آزمایش ما علمی نبود و کلیپها از طریق تجهیزات صوتی پیشرفته پخش نمیشدند و فقط از بلندگوهای معمولی لپتاپ و تلفنهای هوشمند استفاده شد.
استیو گروبمن(Steve Grobman) که به عنوان مدیر ارشد فناوری شرکت امنیت سایبری مکآفی(McAfee) خدمت میکند، تنها با گوش دادن تلاش کرد تا تشخیص دهد کدام صدای انسان و کدام هوش مصنوعی است.
او میگوید: بیتردید مواردی فراتر از گفتار وجود داشت، مانند نفس کشیدن که باعث میشد بیشتر به سمت انسانی بودن حرکت کنم، اما آهنگ، تعادل، تونالیته مرا به سمت هوش مصنوعی سوق میداد. برای گوش آموزش ندیده انسان، درک بسیاری از این موارد میتواند دشوار باشد.
گروبمن میگوید: وقتی افراد تبهکار صدای واقعی را با بخشهایی از صداهای جعلی دستکاری میکنند، تشخیص آن چالش برانگیز میشود. او به ویدیویی از بیل گیتس، بنیانگذار مایکروسافت، اشاره میکند که برای گوش انسان، صدا دقیقا شبیه به صدای این میلیاردر فناوری بود، اما با اجرای آن در یک ابزار تشخیص دهنده کلاهبرداری، این فیلم به عنوان یک جعل عمیق یا دیپفیک پرچمگذاری شد.
یکی دیگر از کارشناسان امنیت سایبری که با او صحبت کردیم به نام پیت نیکولتی(Pete Nicoletti)، مدیر ارشد امنیت اطلاعات جهانی Check Point Software که یک پلتفرم تجزیه و تحلیل تهدید است نیز در چالش «آلیس در سرزمین عجایب»، دچار مشکل شد.
او میگوید که معمولا هنگام پخش صدا به الگوهای گفتاری غیرطبیعی مانند مکثهای نامنظم و عبارتهای نامناسب گوش میدهد. مصنوعات عجیب و غریب مانند اعوجاج و نویز پس زمینه نامتناسب نیز میتواند یک راه حل باشد.
او همچنین به تغییرات محدود در حجم، آهنگ و لحن گوش میدهد، زیرا صداهایی که تنها از چند ثانیه صدا شبیهسازی میشوند، ممکن است دامنه کامل صدای انسان را نداشته باشند.
نیکولتی میگوید: ما در جامعهای زندگی میکنیم که شبیهسازیهای صوتی تولید شده توسط هوش مصنوعی میتوانند حتی سیستمهای اعتبارسنجی صدای شرکتهای کارت اعتباری را فریب دهند.
دین شرتس(Dane Sherrets)، معمار نوآوری فناوریهای نوظهور در هکر وان(HackerOne) که جامعهای از شکارچیان باگ برای افشای آسیبپذیریهای امنیتی برخی از بزرگترین شرکتهای جهان هستند، از جمله کسانی بود که توانست صدای انسان را به درستی شناسایی کنند. او میگوید تغییر لحن طبیعی و تنفس در کلیپها راه حل مناسب بود.
هرینگتون میگوید که گوش دادن به تکیه گذاری یا تاکید بر کلماتی که در یک جمله ادا میشوند، میتواند ترفند خوبی برای تشخیص گفتار تولید شده توسط رایانه از انسان باشد. علت این است که انسانها از تاکید برای ارائه معنی بیشتر به یک جمله در متن گفتگو استفاده میکنند.
او میگوید: برای مثال، جملهای مانند «ماریانا مارمالاد درست کرد» معمولا بیشترین تاکید را بر ماریانا و مارمالاد دارد، اگر به عنوان یک جمله فردی و بدون زمینه خوانده شود. اما اگر کسی بپرسد که آیا ماریانا مارمالاد را خریده است یا خیر، ممکن است در پاسخ روی کلمه «درست کردن» تاکید شود.
لحن یا تغییر زیر و بم صدا در یک جمله، همچنین میتواند کلمات مشابه را از یک جمله خبری به یک جمله پرسشی تبدیل کند.
جملهبندی نیز عامل مهمی است. نحوه شکستن یک جمله نیز میتواند معنای آن را تغییر دهد. هرینگتون توضیح میدهد که جملهی «وقتی خطری تهدید میکند، کودکان به پلیس زنگ میزنند» معنای بسیار متفاوتی با «وقتی خطر کودکان را تهدید میکند، با پلیس تماس بگیرید» دارد.
هرینگتون میگوید: این یکی از مواردی است که گفتار تولید شده توسط رایانه در آن بسیار ضعیف بوده و شبیه انسان نیست.
اما با پیشرفت فناوری، هوش مصنوعی در شبیهسازی این جنبههای گفتار نیز مهارت بیشتری پیدا میکند.
شرتس میگوید: اگر به آن فکر کنید، اینطور به نظر میرسد که این بدترین فناوری است که تا به حال ساخته شده است. حتی چیزی که ۶۰ درصد خوب باشد هم زیادی قدرتمند است و از اینجا به بعد فقط ارزانتر، سریعتر و بهتر میشود.
او و بسیاری از افرادی که با آنها صحبت کردیم به طور خاص نگران شبیهسازی صدا هستند. به عنوان مثال، این یک تهدید بسیار واقعی برای مشاغل است.
آساف راپاپورت(Assaf Rappaport)، مدیر اجرایی Wiz، یک شرکت پیشرو در امنیت سایبری، در یک کنفرانس فناوری در اکتبر به حضار گفت که شخصی با استفاده از یکی از صحبتهای اخیرش شبیهسازی صوتی انجام داده است. سپس از آن برای ارسال یک پیام صوتی جعل عمیق به دهها کارمند استفاده کرده تا سرقت اطلاعات انجام دهد. کلاهبرداران ناموفق بودند، اما این حادثه، یک زنگ خطر بود.
در مثالی دیگر، یک مدیر مدرسه پس از اینکه یک کلیپ صوتی جعلی نشان میداد که او اظهارات عمیقا توهینآمیزی میکرده، تهدید به مرگ شد. موارد دیگری نیز دیده شده است که کلاهبرداران در تماسهای تلفنی با استفاده از شبیهسازی صدای اعضای خانواده افراد، از آنها تقاضای پول کرده و کلاهبرداری کردهاند.
شرتس توصیه میکند راههای دیگری را برای احراز هویت شخصی که فکر میکنید با او صحبت میکنید، اتخاذ کنید.
او میگوید: برای مثال در خانه، یک رمز خانوادگی تعیین کنید. در محل کار فقط به این دلیل که یک پیام صوتی از مدیر اجرایی شرکت خود دریافت کردهاید، کاری انجام ندهید.
همچنین میتوانید سوالات شخصی مانند آهنگ مورد علاقه آنها را بپرسید. اما شاید بهترین کاری که میتوانید انجام دهید این باشد که اگر مشکوک هستید که یک هوش مصنوعی، هویت شخصی که میشناسید را جعل کرده است، به آن فرد بگویید که با او تماس میگیرید و با شمارهای که از قبل دارید تماس برقرار کنید.
مایکل مکنرنی(Michael McNerney)، معاون ارشد امنیت در شرکت بیمه ریسک سایبری، Resilience است که حملاتی که در آن کارکنان فریب داده میشوند و با صدای جعلی، پول را انتقال میدهند، پوشش میدهد. او در چالش «آلیس در سرزمین عجایب» ما نیز به درستی حدس زد که کدام صدای هوش مصنوعی و کدام یک انسان است.
او در حالی که به نمونهها گوش میداد، از خودش پرسید: آیا این تنفس واقعی است یا تنفس مصنوعی؟ آیا اشتباهاتی وجود داشت؟ آیا خیلی واضح بود، خیلی عالی؟ تپق زدن و نفس کشیدن بسیار انسانی است، بنابراین اگر همه چیز خیلی عالی باشد، در واقع میتواند نشانهای باشد که هوش مصنوعی در حال جعل کردن یک صدا است.
هرینگتون و همکارانش در مؤسسه آوایی دانشگاه مونیخ، با گوش دادن به دو کلیپ صوتی ما، سعی کردند تشخیص دهند. آنها به تعدادی ویژگی اشاره کردند که باید به آنها در شناسایی گفتار انسان کمک میکرد.
تغییرات در سرعت گفتار اغلب نشان دهنده صدای انسان است، اما در واقع به نظر میرسید که صدای هوش مصنوعی در نمونههای ارائه شدهی ما، بیشتر از صدای انسان این نشانه را تولید میکرد.
نفس گرفتن نیز باید یکی دیگر از نشانهها باشد. چند نفر از آنهایی که کلیپها را گوش کردند، چیزی در مورد تنفس در هر دو مجموعه کلیپ شناسایی کردند. هرینگتون و همکارانش همچنین گفتند که نفسگیری در یکی از کلیپهای «آلیس در سرزمین عجایب» تقریبا بیش از حدِ معمول است. اما معلوم شد که آن نمونه انسانی بوده است.
این واقعیت که بسیاری از کارشناسانی که برای این مقاله با آنها صحبت کردیم، تلاش کردند تا هوش مصنوعی و صدای انسان را از هم تمیز دهند، اما موفق نشدند نباید به عنوان یک شکست در تواناییهای آنها تلقی شود. بلکه نشانهای از این است که هوش مصنوعی در حال حاضر چقدر در تقلید صدای انسان بهبود یافته است.
هرینگتون میگوید این چیزی است که میتواند پیامدهای نگران کنندهای داشته باشد.
هرینگتون می گوید، با این حال، راه دیگری برای تشخیص صدای یک انسان از صدای هوش مصنوعی وجود دارد. او میگوید: از چیزی به نام عروضی یا نوای گفتار استفاده کنید. مثال زیر را در نظر بگیرید:
سوال: آیا جان هنوز «دوران مشقت» را نخوانده است؟
پاسخ: جان، دیکنز را دوست ندارد.
تاکید بر فعل در پاسخ نشان میدهد که پاسخدهنده متوجه میشود که دیکنز نویسنده رمان «دوران مشقت» است.
هرینگتون میگوید: ترکیب این نوع گفتوگوها با یک عروض طبیعی ممکن است هنوز برای بسیاری از سیستمهای هوش مصنوعی سخت باشد، زیرا به دانشی از جهان نیاز دارد که فراتر از کلمات چاپ شده در کتاب است.
اما حتی این نوع آزمون نیز میتواند به زودی توسط مدلهای زبانی بزرگ که از مجموعه دادههای بزرگی از اینترنت استفاده میکنند، پشت سر گذاشته شود. زیرا هوش مصنوعی خود را برای گفتگوی انسانیتر آموزش میدهد.
سرویسهای جریانساز مانند عملکرد صوتی چت جیپیتی قابلیت خندیدن، زمزمه کردن، قطع شدن صحبت و ادامه صحبت را در حال حاضر دارند. همچنین میتوانند هر آنچه را که تا به حال به آنها گفتهاید به خاطر بسپارند.
وقتی از اُپنایآی پرسیده شد که چه تدابیری در هنگام مکالمه با انسانها برای اطمینان از اینکه هوش مصنوعی نشان میدهد که هوش مصنوعی است وجود دارد، اعلام کرد که قصد ندارد هوش مصنوعی را برای قابل شناسایی شدن «واترمارک» کند، زیرا احتمال سوگیری علیه کاربران وجود دارد.
با این حال، این شرکت میگوید که فعالانه تلاش میکند تا شبیهسازی صدای افراد واقعی را با رونمایی از قابلیتهای پیشرفته چتجیپیتی مسدود کند.
جکی شانون (Jackie Shannon)، سرپرست محصول چندوجهی چتجیپیتی به بیبیسی گفت: ما تلاش میکنیم تا در ساخت صدای مصنوعی خود از کپی کردن صدای افراد واقعی جلوگیری کنیم. ما فقط به مدل اجازه میدهیم از صداهای از پیش تعیین شده استفاده کند.
چند ترفند دیگر وجود دارد که اگر شک دارید که صدایی که با آن صحبت میکنید ممکن است انسانی نباشد، میتوانید آنها را امتحان کنید. برای مثال میتوانید از آن بخواهید که فریاد بزند. نیکولتی گفت، بسیاری از سیستمهای صوتی هوش مصنوعی برای صحبت کردن خارج از محدوده صوتی معمولی مشکل دارند، مگر اینکه به طور خاص آموزش دیده باشند. من از چت جیپیتی خواستم که فریاد بزند و به من گفت که نمیتواند.
گرنان میگوید، نقص در گفتار انسان میتواند یکی دیگر از نکات مثبت باشد. اصلاح کردن خود و تکرار افکار، کاری بسیار انسانی است. بعید است که هرگز از هوش مصنوعی بشنوید که بگوید: اوه اصلا مهم نیست! یا میدونی چیه!
همچنین اقداماتی برای در دسترس قرار دادن نرمافزار تشخیص جعل عمیق در دسترس مصرفکنندگان وجود دارد. برای مثال، مکآفی (McAfee) با دل(Dell)، اچپی(HP)، لنوو(Lenovo)، سامسونگ(Samsung)، ایسر(Acer) و ایسوس(Asus) همکاری کرده است تا راه حل خود را روی رایانههای شخصی مجهز به هوش مصنوعی نصب کند. به گفته گروبمن، این شرکت همچنین انتظار دارد در آینده نزدیک نرم افزار خود را برای دستگاههای تلفن همراه عرضه کند.
الونلبز(ElevenLabs) که سازنده ابزاری است که برای ایجاد شبیهسازیهای صوتی هوش مصنوعی در چالش «آلیس در سرزمین عجایب» ما استفاده شد نیز همچنین یک ابزار تشخیص هوش مصنوعی رایگان ارائه میدهد تا به مردم کمک کند تشخیص دهند که آیا از نرم افزار برای ایجاد یک قطعه صدا استفاده شده است یا خیر.
اما در رقابت تسلیحاتی اجتنابناپذیر بین تولید هوش مصنوعی و تشخیص هوش مصنوعی، ممکن است ارزش جدیدی را در چیزی که در دنیای بهطور فزایندهای مجازی از دست دادهایم بیابیم – تعامل فیزیکی. شاید در جستجوی یافتن اینکه آیا با یک انسان صحبت میکنید، راه حل ساده است – زمان بیشتری را صرف ملاقات رو در رو کنید.
برای آن دسته از کسانی که هنوز شک دارند که کدام یک از کلیپهای صوتی ما واقعی بود باید فاش کنیم که اولین کلیپ صدای هوش مصنوعی بود در حالی که کلیپ دوم صدای واقعی یک انسان بود. آیا توانستید درست حدس بزنید؟