تصور کنید بدون اینکه دوربین را روشن کنید یا حتی یک کلمه جلوی آن حرف بزنید، ویدیویی داشته باشید که در آن خودِ شما در حال صحبت کردن هستید. نه یک شبیهسازی بیروح، بلکه نسخهای که هم شبیه چهرهی شماست و هم صدای خودتان را دارد. این دقیقاً همان کاری است که قابلیت تازهی آواتار هوش مصنوعی جمنای انجام میدهد؛ قابلیتی که گوگل بهتازگی آن را بهشکل گستردهتری در اختیار کاربران نسخهی اشتراکی قرار داده است.
در این مقاله بهطور کامل بررسی میکنیم که آواتار شخصی جمنای چیست، چطور ساخته میشود، چه کاربردهایی دارد و چرا گوگل اقدامات امنیتی سختگیرانهای برای آن در نظر گرفته است. اگر به حوزهی هوش مصنوعی و تولید محتوای ویدیویی علاقه دارید، این یکی از مهمترین تحولات ماههای اخیر است.
آواتار شخصی جمنای دقیقاً چیست؟
آواتار شخصی جمنای یک نسخهی دیجیتالی از شماست که توسط هوش مصنوعی ساخته میشود. این آواتار تنها یک تصویر متحرک نیست؛ ترکیبی از چهره و صدای واقعی شماست که میتواند در ویدیوهای تولیدشده توسط جمنای ظاهر شود و بهجای شما صحبت کند.
نکتهی کلیدی اینجاست که برای تولید هر ویدیوی جدید، دیگر نیازی نیست دوربین را روشن کنید یا چیزی ضبط کنید. کافی است آواتار خود را یکبار بسازید؛ از آن پس میتوانید با چند دستور ساده، ویدیوهایی تولید کنید که در آنها نسخهی دیجیتالیتان متنی را که شما تعیین کردهاید میگوید. برای سازندگان محتوا، آموزگاران و کسبوکارها این یعنی صرفهجویی چشمگیر در زمان تولید ویدیو.
این قابلیت در ابتدا بهصورت آزمایشی و محدود عرضه شده بود، اما اکنون گوگل دسترسی به آن را برای طیف وسیعتری از مشترکان پولی جمنای فعال کرده است.
مدل Omni؛ موتور پشت آواتار جمنای
قلب تپندهی این قابلیت، مدل تازهای از گوگل به نام Omni است. گوگل این مدل را در رویداد سالانهی I/O معرفی کرد و نخستین نسخهی عمومی آن با نام Gemini Omni Flash منتشر شد.
ویژگی متمایزکنندهی Omni چندوجهی بودنِ ذاتی آن است. به زبان ساده، این مدل میتواند متن، تصویر، صدا و ویدیو را بهصورت یکپارچه و در یک سیستم واحد پردازش و تولید کند، نه اینکه چند ابزار جداگانه را به هم وصل کند. همین معماری یکپارچه است که به آواتار اجازه میدهد ظاهر و صدای شما را بهشکلی هماهنگ و طبیعی بازسازی کند.
Omni فقط برای ساخت آواتار به کار نمیرود. این مدل قابلیتهای گستردهتری مانند تولید ویدیو از روی متن، جانبخشیدن به تصاویر ثابت، ویرایش ویدیو از طریق گفتوگو و ساخت ویدیوهای توضیحی را هم پشتیبانی میکند. به همین دلیل، آواتار شخصی را باید بخشی از یک اکوسیستم بزرگتر برای تولید محتوای ویدیویی دانست.
تمرکز گوگل بر واقعگرایی فیزیکی
یکی از ادعاهای جالب گوگل دربارهی Omni، بهبود درک این مدل از قوانین فیزیک است؛ چیزهایی مانند جاذبه، انرژی حرکتی و رفتار سیالات. هدف این است که ویدیوهای تولیدشده طبیعیتر به نظر برسند و حرکات آواتار، از جمله حالات چهره و هماهنگی لب با گفتار، باورپذیرتر شوند.
چطور آواتار هوش مصنوعی جمنای بسازیم؟
فرآیند ساخت آواتار بهطرز شگفتآوری ساده و سریع طراحی شده است و معمولاً تنها چند دقیقه طول میکشد. برای شروع باید به بخش تنظیمات اپلیکیشن جمنای بروید و گزینهی مربوط به آواتار (Avatar) را انتخاب کنید. سپس فرآیند راهاندازی در دو مرحلهی اصلی انجام میشود.
مرحلهی اول: ثبت چهره
در این مرحله گوشی را در سطح چشم و در محیطی با نور مناسب نگه میدارید. دوربین جلوی گوشی فعال میشود و سیستم از شما میخواهد سر خود را به جهتهای مختلف حرکت دهید تا چهرهتان از زوایای گوناگون ثبت شود. این کار به مدل کمک میکند تصویر سهبعدی دقیقی از چهرهی شما بسازد.
مرحلهی دوم: ثبت صدا
پس از ثبت چهره، نوبت به صدا میرسد. سیستم مجموعهای از اعداد تصادفی را روی صفحه نمایش میدهد و از شما میخواهد آنها را با صدای بلند بخوانید. این مرحله ضمن نمونهبرداری از صدای شما، نقش یک سدِ امنیتی را هم بازی میکند که در ادامه به آن میپردازیم.
پس از تکمیل این دو مرحله، آواتار شما بهصورت امن به حساب کاربریتان متصل میشود و برای استفادههای بعدی ذخیره میماند. از این پس دیگر نیازی به آپلود مجدد عکس یا فایل صوتی نخواهید داشت.
استفاده از آواتار در چتهای جمنای
پس از آنکه آواتار شما آماده شد، استفاده از آن بسیار ساده است. کافی است در چتهای جمنای از دستوراتی مانند @me یا نام کاربری خودتان استفاده کنید. با این کار، آواتارتان به ویدیویی که میسازید اضافه میشود.
برای مثال، میتوانید متنی را به جمنای بدهید و از آن بخواهید ویدیویی بسازد که در آن آواتار شما همان متن را بیان میکند. نتیجه ویدیویی است که در آن نسخهی دیجیتالیتان صحبت میکند، بدون آنکه هیچ ضبط واقعیای صورت گرفته باشد. این جریان کاری، تولید محتوای ویدیویی را از یک فرآیند زمانبر به چند جمله دستور تبدیل میکند.
محدودیتها و اقدامات امنیتی؛ مبارزه با دیپفیک
شاید مهمترین بخش این قابلیت، نه خودِ فناوری، بلکه نردههای محافظی باشد که گوگل دور آن کشیده است. ساخت نسخهی دیجیتال از چهره و صدای انسان، ذاتاً با خطر سوءاستفاده و ساخت ویدیوهای جعلی یا همان دیپفیک همراه است. گوگل برای کاهش این خطر چند لایهی حفاظتی در نظر گرفته است.
نخست، محدودیت سنی؛ تنها افراد بالای ۱۸ سال اجازهی استفاده از این قابلیت را دارند.
دوم، الزام به حضور فیزیکی. مالک حساب کاربری باید در لحظهی ساخت آواتار شخصاً حاضر باشد. همان مرحلهی خواندنِ زندهی اعداد تصادفی دقیقاً برای همین طراحی شده است؛ این کار تضمین میکند که شخص واقعی پشت دوربین حضور دارد و کسی نمیتواند صرفاً با یک عکس یا فایل صوتی از پیش ضبطشده، آواتاری از فرد دیگری بسازد. به این روش اصطلاحاً «اصطکاک ضد دیپفیک» گفته میشود.
سوم و مهمتر از همه، گوگل عامدانه برخی از پرخطرترین قابلیتهای مدل Omni را در این نسخه منتشر نکرده است. برای نمونه، ویرایش گفتار در ویدیوهای موجود یا تغییر صدای افراد در کلیپهای دیگران، فعلاً عرضه نشده و گوگل اعلام کرده که هنوز در حال آزمایش روشهای مسئولانه برای ارائهی این قابلیتهاست. این تصمیم نشان میدهد که شرکت آگاهانه میان قدرت فناوری و ریسک سوءاستفاده تعادل برقرار کرده است.
واترمارک SynthID؛ شناسنامهی نامرئی محتوای هوش مصنوعی
یکی از هوشمندانهترین تدابیر امنیتی گوگل، استفاده از واترمارک نامرئی SynthID است. تمام ویدیوهایی که با این سیستم تولید میشوند، به این واترمارک دیجیتال مجهز هستند.
SynthID که توسط بخش DeepMind گوگل توسعه یافته، یک سیگنال پنهان است که درون فایل ویدیو جاسازی میشود و حتی پس از ویرایش یا تغییر فرمت هم باقی میماند. این یعنی هر ویدیویی که با آواتار جمنای ساخته شود، عملاً یک شناسنامهی نامرئی همراه خود دارد که نشان میدهد محتوای آن با هوش مصنوعی تولید شده است.
این واترمارک از طریق ابزارهای گوگل مانند خود اپلیکیشن جمنای، جمنای در مرورگر کروم و جستوجوی گوگل قابل تشخیص است. در کنار SynthID، گزارشها از بهکارگیری برچسبهای استاندارد دیگری مانند C2PA نیز برای افشای ماهیت هوش مصنوعیِ محتوا حکایت دارند. در دورانی که نگرانیها دربارهی ویدیوهای جعلی به اوج رسیده، چنین ابزارهایی برای حفظ اعتماد عمومی اهمیت حیاتی پیدا کردهاند.
این قابلیت برای چه کسانی مفید است؟
با وجود تمام نگرانیها، پتانسیل خلاقانهی آواتار جمنای انکارناپذیر است. چند گروه میتوانند بیشترین بهره را از آن ببرند.
سازندگان محتوا میتوانند بدون نیاز به استودیو، نورپردازی و ساعتها فیلمبرداری، حجم تولید ویدیوی خود را بهشدت افزایش دهند. صاحبان کسبوکار قادرند بهسرعت ویدیوهای آموزشی، معرفی محصول یا پیامهای داخلی سازمانی بسازند. آموزگاران و تولیدکنندگان محتوای آموزشی میتوانند درسها و توضیحات خود را بهشکل ویدیویی و با حضور شخصی خودشان ارائه دهند، آن هم بدون صرف زمان زیاد. و البته علاقهمندان به فناوری هم فرصتی دارند تا با یکی از پیشرفتهترین فناوریهای روز تولید محتوا تجربهگری کنند.
جمعبندی؛ آیندهی تولید محتوای ویدیویی از همین حالا آغاز شده است
آواتار هوش مصنوعی جمنای فقط یک قابلیت سرگرمکننده نیست؛ نشانهای از جهتی است که کل صنعت تولید محتوا به سمت آن حرکت میکند. ترکیبِ مدل قدرتمند Omni، فرآیند سادهی ساخت آواتار و دسترسی آسان از طریق چت، این فناوری را به ابزاری واقعاً کاربردی تبدیل کرده است.
در عین حال، رویکرد محتاطانهی گوگل، از محدودیت سنی و الزام حضور فیزیکی گرفته تا واترمارک SynthID و خودداری از انتشار قابلیتهای پرخطر، نشان میدهد که توسعهی مسئولانهی هوش مصنوعی دیگر یک انتخاب نیست، بلکه یک ضرورت است. اینکه این تعادل در عمل چقدر موفق خواهد بود، چیزی است که در ماههای آینده مشخص میشود.
اگر مشترک نسخهی پولی جمنای هستید، همین حالا میتوانید این قابلیت را امتحان کنید. به نظر شما آواتارهای هوش مصنوعی چه تأثیری بر آیندهی تولید محتوا خواهند گذاشت؟ دیدگاه خود را در بخش نظرات با ما در میان بگذارید.
هیچ دیدگاهی برای این مطلب ثبت نشده است.