آواتار هوش مصنوعی جمنای؛ حالا می‌توانید نسخه دیجیتال خودتان را بسازید

13 خرداد 1405

تکنولوژی

9 بازدید

آواتار هوش مصنوعی جمنای؛ حالا می‌توانید نسخه دیجیتال خودتان را بسازید

تصور کنید بدون اینکه دوربین را روشن کنید یا حتی یک کلمه جلوی آن حرف بزنید، ویدیویی داشته باشید که در آن خودِ شما در حال صحبت کردن هستید. نه یک شبیه‌سازی بی‌روح، بلکه نسخه‌ای که هم شبیه چهره‌ی شماست و هم صدای خودتان را دارد. این دقیقاً همان کاری است که قابلیت تازه‌ی آواتار هوش مصنوعی جمنای انجام می‌دهد؛ قابلیتی که گوگل به‌تازگی آن را به‌شکل گسترده‌تری در اختیار کاربران نسخه‌ی اشتراکی قرار داده است.

در این مقاله به‌طور کامل بررسی می‌کنیم که آواتار شخصی جمنای چیست، چطور ساخته می‌شود، چه کاربردهایی دارد و چرا گوگل اقدامات امنیتی سختگیرانه‌ای برای آن در نظر گرفته است. اگر به حوزه‌ی هوش مصنوعی و تولید محتوای ویدیویی علاقه دارید، این یکی از مهم‌ترین تحولات ماه‌های اخیر است.

آواتار شخصی جمنای دقیقاً چیست؟

آواتار شخصی جمنای یک نسخه‌ی دیجیتالی از شماست که توسط هوش مصنوعی ساخته می‌شود. این آواتار تنها یک تصویر متحرک نیست؛ ترکیبی از چهره و صدای واقعی شماست که می‌تواند در ویدیوهای تولیدشده توسط جمنای ظاهر شود و به‌جای شما صحبت کند.

نکته‌ی کلیدی اینجاست که برای تولید هر ویدیوی جدید، دیگر نیازی نیست دوربین را روشن کنید یا چیزی ضبط کنید. کافی است آواتار خود را یک‌بار بسازید؛ از آن پس می‌توانید با چند دستور ساده، ویدیوهایی تولید کنید که در آن‌ها نسخه‌ی دیجیتالی‌تان متنی را که شما تعیین کرده‌اید می‌گوید. برای سازندگان محتوا، آموزگاران و کسب‌وکارها این یعنی صرفه‌جویی چشمگیر در زمان تولید ویدیو.

این قابلیت در ابتدا به‌صورت آزمایشی و محدود عرضه شده بود، اما اکنون گوگل دسترسی به آن را برای طیف وسیع‌تری از مشترکان پولی جمنای فعال کرده است.

مدل Omni؛ موتور پشت آواتار جمنای

قلب تپنده‌ی این قابلیت، مدل تازه‌ای از گوگل به نام Omni است. گوگل این مدل را در رویداد سالانه‌ی I/O معرفی کرد و نخستین نسخه‌ی عمومی آن با نام Gemini Omni Flash منتشر شد.

ویژگی متمایزکننده‌ی Omni چندوجهی بودنِ ذاتی آن است. به زبان ساده، این مدل می‌تواند متن، تصویر، صدا و ویدیو را به‌صورت یکپارچه و در یک سیستم واحد پردازش و تولید کند، نه اینکه چند ابزار جداگانه را به هم وصل کند. همین معماری یکپارچه است که به آواتار اجازه می‌دهد ظاهر و صدای شما را به‌شکلی هماهنگ و طبیعی بازسازی کند.

Omni فقط برای ساخت آواتار به کار نمی‌رود. این مدل قابلیت‌های گسترده‌تری مانند تولید ویدیو از روی متن، جان‌بخشیدن به تصاویر ثابت، ویرایش ویدیو از طریق گفت‌وگو و ساخت ویدیوهای توضیحی را هم پشتیبانی می‌کند. به همین دلیل، آواتار شخصی را باید بخشی از یک اکوسیستم بزرگ‌تر برای تولید محتوای ویدیویی دانست.

تمرکز گوگل بر واقع‌گرایی فیزیکی

یکی از ادعاهای جالب گوگل درباره‌ی Omni، بهبود درک این مدل از قوانین فیزیک است؛ چیزهایی مانند جاذبه، انرژی حرکتی و رفتار سیالات. هدف این است که ویدیوهای تولیدشده طبیعی‌تر به نظر برسند و حرکات آواتار، از جمله حالات چهره و هماهنگی لب با گفتار، باورپذیرتر شوند.

چطور آواتار هوش مصنوعی جمنای بسازیم؟

فرآیند ساخت آواتار به‌طرز شگفت‌آوری ساده و سریع طراحی شده است و معمولاً تنها چند دقیقه طول می‌کشد. برای شروع باید به بخش تنظیمات اپلیکیشن جمنای بروید و گزینه‌ی مربوط به آواتار (Avatar) را انتخاب کنید. سپس فرآیند راه‌اندازی در دو مرحله‌ی اصلی انجام می‌شود.

مرحله‌ی اول: ثبت چهره

در این مرحله گوشی را در سطح چشم و در محیطی با نور مناسب نگه می‌دارید. دوربین جلوی گوشی فعال می‌شود و سیستم از شما می‌خواهد سر خود را به جهت‌های مختلف حرکت دهید تا چهره‌تان از زوایای گوناگون ثبت شود. این کار به مدل کمک می‌کند تصویر سه‌بعدی دقیقی از چهره‌ی شما بسازد.

مرحله‌ی دوم: ثبت صدا

پس از ثبت چهره، نوبت به صدا می‌رسد. سیستم مجموعه‌ای از اعداد تصادفی را روی صفحه نمایش می‌دهد و از شما می‌خواهد آن‌ها را با صدای بلند بخوانید. این مرحله ضمن نمونه‌برداری از صدای شما، نقش یک سدِ امنیتی را هم بازی می‌کند که در ادامه به آن می‌پردازیم.

پس از تکمیل این دو مرحله، آواتار شما به‌صورت امن به حساب کاربری‌تان متصل می‌شود و برای استفاده‌های بعدی ذخیره می‌ماند. از این پس دیگر نیازی به آپلود مجدد عکس یا فایل صوتی نخواهید داشت.

استفاده از آواتار در چت‌های جمنای

پس از آنکه آواتار شما آماده شد، استفاده از آن بسیار ساده است. کافی است در چت‌های جمنای از دستوراتی مانند @me یا نام کاربری خودتان استفاده کنید. با این کار، آواتارتان به ویدیویی که می‌سازید اضافه می‌شود.

برای مثال، می‌توانید متنی را به جمنای بدهید و از آن بخواهید ویدیویی بسازد که در آن آواتار شما همان متن را بیان می‌کند. نتیجه ویدیویی است که در آن نسخه‌ی دیجیتالی‌تان صحبت می‌کند، بدون آنکه هیچ ضبط واقعی‌ای صورت گرفته باشد. این جریان کاری، تولید محتوای ویدیویی را از یک فرآیند زمان‌بر به چند جمله دستور تبدیل می‌کند.

محدودیت‌ها و اقدامات امنیتی؛ مبارزه با دیپ‌فیک

شاید مهم‌ترین بخش این قابلیت، نه خودِ فناوری، بلکه نرده‌های محافظی باشد که گوگل دور آن کشیده است. ساخت نسخه‌ی دیجیتال از چهره و صدای انسان، ذاتاً با خطر سوءاستفاده و ساخت ویدیوهای جعلی یا همان دیپ‌فیک همراه است. گوگل برای کاهش این خطر چند لایه‌ی حفاظتی در نظر گرفته است.

نخست، محدودیت سنی؛ تنها افراد بالای ۱۸ سال اجازه‌ی استفاده از این قابلیت را دارند.

دوم، الزام به حضور فیزیکی. مالک حساب کاربری باید در لحظه‌ی ساخت آواتار شخصاً حاضر باشد. همان مرحله‌ی خواندنِ زنده‌ی اعداد تصادفی دقیقاً برای همین طراحی شده است؛ این کار تضمین می‌کند که شخص واقعی پشت دوربین حضور دارد و کسی نمی‌تواند صرفاً با یک عکس یا فایل صوتی از پیش ضبط‌شده، آواتاری از فرد دیگری بسازد. به این روش اصطلاحاً «اصطکاک ضد دیپ‌فیک» گفته می‌شود.

سوم و مهم‌تر از همه، گوگل عامدانه برخی از پرخطرترین قابلیت‌های مدل Omni را در این نسخه منتشر نکرده است. برای نمونه، ویرایش گفتار در ویدیوهای موجود یا تغییر صدای افراد در کلیپ‌های دیگران، فعلاً عرضه نشده و گوگل اعلام کرده که هنوز در حال آزمایش روش‌های مسئولانه برای ارائه‌ی این قابلیت‌هاست. این تصمیم نشان می‌دهد که شرکت آگاهانه میان قدرت فناوری و ریسک سوءاستفاده تعادل برقرار کرده است.

واترمارک SynthID؛ شناسنامه‌ی نامرئی محتوای هوش مصنوعی

یکی از هوشمندانه‌ترین تدابیر امنیتی گوگل، استفاده از واترمارک نامرئی SynthID است. تمام ویدیوهایی که با این سیستم تولید می‌شوند، به این واترمارک دیجیتال مجهز هستند.

SynthID که توسط بخش DeepMind گوگل توسعه یافته، یک سیگنال پنهان است که درون فایل ویدیو جاسازی می‌شود و حتی پس از ویرایش یا تغییر فرمت هم باقی می‌ماند. این یعنی هر ویدیویی که با آواتار جمنای ساخته شود، عملاً یک شناسنامه‌ی نامرئی همراه خود دارد که نشان می‌دهد محتوای آن با هوش مصنوعی تولید شده است.

این واترمارک از طریق ابزارهای گوگل مانند خود اپلیکیشن جمنای، جمنای در مرورگر کروم و جست‌وجوی گوگل قابل تشخیص است. در کنار SynthID، گزارش‌ها از به‌کارگیری برچسب‌های استاندارد دیگری مانند C2PA نیز برای افشای ماهیت هوش مصنوعیِ محتوا حکایت دارند. در دورانی که نگرانی‌ها درباره‌ی ویدیوهای جعلی به اوج رسیده، چنین ابزارهایی برای حفظ اعتماد عمومی اهمیت حیاتی پیدا کرده‌اند.

این قابلیت برای چه کسانی مفید است؟

با وجود تمام نگرانی‌ها، پتانسیل خلاقانه‌ی آواتار جمنای انکارناپذیر است. چند گروه می‌توانند بیشترین بهره را از آن ببرند.

سازندگان محتوا می‌توانند بدون نیاز به استودیو، نورپردازی و ساعت‌ها فیلم‌برداری، حجم تولید ویدیوی خود را به‌شدت افزایش دهند. صاحبان کسب‌وکار قادرند به‌سرعت ویدیوهای آموزشی، معرفی محصول یا پیام‌های داخلی سازمانی بسازند. آموزگاران و تولیدکنندگان محتوای آموزشی می‌توانند درس‌ها و توضیحات خود را به‌شکل ویدیویی و با حضور شخصی خودشان ارائه دهند، آن هم بدون صرف زمان زیاد. و البته علاقه‌مندان به فناوری هم فرصتی دارند تا با یکی از پیشرفته‌ترین فناوری‌های روز تولید محتوا تجربه‌گری کنند.

جمع‌بندی؛ آینده‌ی تولید محتوای ویدیویی از همین حالا آغاز شده است

آواتار هوش مصنوعی جمنای فقط یک قابلیت سرگرم‌کننده نیست؛ نشانه‌ای از جهتی است که کل صنعت تولید محتوا به سمت آن حرکت می‌کند. ترکیبِ مدل قدرتمند Omni، فرآیند ساده‌ی ساخت آواتار و دسترسی آسان از طریق چت، این فناوری را به ابزاری واقعاً کاربردی تبدیل کرده است.

در عین حال، رویکرد محتاطانه‌ی گوگل، از محدودیت سنی و الزام حضور فیزیکی گرفته تا واترمارک SynthID و خودداری از انتشار قابلیت‌های پرخطر، نشان می‌دهد که توسعه‌ی مسئولانه‌ی هوش مصنوعی دیگر یک انتخاب نیست، بلکه یک ضرورت است. اینکه این تعادل در عمل چقدر موفق خواهد بود، چیزی است که در ماه‌های آینده مشخص می‌شود.

اگر مشترک نسخه‌ی پولی جمنای هستید، همین حالا می‌توانید این قابلیت را امتحان کنید. به نظر شما آواتارهای هوش مصنوعی چه تأثیری بر آینده‌ی تولید محتوا خواهند گذاشت؟ دیدگاه خود را در بخش نظرات با ما در میان بگذارید.

ارسال دیدگاه

برای ارسال نظر باید وارد حساب کاربری شوید

هیچ دیدگاهی برای این مطلب ثبت نشده است.