محققان شرکت بایتدنس، مالک تیکتاک، سیستم هوش مصنوعی جدیدی به نام OmniHuman-1 معرفی کردهاند که میتواند ویدیوهای دیپفیک باورپذیری تولید کند.
براساس اعلام محققان بایتدنس، OmniHuman-1 سیستم تولید ویدیوی چندوجهی محسوب میشود که روی ساخت ویدیو از انسان متمرکز است و میتواند حتی صدا نیز تولید کند. این سیستم از ورودیهای تصویری نیز پشتیبانی میکند و محققان میگویند هیچ محدودیتی در اندازه تصویر وجود ندارد؛ برای مثال میتوانید فقط عکس چهره کسی را به هوش مصنوعی بدهید تا از او ویدیو بسازد. همچنین این مدل به نمونه صدا برای قراردادن روی تصویر نیاز دارد.
تولید دیپفیک با هوش مصنوعی OmniHuman-1
دیپفیکهای هوش مصنوعی معمولاً نقص دارند و اگر با دقت به آنها نگاه کنید، متوجه میشوید ویدیو واقعی نیست اما به نظر میرسد OmniHuman-1 میتواند دیپفیکهای باورپذیری تولید کند و شاید شناسایی واقعی یا جعلی بودن آن کمی دشوار باشد؛ برای مثال سخنرانی TED پایین کاملاً دیپفیک است:
OmniHuman-1 روی ۱۹ هزار ساعت محتوای ویدیویی از منابع نامشخص آموزش دیده است و میتواند ویدیوهای موجود را نیز ویرایش کند؛ برای مثال میتوانید با آن حرکات اعضای بدن را تغییر دهید و خروجی کار نیز قانعکننده باشد.
در ویدیوی پایین، میبینید چگونه عکس «آلبرت اینشتین»، فیزیکدان مشهور، به ویدیویی طبیعی تبدیل شده است:
البته OmniHuman-1 بینقص نیز نیست. محققان بایتدنس میگویند هوش مصنوعی آنها از تصاویر مرجع «با کیفیت پایین» نمیتواند ویدیوهای خوبی بسازد اما OmniHuman-1 میتواند یکی از قویترین هوش مصنوعیها برای ساخت دیپفیک باشد. البته بایتدنس هنوز این هوش مصنوعی را منتشر نکرده است و مشخص نیست نسخه نهایی آن چگونه در دسترس قرار میگیرد یا چه بهبودهایی خواهد داشت.