مدل جدید جنجالی شرکت OpenAI ، رقیب یا چوب جادوی سینماگران؟
محصول جدید OpenAI اینبار سینما را نشانه رفته و امید دارد که بر این حوزه مسلط شود.
به گزارش اکونگار به نقل از کارنگ؛ خیلی وقت است که میدانیم چتباتهای OpenAI میتوانند آزمون وکالت را با موفقیت پشت سر بگذارند؛ حتی بدون اینکه به دانشکده حقوق رفته باشند. اما اکنون درست در بحبوحه اسکار، خبر شگفتآورتری از محصول دیگر OpenAI رسیده است.
محصول جدید OpenAI اینبار سینما را نشانه رفته و امید دارد که بر این حوزه مسلط شود. سورا، در حال حاضر در مراحل تحقیقات محصول قرار دارد و توسط فیلمسازان منتخب و کارشناسان امنیتی برای آسیبپذیریهای ایمنی آزمایش میشود. OpenAI قصد دارد در آینده دسترسی این محصول را به همه فیلمسازان مشتاق بدهد، اما قبل از آن ترجیح داده از این محصول رونمایی مختصری داشته باشد.
شرکتهای دیگر، از غولهایی مانند گوگل گرفته تا استارتاپهایی چون ران اوی قبلاً از پروژههایی که مبتنی بر هوش مصنوعی هستند و متن را به ویدئو تبدیل میکنند، رونمایی کرده بودند. اما OpenAI میگوید که سورا با فوتورئالیسم خیرهکنندهاش و تواناییاش در تولید کلیپهای طولانیتر (تا یک دقیقه) از سایر رقبا متمایز میشود. کسانی که با سورا کار کردهاند میگویند خروجی گرفتن از این برنامه کمتر از چند ساعت زمان میبرد و نمونههای خروجی نشان میدهد که واقعاً ارزش این زمان را دارند.
البته نمونههایی که OpenAI منتشر کرده هیچکدام به یک دقیقه نمیرسند و طولانیترین آنها ۱۷ ثانیه است. اولین نمونه شبیه چیدمانی دقیق از متن یک فیلمنامهنویس وسواسی بود: «در شهر شلوغ توکیو که پوشیده از برف است، دوربین در خیابانهای پر جنبوجوش حرکت میکند و چند نفر را که در حال لذت بردن از هوای برفی زیبا و عبور از کنار ویترین مغازهها هستند، دنبال میکند. گلبرگهای زیبای ساکورا در باد و در میان دانههای برف میرقصند.»
نتیجه برای مخاطب قانعکننده است. چیزی که در ویدئو میبینید بیشک توکیو است که در دانههای برف و شکوفههای گیلاس به تصویر کشیده شده است. دوربین مجازی که گویی به یک پهپاد چسبانده شده، زوجی را که به آرامی در یک خیابان قدم میزنند، دنبال میکند. یکی از رهگذران نقاب زده است. ماشینها در امتداد جاده کنار رودخانه که در سمت چپ تصویر قرار دارد، در حرکت هستند. مردم نیز از کنار مغازههای کوچک سمت راست تصویر، در رفتوآمدند.
فقط زمانی که چند بار این کلیپ را نگاه کنید متوجه میشوید که بینقص نیست. شخصیتهای اصلی این ویدئو (زوجی که در پیادهرو پوشیده از برف قدم میزنند)، اگر جلوتر میرفتند و دوربین همچنان آنها را دنبال میکرد به بنبست میرسیدند. آنها باید از روی یک نرده محافظ کوچک به یک راهروی موازی در سمت راست خود میرفتند. با وجود این نقص کوچک، نمونه توکیو تمرینی شگفتانگیز در خلق جهان است. اما در ادامه این راه طراحان تولید صنعت فیلم از خود خواهند پرسید که این محصول نقش یک همکار را ایفا خواهد کرد یا یک قاتل شغل؟ نکته دیگر در مورد ویدئو مذکور این است که شخصیتهای آن که کاملاً توسط یک شبکه عصبی دیجیتال تولید شدهاند از نمای نزدیک نشان داده نمیشوند و احساسی منعکس نمیکنند. اما تیم سورا میگوید که در نمونههای دیگر، شخصیتهای ساختگی از خود احساسات واقعی نشان میدهند.
کلیپهای دیگر نیز چشمگیر هستند. یکی از آنها بر اساس این درخواست «یک سکانس متحرک از یک هیولای کرکی کوچک که مقابل یک شمع نشسته و زانو زده و چشمانش بزرگ و دهانش باز است» و دستورالعملهایی در مورد حال و هوای مورد نظر در کلیپ ساخته شده است. در نتیجه این درخواست سورا موجودی شبیه به شخصیتهای پشمالو پیکسار را تولید میکند که به نظر میرسد ویژگیهایی از شخصیتهای معروف انیمیشنهای این کمپانی فوربی، گرملین و سالی از کارخانه هیولاها دارد. وقتی کارخانه هیولاها اکران شد، پیکسار اذعان کرد که ساخت بافت خزآلود و پشمالو هیولا در حین حرکت چقدر ساخت بوده است. خبرگان پیکسار ماهها طول کشید تا آن را طراحی کنند. اما محصول جدید OpenAI در لحظه این کار را انجام میدهد.
تیم بروکس، دانشمند محقق در این پروژه، درباره سورا گفت: «این دستاورد هندسه و ساختار سهبعدی را درک میکند. ما آن را برنامهریزی نکردیم؛ سورا محصول دادههای بسیار است.»
با اینکه تمام نمونهها چشمگیر هستند؛ اما شگفتانگیزترین قابلیتهای سورا آنهایی هستند که در موردشان آموزش ندیده است. سورا به مولد تصویر Dalle-3 شرکت OpenAI و همچنین موتور مبتنی بر ترانسفورماتور GPT-4 مجهز است و ویدئوهایی که تولید میکند صرفاً در جهت برآورده ساختن درخواستها نیست. بلکه ویدئو را به شیوهای میسازد که نشاندهنده درک نوظهورش را از گرامر سینمایی است. این قابلیت نشان از استعداد این محصول در داستان سرایی است.
ویدئوی دیگری بر اساس درخواست «دنیای کاغذی بسیار زیبا از صخرههای مرجانی، مملو از ماهیهای رنگارنگ و موجودات دریایی» ایجاد شده است. بیل پیبلز، یکی دیگر از محققین این پروژه، خاطرنشان کرد که زوایای دوربین و زمانبندی نشاندهنده ایجاد یک روایت توسط سورا است. او گفت: «در این ویدئو چند بار تصویر تغییر میکند. تصاویر به هم متصل نمیشوند؛ بلکه بر اساس یک مدل به نمایش داده میشوند. ما به آن نگفتیم که این کار را انجام دهد، سورا به طور خودکار این کار را انجام داد.»
در نمونه دیگری از سورا خواسته شد تا از یک باغ وحش بازدید کند. پیبلز در این مورد گفت: «در این ویدئو ابتدا یک تابلو بزرگ که روی آن نوشته شده بود باغ وحش نمایش داده شد. سپس دوربین به سمت پایین حرکت کرد و تعدادی تصویر از حیوانات باغ وحش نشان داد. شیوه نمایش تصاویر به سبک سینمایی بود و دستور این کار صراحتاً به سورا داده نشده بود.»
یکی از ویژگیهای سورا که تیم OpenAI از آن سخن نگفته و ممکن است برای مدتی طولانی از آن رونمایی نشود، توانایی سورا در تولید ویدئو از یک تصویر یا یک توالی فریم است. بروکس در مورد این قابلیت گفت: «این یک راه واقعاً جالب برای بهبود قابلیتهای داستانگویی خواهد بود. شما میتوانید دقیقاً همان چیزی را که در ذهن خود دارید ترسیم کنید و به آن جان ببخشید.» OpenAI آگاه است که این ویژگی پتانسیل ایجاد دیپفیک و اطلاعات نادرست را دارد. پیبلز افزود: «ما در مورد تمام پیامدهای ایمنی این امر بسیار مراقب خواهیم بود.»
البته سورا مانند Dall-E 3 محدودیهایی دارد و فیلمهای خشن و مستهجن تولید نمیکند. هم چنین از افراد واقعی نیز در کارهایش استفاده نمیکند. OpenAI مانند Dall-E 3، از طریقی به مخاطبانش میفهماند که این ویدئو توسط هوش مصنوعی تولید شده است. با این حال، OpenAI میگوید که ایمنی و صحت محتوا همیشه یک مشکل باقی میماند و فراتر از کنترل یک شرکت است. آدیتیا رامش، محقق اصلی و سرپرست تیم Dall-E، گفت: «این اشتباهات اطلاعاتی ما را ملزم به اجرای سطحی از اقدامات کاهشی میکنند، برای تشخیص و درک این اطلاعات غلط مستلزم درک اجتماعی و تعدیل شبکههای اجتماعی است.»
مسئله دیگر در مورد سورا بحث نقض حقوق کپی رایت است. پیبلز در این مورد توضیح داد: «دادههای آموزشی شامل محتوایی است که برای آن مجوز داریم و این محتوا در دسترس عموم هم قرار دارد.» با این حال از نقدهایی در همین مورد نیز به OpenAI وارد شده که آیا استفاده از محتوای دارای حق چاپ و «در دسترس عموم» برای آموزش هوش مصنوعی مجاز است یا خیر.
باید در نظر داشت تا وقتی که هوش مصنوعی تبدیلکننده متن به ویدئو فیلمسازی واقعی را تهدید کند، زمان بسیار زیادی خواهد برد. نمیتوان با اتصال ویدئوهای کوتاه سورا یک فیلم ۱۲۰ دقیقهای منسجمی ساخت؛ زیرا پاسخ سورا به درخواستها خیلی دقیق نیست. البته محدودیت زمانی مانعی برای سورا محسوب نمیشود. پیبلز بیان کرد: «ساختن یک فیلم حرفهای، به تجهیزات بسیار گران قیمتی نیاز دارد. سورا به افراد معمولی را که برای رسانههای اجتماعی ویدئو تولید میکنند، قادر میسازد تا محتوای بسیار باکیفیتی تولید کنند.»
در حال حاضر، OpenAI با چالش مهمی دستوپنجه نرم میکند. این شرکت باید مطمئن شود که سورا به فاجعه اطلاعاتی تبدیل نشود. بعد از این مرحله شمارش معکوس برای ظهور کریستوفر نولان و سلین سانگهای بعدی آغاز میشود که این بار برای ارائه یک مدل هوش مصنوعی تندیس و جایزه دریافت میکنند.