تصور کنید که میتوانستید یک ویدیوی خیرهکننده را تنها با یک پیام متنی مثل “مردی در حال راه رفتن روی ماه به همراه یک سگ” تولید کنید. به نظر غیرممکن میآید، مگر نه؟ نه. به لطف ابزار AI جدید OpenAI یعنی هوش مصنوعی سورا، شما میتوانید ویدیوهای حیرتانگیزی را تنها با دستورات متنی تولید کنید.
سورا یک مدل AI است که میتواند ویدیوهایی با مدت حداکثر یک دقیقه را تولید کند. این ویدیوها شامل صحنههایی با جزئیات زیاد، حرکات دوربین پیچیده و شخصیتهای متعدد و احساسات قابل باور میشوند. سورا همچنین میتواند براساس یک تصویر ثابت یک ویدیو خلق کند یا یک ویدیوی واقعی را با استفاده از متریال جدید طولانیتر سازد.
شرکت OpenAI، خالق Dall-E و ChatGPT، سازنده این سرویس جدید هستند که به زودی در دسترس عموم قرار خواهد گرفت. این هوش مصنوعی جدید تقریبا بدون خبر قبلی و خیلی ناگهانی معرفی شده است. اگر پیش از سورا به ویدیوهای تولید شده توسط AI برخورده باشید، احتمالا متوجه کیفیت بسیار بد آنها شدهاید.
پس با این اوصاف OpenAI چگونه توانسته بار دیگر انقلابی را در صنعت نرمافزار هوش مصنوعی به پا کند؟ آیا اکنون میتوانید از این ابزار استفاده کنید؟ ظهور هوش مصنوعی Sora چه معنایی برای آینده صنعت فیلمسازی و تولید محتوا خواهد داشت؟ در ادامه به تمام این پرسشها پاسخ خواهیم داد. پس با آی تی هوم همراه باشید.

هوش مصنوعی Sora چیست؟
Sora یک ابزار AI است که توانایی تولید ویدیوها با مدت زمان حداکثر یک دقیقه را دارد. تنها کافی است تا یک متن در توصیف ویدیوی دلخواه خود بنویسید. برای مثال به سورا دستور تولید ویدیویی از “دستهای از گربهها در حال پرستیدن یک سگ بزرگ” را بدهید و روی کاغذ Sora به شما چنین ویدیویی را تحویل خواهد داد.
اگر دائما در فضای مجازی یا انجمنهای مربوط به فناوری اطلاعات نبوده باشید، ممکن است از خیزش ناگهانی و محبوبیت هوش مصنوعی سورا جا مانده باشید. Sora تبلیغات زیاد یا رونمایی بزرگی نداشت و تقریبا به طور کاملا ناگهانی از سوی OpenAI معرفی شد.
OpenAI ویدیوهای زیادی که همه توسط سورا تولید شدهاند را به اشتراک گذاشته است. در این ویدیوها ما میتوانیم توانایی بالای Sora در تولید محتوای باورپذیر را ببینیم. این ویدیوها میتوانند حرکت اشیا و افراد در آینه، حرکت روان مایعات و حتی بارش ذرات برف را نشان دهند. در ادامه میتوانید ویدیوی رونمایی از سورا و نمونههایی از ویدیوهای تولیدشده توسط این ابزار AI را مشاهده کنید:
هوش مصنوعی سورا چگونه کار میکند؟
به طور کلی باید گفت که سورا اساسا مثل تمام ابزار AI مولد تصویر قبلی عمل میکند. اما خب این هوش مصنوعی قدمهای بسیار بیشتری را برای تولید یک ویدیو طی میکند. ابزار مولد تصویر AI از متدی به نام مدلهای انتشاری (Diffusion Models) استفاده میکنند.
این پروسه کمی پیچیده میشود، اما اساسا روش مدلهای انتشاری با دریافت یک ویدیو تبدیل شده به تصویر برفکی آغاز میشود. سپس هوش مصنوعی یاد میگیرد تا برفک تصویر را حذف یا اصطلاحا Reverse کرده و به شما تصویری شفاف و واضح (یا در سورا یک ویدیو) را تحویل دهد.
برای آموزش هوش مصنوعیای مثل Sora، به آن ویدیوهایی داده میشود و همراه آن متنی که اتفاقات موجود در ویدیو را توصیف میکند. این پروسه سه Sora اجازه میدهد تا بین تصویر و اتفاقی که در آن رخ میدهد ارتباطی ایجاد کند. در نهایت ادامه این پروسه منجر به این خواهد شد که دستورات متنی شما تبدیل به ویدیوی نهایی شوند. البته تولید یک ویدیو در مقایسه با تصاویر ثابتی که در سال گذشته دیدیم بسیار دشوارتر است.

برای تولید یک ویدیو، هوش مصنوعی باید در مورد مدلهای سهبعدی، حرکات، بازتاب، سایهها و یک فهرست طولانی از ویژگیهای بسیار پیچیده آموزش دیده شود. OpenAI به عنوان بخشی از تعهد خود به شفافسازی کامل، در وبسایت خود به طور کامل در مورد نحوه عملکرد هوش مصنوعی Sora صحبت کرده است. اما هیچ اطلاعاتی در رابطه با ویدیوهای استفاده شده برای آموزش به این AI در دسترس نیست.
چگونه از سورا استفاده کنیم؟
در حال حاضر دسترسی عموم به سورا ممکن نیست. همانند گذشته، OpenAI در ارائه ابزار خود با احتیاط عمل میکند. در قدمهای اول، گروهی از افراد موسوم به Red Teamers این ابزار را برای خطرات احتمالی آزمایش میکنند. پس از آن سورا در اختیار دسته کوچکی از هنرمندان بصری، فیلمسازان و طراحان قرار خواهد گرفت. احتمالا پس از آن شاهد دسترسی تمام افراد به سورا خواهیم بود. اما از آن جایی که با ابزار بسیار پیشرفتهای طرف هستیم، انتظار میرود که برای استفاده از آن مجبور به پرداخت حق اشتراک شوید.
جمعبندی؛ بهترین هوش مصنوعی تولید ویدیو؟
با توجه به ویدیوهایی که تاکنون منتشر شده، میتوان گفت که “هوش مصنوعی Sora” کیلومترها از هر ابزار هوش مصنوعی تولید ویدیویی جلوتر است. همین یکسال پیش بود که ما اولین نمونههای تولید ویدیو توسط هوش مصنوعی را دیدیم و آن ویدیوها در بهترین حالت خندهدار بودند. در آن زمان یک ویدیو به نام Pepporoni Hug Spot، یک تبلیغ تلویزیونی تولید شده توسط هوش مصنوعی، در حال دست به دست شدن بود. این ویدیو که در ادامه میتوانید آن را مشاهده کنید بیشتر مثل یک کابوس سورئال است تا یک ویدیوی قابل قبول از هوش مصنوعی:
این ویدیو را با ویدیوهای تولید شده توسط Sora مقایسه کنید و خواهید فهمید که تفاوت آنها زمین تا آسمان است. سورا در حال تولید ویدیوهایی با نورپردازی دقیق، بازتابها و رفتارهای طبیعی توسط انسانها است. این ابزار AI حتی مشکلات دشواری مثل ورود و خروج انسانها از کادر را هم حل کرده است.
با این وجود Sora به هیچ عنوان بینقص نیست. کمی بادقتتر به ویدیوهای تولید شده توسط این هوش مصنوعی توجه کنید و متوجه ایرادات آنها خواهید شد. اعضای بدن محو و پیدا میشوند، افراد به طور ناگهانی و از ناکجا ظاهر میشوند و پاها به درون زمین فرو میروند.
همچنین نباید فراموش کرد که در حال حاضر ما تنها به ویدیوهای منتخب OpenAI دسترسی داریم. با دسترسی عموم به این ابزار، سروکله ویدیوهای ناقصتری پیدا خواهد شد. تنها زمان به طور دقیق تواناییها و نقاط ضعف این ابزار هوش مصنوعی را نشان خواهد داد. اما شاید همین حالا هم بتوان با اطمینان کامل گفت که سورا بهترین هوش مصنوعی تولید ویدیوی موجود در جهان است.