شرکت Stability AI که بیشتر بهخاطر ابزارهای تبدیل متن به تصویر مبتنی بر هوش مصنوعی شناخته میشود، از یک ابزار جدید به نام Stable Audio رونمایی کرده است که متن را به صدا یا آهنگ تبدیل میکند.
مدلهای دیفیوژن میتوانند کلیپهای صوتی با مدت زمان مشخص بسازند که چنین عملکردی مناسب ساخت موسیقی نیست؛ چرا که آهنگها از نظر زمانی ثابت نیستند. بااینحال ابزار جدید Stability AI میتواند کلیپهای صوتی با مدت زمانهای مختلف بسازد. این کمپانی برای دستیابی به این هدف، مدل خود را با موسیقی آموزش داده و همچنین به آن متادیتای متن برای زمان شروع و پایان آهنگ اضافه کرده است.
هوش مصنوعی Stable Audio میتواند فایل صوتی با مدت زمانهای متفاوت بسازد
در گذشته ابزارهای مشابه با کلیپهای صوتی 30 ثانیهای آموزش میدیدند و تنها میتوانستند فایلهای 30 ثانیهای از بخشهای دلخواه آهنگ بسازند. اما ابزار هوش مصنوعی جدید Stability AI به شما اجازه میدهد که کنترل بیشتری روی مدت زمان آهنگ داشته باشید.
این شرکت در بیانیهاش گفته است که به آموزش این مدل ادامه میدهد تا کیفیت خروجیاش بهبود یابد:
«Stable Audio نشاندهنده تحقیقات پیشرفته تولید صدا توسط آزمایشگاه تحقیقات صوتی مولد Stability AI به نام Harmonai است. ما به بهبود معماری مدل، مجموعه دادهها و روشهای آموزشی خود برای بهبود کیفیت خروجی، کنترلپذیری، سرعت ارائه خروجی و مدت زمان خروجی ادامه میدهیم.»
به گفته Stability AI، مدل هوش مصنوعی Stable Audio با مجموعه دادهای شامل بیش از 800 هزار فایل صوتی آهنگ، افکتهای صوتی و آلات موسیقی آموزش داده شده است. علاوهبراین، از متادیتا متن شرکت AudioSparx استفاده شده است. درمجموع با بیش از 19,500 ساعت صدا مدل جدید Stability AI آموزش داده شده است.
این مدل هوش مصنوعی در سه نسخه در اختیار کاربران قرار میگیرد:
- نسخه رایگان با امکان ساخت 20 کلیپ صوتی حداکثر 45 ثانیهای در ماه
- نسخه حرفهای برای ساخت 500 کلیپ صوتی حداکثر 90 ثانیهای با قیمت 11.99 دلار
- نسخه سازمانی
در نسخه رایگان امکان استفاده تجاری از آهنگهای ساختهشده وجود ندارد.