تشخیص سریع شیء در فیلم ها با استفاده از بسته بندی های مورد علاقه منطقه

محققان مرکز تحقیقات داده ها و هوش مصنوعی رابرت بوش و مرکز تحقیقات مغزی محاسباتی ، موسسه فناوری هند مادرا و دانشگاه پوردو اخیراً روشی جدید برای کاهش اامات محاسباتی برای تشخیص اشیاء در فیلم ها با استفاده از شبکه های عصبی تهیه کرده اند. تکنیک آنها با نام Pack and Detect (PaD) در مقاله ای که از قبل روی arXiv منتشر شده است ، تشریح شده است.

تشخیص شی از جنبه های کلیدی بسیاری از است بینایی کامپیوتر برنامه های کاربردی، مانند ردیابی شی، ویدئو خلاصه، و جستجو ویدئو. در حالی که پیشرفت های اخیر در یادگیری ماشین منجر به توسعه ابزارهایی بطور فزاینده ای برای انجام این کار شده است ، روش های موجود هنوز هم از نظر محاسباتی بسیار فشرده هستند. به عنوان مثال ، پردازش یک فیلم با وضوح 300 300 300 با استفاده از شبکه تشخیص شی SSD300 ، با VGG16 به عنوان ستون فقرات و در 30 فریم در ثانیه نیاز به 1.87 تریلیون عملیات نقطه شناور در ثانیه (FLOPS) دارد.

محققان مشاهده کردند که در برخی موارد ، اکثر مناطق در یک قاب ویدیویی صرفاً پس زمینه هستند ، با اشیاء برجسته فقط بخش کوچکی از منطقه را در این قاب اشغال می کنند. علاوه بر این ، آنها دریافتند که بین فریم های متوالی یک رابطه زمانی قوی وجود دارد. آنها این مشاهدات را به حداقل رسانده و تکنیک جدیدی را برای کشف اشیاء در فیلمهایی ارائه می دهند که می تواند نیازهای محاسباتی را برای کارهای شناسایی شی کاهش دهد.

Athindran Ramesh Kumar ، یکی از محققانی که این تحقیق را انجام داده است ، گفت: "ما از مکانیسم foveal در هر دو سیستم بینایی بیولوژیکی و مصنوعی الهام گرفته ایم." "تلاش های قبلی مربوط به مکانیسم های توجه foveal در سیستم های بینایی مصنوعی فقط بر روی یک منطقه در تصویر یا یک شیء به طور همزمان متمرکز شده است. ""

از این رو روش کشف شیء که توسط محققان طراحی شده است از سیستم های بینایی بیولوژیکی الهام گرفته شده است. اما بر خلاف تلاش های قبلی ، سیستم آنها به جای پردازش متوالی ، تمام مناطق مورد علاقه را در یک قاب واحد بسته بندی می کند.

Balaraman Ravindran ، محقق دیگری که تحقیق را انجام داده است ، گفت: هدف ما این بود که با تمرکز فقط روی نواحی برجسته در قاب و از بین بردن درهم ریختگی پس زمینه ، سرعت کشف اشیاء در فیلم ها را افزایش دهیم. "برای از بین بردن درهم و برهمی پس زمینه ، ما از ارتباط همبستگی بین قابهای مجاور در یک فیلم بهره برداری کردیم. این خاصیتی است که تکنیک های فشرده سازی ویدیو برای کاهش نیازهای ذخیره سازی و پهنای باند استفاده می کنند ؛ ما از آن برای سرعت بخشیدن به محاسبه استفاده می کنیم."

PaD ، روش تشخیص شیء ارائه شده توسط راوینران و همکارانش با پردازش فریم در فواصل منظم در اندازه کامل کار می کند. از این قاب ها به "قاب های لنگر" یاد می شود. از طرف دیگر ، ابزار در سایر فریمها مناطق مورد علاقه خود را بر اساس موقعیت مکانی که اشیاء در قاب قبلی در آن قرار داشتند ، شناسایی می کند.

آناند راغوناتان ، یکی از محققانی که این تحقیق را انجام داده ، به TechXplore گفت: "این مناطق دیدنی مانند یک کولاژ مرتب شده اند ، که از آن به عنوان ورودی برای ردیاب شی استفاده می شود. وی افزود: "این شناسایی ها به عکس در مکان های اصلی برمی گردند. این روش سریعتر است زیرا تصاویر کولاژ از اندازه کامل نسبت به فریم های کامل استفاده می کنند. ما از قابلیت انعطاف پذیری اشیاء محبوب مانند SSD300 برای پردازش تصاویر در هر اندازه کامل استفاده می کنیم. و اندازه های کوچکتر

محققان روش خود را در مجموعه داده ImageNet VID مورد ارزیابی قرار دادند و دریافتند که زمان آن 1.25 برابر است ، با دقت کمتر از 1.6 درصد کاهش یافته است. علاوه بر این ، آنها مشاهده كردند كه زمان لازم برای پردازش فریمهای با اندازه كم تقریباً سه برابر كمتر بود و تعداد FLOP چهار برابر كاهش می یابد.

علاوه بر این ، مطالعه آنها دو جنبه مهم را برجسته کرده است که می تواند از پیشرفت روشهای سریعتر و کم فشار تر برای تشخیص اشیاء در فیلم ها آگاه شود. اول ، اشیاء مورد علاقه فقط بخش کوچکی از پیکسل ها را در یک قاب اشغال می کنند. دوم ، بین یک فریم مجاور در یک فیلم ارتباط وجود دارد.

Athindran گفت: "کار ما با کاهش نیازهای محاسباتی می تواند به تجزیه و تحلیل های ویدیویی در دستگاههای دارای محدودیت در منابع در حاشیه اینترنت اشیاء کمک کند یا ممکن است تعداد جریانهای ویدیویی را که ممکن است توسط یک سرور در ابر پردازش شود ، بهبود بخشد."

مطالعه انجام شده توسط این تیم از محققان ، گامی اولیه در جهت توسعه ابزارهای مؤثرتر در کشف شیء است. آنها اکنون در حال برنامه ریزی برای تحقیقات بیشتر هستند که می توانند روش خود را بیشتر بهبود بخشند.

به عنوان مثال ، در حال حاضر ، PaD فریم های لنگر را در فواصل منظم انتخاب می کند ، اما محققان می توانند مکانیزمی را بسازند که بطور دینامیکی این فریم های کلیدی را شناسایی کند . آنها همچنین قصد دارند تکنیک خود را در سخت افزارهای محدودتر منبع مانند تلفن های هوشمند ، دستگاه های پوشیدنی و لوازم خانگی هوشمند آزمایش کنند.

راوندندران گفت: "ما یک الگوریتم برای استنباط مناطق مورد علاقه و شکل دادن به تصویر کولاژ دست ساز ساختیم." "اما یک سیستم کاملاً عصبی دارای شبکه های عصبی است که بر اساس قاب قبلی تصویر کولاژ تولید می کند. این یک خط بلندپروازانه تر از کارهای آینده است."

http://bookmark-dofollow.com/story6999247/قیمت-اکچویتور

ایجاد "مجسمه های حرکتی" چاپی 3 بعدی از فیلمهای دو بعدی

تشخیص سریع شیء در فیلم ها با استفاده از بسته بندی های مورد علاقه منطقه

چه چیزی باعث می شود یک بازی ویدیویی آموزشی به خوبی کار کند؟

، ,های ,یک ,اشیاء ,قاب ,ها ,را در ,شده است ,مورد علاقه ,می کند ,استفاده می ,برای تشخیص اشیاء

مشخصات

جهت مشاهده منبع اصلی و ادامه این مطلب این مطلب کلیک کنید
کلمات کلیدی منبع :
در صورتی که این صفحه دارای محتوای مجرمانه است یا درخواست حذف آن را دارید لطفا گزارش دهید.

تشخیص سریع شیء در فیلم ها با استفاده از بسته بندی های مورد علاقه منطقه

مشخصات

آخرین مطالب این وبلاگ

آخرین ارسال ها

آخرین وبلاگ ها

آخرین جستجو ها

درباره این سایت