در مقاله قبلی ، من درباره امکان یادگیری عمیق مبتنی بر بینایی رایانه با RNN ها و CNN ها بحث کردم.
عموماً مهندسان ML در یک مدل تخصص خواهند داشت معماری کنید و اجازه دهید دیگر صفحه نمایش کند.
هفته گذشته ، من پروژه نهایی دوره آشنایی با یادگیری عمیق از HSE (مدرسه عالی اقتصاد) را امتحان کرد. در این پروژه ، ما نحوه استفاده از خروجی یک شبکه عصبی کانولوشنال (CNN) را برای کارهای دیگری غیر از طبقه بندی یا رگرسیون تصویر یاد می گیریم. شبکه: یک شبکه عصبی مکرر (RNN). RNN نوعی شبکه عصبی است که می تواند با توالی هایی مانند متن ، صدا ، فیلم ، داده های مالی و موارد دیگر کار کند.
ترکیب CNN ها و RNN ها به ما کمک می کند تا در این مورد با تصاویر و دنباله های کلمات کار کنیم. به بنابراین ، هدف ایجاد زیرنویس برای یک تصویر معین است.