در مقاله قبلی ، من درباره امکان یادگیری عمیق مبتنی بر بینایی رایانه با RNN ها و CNN ها بحث کردم.
عموماً مهندسان ML در یک مدل تخصص خواهند داشت معماری کنید و اجازه دهید دیگر صفحه نمایش کند.
هفته گذشته ، من پروژه نهایی دوره آشنایی با یادگیری عمیق از HSE (مدرسه عالی اقتصاد) را امتحان کرد. در این پروژه ، ما نحوه استفاده از خروجی یک شبکه عصبی کانولوشنال (CNN) را برای کارهای دیگری غیر از طبقه بندی یا رگرسیون تصویر یاد می گیریم. شبکه: یک شبکه عصبی مکرر (RNN). RNN نوعی شبکه عصبی است که می تواند با توالی هایی مانند متن ، صدا ، فیلم ، داده های مالی و موارد دیگر کار کند.
ترکیب CNN ها و RNN ها به ما کمک می کند تا در این مورد با تصاویر و دنباله های کلمات کار کنیم. به بنابراین ، هدف ایجاد زیرنویس برای یک تصویر معین است.
دید کامپیوتر (CV) امروزه یکی از کاربردهای اصلی هوش مصنوعی است (به عنوان مثال تشخیص تصویر ، ردیابی اشیاء ، طبقه بندی چند برچسب). در این مقاله ، برخی از مراحل اصلی تشکیل دهنده یک سیستم بینایی رایانه ای را برای شما شرح می دهم. تصاویر وارد سیستم می شوند.
اکنون ما به طور مختصر برخی از فرایندهای اصلی را که ممکن است داده های ما در هر یک از این سه مرحله مختلف طی کنند ، مرور می کنیم.
هنگام تلاش برای پیاده سازی یک سیستم CV ، ما باید دو جزء اصلی را در نظر بگیریم: سخت افزار کسب تصویر و نرم افزار پردازش تصویر. یکی از الزامات اصلی که باید برای استقرار سیستم CV رعایت شود ، آزمایش استحکام آن است. در واقع سیستم ما باید بتواند در تغییرات محیطی (مانند تغییرات روشنایی ، جهت گیری ، مقیاس بندی) تغییر ناپذیر باشد و بتواند وظیفه طراحی شده خود را به طور مکرر انجام دهد. به منظور برآوردن این الزامات ، ممکن است لازم باشد محدودیت هایی را برای سخت افزار یا نرم افزار سیستم خود اعمال کنیم (به عنوان مثال کنترل از راه دور محیط روشنایی).
هنگامی که تصویری از دستگاه سخت افزاری ، روشهای زیادی برای نمایش عددی رنگها (Color Spaces) در یک سیستم نرم افزاری وجود دارد. دو مورد از مشهورترین فضاهای رنگی RGB (قرمز ، سبز ، آبی) و HSV (رنگ ، اشباع ، ارزش) هستند. یکی از مزایای اصلی استفاده از فضای رنگی HSV این است که فقط با گرفتن اجزای HS می توانیم روشنایی سیستم خود را ثابت نگه داریم (شکل 1).
شکل 1: فضاهای رنگی RGB در مقابل HSV [1]هنگامی که تصویری وارد سیستم می شود و با استفاده از یک فضای رنگی نمایش داده می شود ، می توانیم عملگرهای مختلف را بر روی تصویر اعمال کنیم تا نمای آن بهبود یابد:
پس از پردازش یک تصویر ، می توانیم تکنیک های پیشرفته تری را برای استخراج با استفاده از روش هایی مانند تشخیص درجه اول لبه (به عنوان مثال اپراتور Prewitt ، اپراتور Sobel ، Canny Edge Detector) و Hough Transforms ، لبه ها و اشکال درون یک تصویر را مشاهده می کنید.
یکبار قبل -پردازش یک تصویر ، 4 نوع اصلی مورفولوژی ویژگی وجود دارد که می توان با استفاده از Feature Extractor از یک تصویر استخراج کرد: از استخراج کننده ویژگی یک مثال ساده از یک ویژگی جهانی می تواند یک هیستوگرام از مقادیر پیکسل های ذخیره شده باشد.
پس از استخراج مجموعه ای از ویژگیهای متمایز ، می توانیم از آنها برای آموزش مدل یادگیری ماشین برای نتیجه گیری توصیف کننده های ویژگی را می توان به راحتی در پایتون با استفاده از کتابخانه هایی مانند OpenCV اعمال کرد. BoVW) به منظور ایجاد یک مجموعه از کلمات بصری ،ما قبل از هر چیز باید با استخراج همه ویژگی ها از مجموعه ای از تصاویر (به عنوان مثال با استفاده از ویژگی های مبتنی بر شبکه یا ویژگی های محلی) یک واژگان ایجاد کنیم. پی در پی ، می توانیم تعداد دفعاتی که یک ویژگی استخراج شده در یک تصویر ظاهر می شود را شمارش کرده و از نتایج یک هیستوگرام فرکانس بسازیم. با استفاده از هیستوگرام فرکانس به عنوان یک الگوی اصلی ، می توان در نهایت دسته بندی کرد که آیا یک تصویر متعلق به یک کلاس است یا نه با مقایسه هیستوگرام آنها (شکل 3).
این فرایند را می توان در چند مرحله زیر خلاصه کرد:
تصاویر جدید را می توان با تکرار همین فرایند برای هر تصویری که می خواهیم طبقه بندی کنیم و سپس با استفاده از هر الگوریتم طبقه بندی طبقه بندی کنیم تا دریابیم کدام تصویر در واژگان ما بیشتر شبیه آزمایش ما است تصویر.
شکل 3: کیف واژه های بصری [2]امروزه به لطف ایجاد معماری شبکه های عصبی مصنوعی مانند Convolutional شبکه های عصبی (CNNs) و شبکه های عصبی مصنوعی مکرر (RCNNs) ، امکان ایجاد یک گردش کار جایگزین برای دید رایانه ای (شکل 4) وجود دارد.
شکل 4: گردش کار بینایی کامپیوتر [3]در این حالت ، الگوریتم یادگیری عمیق هر دو مرحله استخراج ویژگی و طبقه بندی رایانه را در بر می گیرد. گردش کار بینایی هنگام استفاده از شبکه های عصبی کانولوشن ، هر لایه از شبکه عصبی تکنیک های مختلف استخراج ویژگی را در توضیحات خود اعمال می کند (به عنوان مثال ، لایه 1 لبه ها را تشخیص می دهد ، لایه 2 شکل هایی را در یک تصویر پیدا می کند ، لایه 3 تصویر را تقسیم می کند ، و غیره ...) قبل از ارائه ویژگی بردارهای طبقه بندی لایه متراکم.
برنامه های کاربردی دیگر یادگیری ماشین در بینایی رایانه ای شامل مناطقی مانند طبقه بندی چند برچسب و تشخیص اشیا می شود. در طبقه بندی چند برچسب ، ما قصد داریم مدلی بسازیم که بتواند به درستی تعداد اجسام موجود در یک تصویر را مشخص کند و به چه طبقه ای تعلق دارد. در عوض ، در تشخیص اشیاء ، هدف ما این است که این مفهوم را با شناسایی موقعیت اشیاء مختلف در تصویر ، گامی فراتر ببریم. جدیدترین مقالات و پروژه ها مرا در Medium دنبال کنید و در لیست پستی من مشترک شوید. اینها برخی از اطلاعات تماس های من است:
[1] ربات مدولار که به عنوان پاک کننده ساحل استفاده می شود ، Felippe Roza. دروازه تحقیق. قابل دسترسی در: https://www.researchgate.net/figure/RGB-left-and-HSV-right-color-spaces_fig1_310474598
[2] مجموعه ای از کلمات بصری در گروه OpenCV ، Vision & Graphics. یان کوندراک. قابل دسترسی در: https://vgg.fiit.stuba.sk/2015-02/bag-of-visual-words-in-opencv/
[3] Deep Learning Vs. دید رایانه ای سنتی. Haritha Thilakarathne ، NaadiSpeaks. قابل دسترسی در: https://naadispeaks.wordpress.com/2018/08/12/deep-learning-vs-traditional-computer-vision/
N ،o، não aquela X-Force. O Moto X Force da Motorola ، اندروید جدید و برنامه ای که در برزیل ساخته شده است. Você já deve ter ouvido falar nesse aparelho com o nome de Droid Turbo 2. Mas Qual a novidade dele؟ Bom ، a tela é assustadoramente resistente. سریو در حال حاضر شما می توانید از موتورولا برای تلفن های هوشمند خود استفاده کنید و از ارتفاع 1.5 میلی متری استفاده کنید ، سپس به عنوان یک بتن پیش بینی کنید. Dá uma agonia só.
Tela ganha essa fama graças a um belo trabalho de engenharia da Motorola. Uma base rígida de alumínio que abriga várias camadas de painéis flexíveis na tela de 5.4 اینچ ، در حالی که از خارج از بدن به عنوان یک نایلون استفاده می شود. حافظه داخلی 21 مگاپیکسل ، حافظه داخلی 64 گیگابایت پشتیبانی از کارت حافظه MicroSD با ظرفیت 2 ترابایت (!!!) ، دو تراشه ، باتری 3760 میلی آمپر ساعت و 3 گیگابایت حافظه RAM.
Um aparelho de ponta، com o aditivo de ser resistente a quedas. E por quedas، entenda acidentes do cotidiano -ele não می توانم از تلفن های هوشمند خود استفاده کنیم و از آن استفاده کنیم. یک موتورولا می خواهد از طریق تلفن همراه خود از تلفن همراه استفاده کند و از آن استفاده کند.
tela deve ser um baita atrativo para os desastrados. O problema é o preço: a partir de R $ 3149. É um baita aparelho، mas a alta do dólar não o deixou com uma oferta agradável. Se você quiser encarar، não vai se arrepender do investimento - e quem sabe deve aparecer alguma oferta interessante در جمعه سیاه.
مهندس "به طور کامل" پس از اینکه بینایی چشم چپ چشم راستش را از دست داد و با افرادی که نابینایی او را از دست داده بود ، در مورد نابینایی در محیط اطراف خود کنجکاو شد. در حالی که پیامهای بریل در برخی ساختمانها وجود دارد ، سگهای چشمی ، عصاهای راه رفتن و حتی هشدارهای شنیدنی در معابر عابر پیاده وجود دارد ، او در فکر این بود که برای کمک به نابینایان چه چیزی می تواند بسازد ، و چیزی را که او عینکهای راداری می نامد ارائه کرد.
عینک های رادار دارای قاب های چاپ سه بعدی با لنز برد مدار برای نصب و بستن در سنسور فاصله VL53L1X و مینی موتور لرزش Adafruit. (