curse of dimensionality (مشکلاتی که هنگام کار با داده های با ابعاد بالا ایجاد می شود) یک مشکل رایج هنگام کار بر روی یادگیری ماشین یا پروژه های یادگیری عمیق است. Curse of Dimensionality مشکلات زیادی را در حین آموزش یک مدل ایجاد می کند زیرا نیاز به آموزش پارامترهای زیادی روی یک مجموعه داده کمیاب دارد که منجر به مسائلی مانند اضافه کردن، زمان های زیاد آموزش و تعمیم ضعیف می شود. PCA و رمزگذارهای خودکار برای مقابله با این مشکلات استفاده می شوند. PCA یک تکنیک بدون نظارت است که در آن دادههای واقعی در جهت واریانس بالا پیشبینی میشوند در حالی که رمزگذارهای خودکار شبکههای عصبی هستند که برای فشردهسازی دادهها در فضای پنهان با ابعاد کم استفاده میشوند و سپس سعی میکنند دادههای با ابعاد بالا واقعی را بازسازی کنند.
PCA و رمزگذارهای خودکار تنها زمانی مؤثر هستند که ویژگی ها با یکدیگر ارتباط داشته باشند. یک قانون کلی بین انتخاب PCA و Autoencoder اندازه داده ها است. رمزگذارهای خودکار برای مجموعه داده های بزرگتر و PCA برای مجموعه داده های کوچکتر به خوبی کار می کند. رمزگذارهای خودکار معمولاً زمانی ترجیح داده میشوند که نیاز به مدلسازی غیرخطیها و روابط نسبتاً پیچیده باشد. رمزگذارهای خودکار می توانند اطلاعات زیادی را با ابعاد کمتر، زمانی که انحنای در ساختار با ابعاد کوچک یا غیرخطی وجود دارد رمزگذاری کنند و در چنین سناریوهایی انتخاب بهتری نسبت به PCA داشته باشند.
رمزگذارهای خودکار معمولاً برای شناسایی ناهنجاری های داده ها به جای کاهش داده ها ترجیح داده می شوند. نقاط داده غیرعادی را می توان با استفاده از خطای بازسازی شناسایی کرد، PCA برای بازسازی داده ها خوب نیست، به ویژه زمانی که روابط غیر خطی وجود دارد.