اگر یک مدل روی دادههای آموزش، اعتبارسنجی و آزمون عملکرد خوبی داشته باشد، اما وقتی در محیط واقعی مستقر شده و بکار گرفته میشود دقت آن ۵٪ کاهش پیدا کند، میتواند چند مشکل بالقوه وجود داشته باشد:
1. تغییر توزیع دادهها: دادههای محیط واقعی ممکن است با دادههای آموزشی/اعتبارسنجی متفاوت باشند. این تغییر توزیع باعث میشود مدل با مثالهای جدیدی روبرو شود که قبلا ندیده است و باعث افت عملکرد میشود.
2. بیشبرازش: مدل ممکن است بیش از حد به دادههای آموزشی/اعتبارسنجی برازش پیدا کرده باشد. بنابراین روی آنها عملکرد خوبی دارد اما تعمیمپذیری آن به دادههای جدید کمتر است.
3. نشت اطلاعات: احتمال دارد اطلاعاتی ناخواسته از دادههای آموزشی به اعتبارسنجی و آزمون راه پیدا کرده باشد و باعث بهبود کاذب عملکرد شده باشد.
4. عدم تطابق محیط آموزش و محیط واقعی: تفاوتهایی مثل اندازه بچ، سختافزار، مراحل پیشپردازش و غیره میتواند باعث ایجاد اختلاف عملکرد شود.
5. تغییر مفهوم: در کاربردهای واقعی، خواص آماری دادهها ممکن است با زمان تغییر کند. بنابراین مدل آموزش دیده روی دادههای گذشته در دادههای آینده عملکرد ضعیفتری خواهد داشت.
بازبینی تفاوتهای محیط اعتبارسنجی و محیط واقعی، و بازآموزی مدل با دادههای نمایندهٔ جدید میتواند به کاهش شکاف عملکرد کمک کند.