سلام. قراره تو پروژه ای درسی متون را به دو دسته خبر و غیر خبر تقسیم بندی کنم رسیدم به مرحله پیش پردازش که گفتن در این مرحله اینها را انجام بدم.
پیشپردازش:
-
متون را تمیزکاری و نرمالسازی کنید.
-
از تکنیکهایی مثل stemming استفاده کنید.
-
دادهها را توکنسازی کنید.
یکی توضیح بده این مراحل دقیقا چیه؟