توجه و علاقه به خلاصهسازی خودکار متن، اولین بار حدود دهه 50 به وجود آمد. یکی از مهمترین مقالات اولیه در سال 1958، پیشنهاد کرده بود که برای هر جمله یک وزن قرار دهیم و با توجه به کلمات موجود در آن، جملاتی که دارای وزن بالا و تکرار کلمات مهم هستند، انتخاب کنیم.
خلاصهسازی خودکار متن یکی از چالش هاي قدیمی در متن کاوی است که نیازمند توجه محققین در زمینههای هوش محاسباتی، فرایندهای یادگیری ماشین و زبان طبیعی بوده و روشهای مختلفی نظیر شبکههای عصبی، درخت تصمیمگیری، نمودار معنایی، مدلهای رگرسیون، منطق فازی، هوش جمعی و... را درگیر میکند[4,5].
در سال 1950 توسط فردي به نام Luhn شروع شد. اساس كار او ، كلمات پر تكرار را مهم تر از ساير كلمات به حساب مي آورد . جملاتي كه تعداد بيش تري از اين كلمات را داشتند ، جملاتي بودند كه بايد در خلاصه مي آمدند. روش وي خطاي زيادي دارد و خود او ، بعضي از اين خطاها را اصلاح كرد.براي مثال برخي افراد و حروف اضافه در تمامي متن ها به دفعات ديده مي شوند ولي اطلاعات خاصي را در رابطه با عنوان مقاله در اختيار نمي گذارند . گرچه كار وي خطاي زيادي داشت ولي به علت اينكه از پايه گذاران اين روش بود ، بسيار مورد ستايش قرار گرفت . [9]
از جمله كساني كه كار وي را ادامه داد Edmundson بود . او مواردي مانند تعداد دفعات تكرار هر كلمه ، تعداد كلماتي از جمله آن كه در عنوان مقاله آمده ، محل جمله در مقاله ، تعداد كلماتي از جمله آن كه نشاندهنده اهميت هستند را مورد توجه قرار داد . وي براي مشخص كردن ارزش هر جمله از تركيب خطي موارد ذكر شده استفاده كرد.
به دلیل کمبود کامپیوترهاي قدرتمند و مشکلات موجود براي پردازش زبانهاي طبیعی کارهاي اولیه بروي مطالعه ظواهر متن مانند (موقعیت جمله و ، عبارات اشاره) ، متمرکز شده بود. سال 1970 تا 1980 هوش مصنوعی بکار استخراج نمايش هاي دانش ، مانند فريم هاي AI آمد . ايده آن بر اساس شناسايي موجوديتهاي مفهومي از متن و استخراج روابط بين مكانيزم هاي استنتاج بود .، مشكل اصلي اين بود كه فريم هايي تعريف شده محدوديت هايي داشتند كه ممكن بود منجر به تحليل كامل موجوديت هاي مفهومي نشود . از اول 1990 تا به حال Kupiec به كار گرفته شد .[7,13]
.مسئله خلاصه سازي به صورت یک مسئله دسته بندي آماري با استفاده از الگوریتم Bayesian توسط سه محقق به نام هاي Kupiec, Pedersen, Chen مطرح گرديد.
Kupiec اولین الگوریتم مبتنی بر یادگیري را پیشنهاد داد. او عمل خلاصه سازي را به صورت یک مسئله دسته بندي ، درنظر گرفت و دسته بندي کننده هاي بیزین را براي تعیین جملاتی که باید در خلاصه وارد شود ، بکار برد. سپس
Chuang و Yang چندین الگوریتم مانند درخت تصمیم و دسته بندي کننده را براي استخراج قطعات جمله پیشنهاد دادند . این روش خلاصه سازي اسناد در یک حوزه خاص عملکرد خوبی دارد.
Elhadad و Barzilay خلاصه هایی با پیدا کردن زنجیره هاي لغوي ایجاد کردند که به توزیع کلمه و اتصالات لغوي بین آنها ، براي تقریب زدن محتوا و ارائه یک نمایش از ساختار لغوي بهم پیوسته متن اتکا می کرد.اين دو در اين راستا دو روش را پيشنهاد دادند :
يكي سنجش ارتباط و رتبه دهي به جملات مرتبط و ديگري استفاده از تحليل معاني پنهان براي شناسايي جملات مهم از نظر معنايي.[7,13]