مجموعهٔ همشهری (نسخه ۲) پیکرهای است حاوی ۳۱۸ هزار سند مربوط به اخبار سالهای ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وبسایت همشهری و چندین مرحله پیشپردازش و برچسبزنی حاصل آمده است. همه اسناد مجموعهٔ همشهری دارای برچسب «Cat» هستند که نشان میدهد هر سند در چه ردهای است (اقتصادی، سیاسی و…). نسخۀ دوم پیکرهٔ همشهری توسط گروه تحقیقاتی پایگاه داده دانشگاه تهران و با حمایت مرکز تحقیقات مخابرات ایران تهیه شده است.
اطلاعات ارجاع:
AleAhmad, A., Amiri, H., Darrudi, E, Rahgozar, M., & Oroumchian, F. (2009). Hamshahri: A Standard Persian Text Collection. Knowledge-Based Systems, 22(5), ۳۸۲–۳۸۷. (دریافت)
سایر مستندات:
Darrudi, E., Hejazi, M. R. & Oroumchian, F. (2004). Assessment of a Modern Farsi Corpus. Proceedings of the 2nd Workshop on Information Technology and its Disciplines (WITID) .
جهت دریافت رمز عبور فایل، با ایمیل دکتر مسعود رهگذر به آدرس rahgozar@ut.ac.ir مکاتبه فرمایید.