مجموعهٔ همشهری (نسخه ۲) پیکره‌ای است حاوی ۳۱۸ هزار سند مربوط به اخبار سال‌های ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وب‌سایت همشهری و چندین مرحله پیش‌پردازش و برچسب‌زنی حاصل آمده است. همه اسناد مجموعهٔ همشهری دارای برچسب «Cat» هستند که نشان می‌دهد هر سند در چه رده‌ای است (اقتصادی، سیاسی و…). نسخۀ دوم پیکرهٔ همشهری توسط گروه تحقیقاتی پایگاه داده دانشگاه تهران و با حمایت مرکز تحقیقات مخابرات ایران تهیه شده است.

اطلاعات ارجاع:
AleAhmad, A.‎, Amiri, H.‎, Darrudi, E, Rahgozar, M.‎, & Oroumchian, F.‎ (2009)‎.‎ Hamshahri: A Standard Persian Text Collection.‎ Knowledge-Based Systems, 22(5)‎, ۳۸۲–۳۸۷. (دریافت)

سایر مستندات:
Darrudi, E.‎, Hejazi, M.‎ R.‎ & Oroumchian, F.‎ (2004)‎.‎ Assessment of a Modern Farsi Corpus.‎ Proceedings of the 2nd Workshop on Information Technology and its Disciplines  (WITID) .

جهت دریافت رمز عبور فایل، با ایمیل دکتر مسعود رهگذر به آدرس rahgozar@ut.ac.ir مکاتبه فرمایید.