پیکرهٔ حاضر شامل تعداد ۸۴۰۰ جملهٔ برگرفته از پیکرهٔ متنی زبان فارسی است که در قالب استاندارد تجزیه نحوی سطحی یا همان فرمت IOB برچسبگذاری شده است. گروههای برچسبخورده در این پیکره به ترتیب فراوانی عبارتند از گروه اسمی، گروه حرف اضافه، گروه فعلی، گروه حرف ربط، گروه قیدی، گروه حرف اضافه پسین (را)، گروه صفتی و گروه لیست. تجزیهٔ سطحی نسبت به تجزیهٔ کامل سریعتر است و در پردازش زبان طبیعی کاربردهای بسیاری دارد.
پژوهشگاه توسعه فناوری پیشرفته خواجه نصیرالدین طوسی
– این داده به صورت رسمی منتشر نشده است. در صورت انتشار اطلاعرسانی خواهد شد.
– شادی حسیننژاد، طاهره امامی آزادی و یاسر شکفته. (۱۳۹۴). تهیه پیکره گروههای نحوی استاندارد برای تجزیه سطحی جملات فارسی. مجموعه مقالات نخستین همایش ملی زبانشناسی پیکرهای. تهران: نشر نویسه پارسی.
– پژوهشکده پردازش داده پژوهشگاه توسعه فناوری پیشرفته خواجه نصیرالدین طوسی (http://www.rcdat.com/rcsp)
غیر فعال