دکتر محمود بی جن خان
پیکره بیجنخان، در آزمایشگاه زبانشناسی دانشگاه تهران نگهداری میشود. این پیکره، از برخی اخبار روزنامهها و متون معمولی جمعآوری شده است. یکی از ویژگیهای این پیکره این است که هر سند در این مجموعه دارای یک عنوان میباشد. به عنوان مثال، اسناد تحت عناوین( سیاسی، فرهنگی، اقتصادی)دستهبندی شدهاند.در این پیکره ۴۳۰۰ عنوان مختلف وجود دارد. این عنوانها یک محیط آزمایشی مورد دلخواه برای خوشهبندی و مقولهبندی و غیره را تولید میکند. این پیکره شامل ۲۵۹۸۲۱۵ واژه و ۵۵۰ برچسب میباشد که به طور دستی برچسب زده شده است. در عملیات برچسبزنی از عناوین متون صرف نظر شده است. زیرا هدف، بدست آوردن یک نرمافزار برچسبزننده خودکار است.
اجزای تشکیلدهنده برچسبها در پیکره بیجن خان
هر برچسب در این مجموعه از یک ساختار سلسله مراتبی پیروی میکند. بخشهایی از نام برچسب که در ابتدای نام آن قرار دارند، بیانکننده توصیف کلیتری از آن برچسب میباشند. در ابتدای برچسب مقولههای اصلی مشخص میشوند، بخشهایی که در انتهای نام برچسب قراردارند، توصیف جزئیتر در مورد آن برچسب هستند. یعنی سایر ویژگیهای مقولههای اصلی قرار میگیرند. مثلا برچسب N_PL_LOC دارای سه سطح در ساختار سلسله مراتبی میباشد. سطح اول N مشخص کننده اسم میباشد. سطح دوم PL مشخصکننده نوع جمع میباشد و سطح سوم LOCمشخصکننده مکان میباشد.
ویژگیهایی که برای هرمقوله اصلی میتوان برشمرد شامل موارد زیر میباشند:
ویژگی اسم: شمار( جمع و مفرد)، خاص و عام بودن، معرفه و نکره، اسم جنس، زمان،ظرف، فصل، لقب، ماه، مکان، گروه، جهت، مصدر،
ویژگی فعل: شخص، زمان، گذر، معلوم، مجهول، وجه، نمود
ویژگی صفت: ترتیبی، تفضیلی، ساده، مرکب،عالی، مفعولی،
ویژگی قید: پرسشی، تاسف و تعجب، زمان، تکرار، تمنا، عیر پرسشی، تفضیلی، کمی، ساده، مرکب، مثال، نفی، مکان،
ویژگیهای مقولههای فرعی: حرف ربط (اسمی، پیشمصدری، متممساز کلی، مقایسه، موصولی، همپایهساز)، حرف صوت، حرف ندا، سور، کیفیتنما، ضمیر(معرفه، نکره، انعکاسی، مفعولی، مفرد،جمع) علامت ریاضی، عربی، گروه حرف اضافه، ادات شرط.( تمام ویژگیهای مقولههای اصلی و فرعی کلیه نمادهای موجود در متن در پیکره بیجنخان در ضمیمه آورده شده است.)
برچسبهای متفاوتی که یک کلمه در پیکره میگیرد، نشاندهنده نقش متفاوت کلمات در زبان فارسی است. مثلا اگر کلمهای در پیکره ۲۵۶۸ بار در پیکره تکرار شده باشد و یک برچسب داشته باشد، نتیجه این که یک نقش دارد اما کلمهای ممکن است یک بار تکرار شود و ده برچسب داشته باشد، یعنی ده نقش دارد. مثلا کلمه(آسمان) در کل پیکره همواره برچسب N_SING را گرفته است(همیشه اسم است). در حالی که کلمه (بالا) برچسبهای متفاوتی را در شرایط متفاوت گرفته است.
اکثر واژه ها (۹۱ درصد) فقط یک برچسب دارند اما بعضی ار واژه های متن بسته به مکان قرار گرفتنشان در متن بیش از یک برچسب دارند.
Welcome to website of Bijankhan corpus
What is Bijankhan Corpus?
Bijankhan corpus is a tagged corpus that is suitable for natural language processing research on the Persian (Farsi) language. This collection is gathered form daily news and common texts. In this collection all documents are categorized into different subjects such as political, cultural and so on. Totally, there are 4300 different subjects. The Bijankhan collection contains about 2.6 millions manually tagged words with a tag set that contains 40 Persian POS tags. This collection is prepared and distributed by database research group at University of Tehran. We are indebted to Prof. M.Bijankhan from faculty of Literature & Human Science at University of Tehran because of his invaluable works on the original version of the corpus, so we named this corpus after him.
Moreover, we recommend you to visit web site of Hamshahri corpus that is more suitable for information retrieval researches.
Copyright
Bijankhan corpus was created in DBRG Lab. at University of Tehran – ECE department. All rights of this corpus and the tools that are included in this package are reserved for University of Tehran – Database Research Group. Usage of this package for any research or non-commercial purposes is free with the precondition that you cite the related papers below.
This Package’s components
- Bijankhan processed corpus (149 MB)
- Bijankhan original corpus (50.3 MB)
- Distinct words of Bijankhan corpus (76707 words in unicode text format)
- Five random training and test sets (85% training, 15% test) of the corpus that are used in the following papers.
- Source codes of the POS taggers that we used.
- Published papers and presentations.
Files
|
Description
|
|
1 | ![]() |
Processed corpus (11.1 MB): This file is a compressed version of the whole corpus in Unicode text format. This file contains a version of Bijankhan corpus that is processed to be more suitable for NLP tasks according to [1]. It contains nearly 2.6 million tagged words. To download a sample of the corpus click here. Also click here to see tagset description of the corpus. |
2
|
![]() ![]() |
Original corpus (3.7 MB): This file is a compressed version of the whole corpus in LBL text format. This file contains the original Bijankhan corpus without any changes that was manually tagged and prepared at Research Center of Intelligent Signal Processing (RCISP). Its tag set contains 550 tags and totally it contains 4300 subject categories. |
3
|
![]() |
The corpus distinct words (256 KB): This compressed file is unicode text file that contains 76707 distinct word of the Bijankhan corpus. |
4 | ![]() |
Training and test sets(will be added soon): This compressed file contains five diffrent pairs of training and test sets that are created randomly from the Bijankhan corpus. Each training part consists 85% of the corpus and each test part consists 15% of the corpus. For more information please refer [1]. |
5 | ![]() ![]() |
MLE Tagger (53.4 KB): This file contains C# source code of Maximum Likelihood Estimation (MLE) tagger that we implemented and used in our studies. Also it contains a demo that shows how to use the program. |
6 | ![]() |
TnT tagger : In order to prepare a TnT tagger please refer to web site of the TnT: Statistical Part-of-Speech Tagging. |
7
|
![]() |
MBT Tagger: An open source version of Memory Based POS Tagger (MBT) can be found in this web site. |
8 | ![]() |
Corpus Words (574 KB): This file contains all words of the corpus and their frequencies. |
Please feel free to contact us if you have any question:
Name
|
Email
|
Subject
|
|
1 | Hadi Amiri | The corpus, its statistics and POS taggers | |
3 | Abolfazl AleAhmad | The corpus, its statistics and POS taggers |