CLE Store

Center for Language Engineering

[ Text Corpora ] [ Image Corpora ] [ Lexical Resources ] [ NLP Applications ]

CLE is making these linguistic resources available without cost for supporting academic, non-commercial research. The processing fees being charged will be used to maintain these resources. You are requested to contact CLE directly for any discounts (applicable only for selective public organizations in Pakistan) or for commercial licensing options.

CLE Urdu Digest POS Tagged Corpus 100K

[ Pakistan ] [ International ]

Source:	Urdu Digest
CLE Catalog #:	CLE12T006
Release Date:	22 June 2012
Data Type:	Text
Language(s):	Urdu
Distribution:	1 DVD, Web Download
Processing Fee (Pakistan):	30000 PKR
Processing Fee (International):	250 USD
License:	Yes

Introduction

CLE Urdu Digest POS Tagged Corpus is a hundred thousand words collection of written Urdu language from a wide range of domains, designed for the purpose of linguistic research and/or the development of language products. Corpus covers a range of subjects including education, health, politics, international affairs, sports, business, humor and literature. CLE Urdu Digest POS Tagged Corpus is divided into two major categories i.e. Informational (80%) and Imaginative (20%). The Informational part includes texts from letters, interviews, press, religion, sports, culture, entertainment, health and science. The Imaginative part includes texts from short stories and novels, translation of foreign literature and book reviews.

Data Source

The data for this corpus construction has been taken from Urdu Digest and it ranges between years 2003-2011. Whereas Urdu Digest is a leading general-interest Urdu magazine, with a history of fifty-two years of publication.

Data

The data is distributed in 348 UTF-8 files and is arranged according to the above mentioned genres. Each file contains minimum three hundred words.

Sample

		دنیا/NN کا/PSP ہر/JJ فرد/NN کامیابی/NN کا/PSP آرزومند/NN ہے/VBF ۔PU/
ناکامی/NN سے/PSP سب/JJ گھبراتے/VBF ہیں/AUXT ۔PU/ عزت/NN ،/PU دولت/NN ،/PU
راحت/NN اور/CC عافیت/NN کی/PSP زندگی/NN کے/PSP سبھی/PRP شیدائی/NN ہیں/VBF
۔PU/ لیکن/SC اصل/JJ کامیابی/NN کیا/RB چیز/NN ہے/VBF ؟/PU اور/CC حقیقی/JJ
عزت/NN و/CC راحت/NN کس/PDM طرح/NN نصیب/NN ہوتی/VBF ہے/AUXT ؟/PU اس/PDM
بھید/NN سے/PSP بہت/Q کم/Q لوگ/NN واقف/NN ہیں/VBF ۔PU/ اگر/SCP آپ/PRP
حقیقی/JJ کامیابی/NN کے/PSP گُر/NN جاننا/VBI چاہتے/VBF ہیں/AUXT تو/SC
ڈاکٹر/NN زاہد/NNP منیر/NNP عامر/NNP کی/PSP تازہ/JJ تصنیف/NN '/PU آئینہ/NN
کردار/NN '/PU پڑھیے/VBF ۔PU/۱۱۲ /CD صفحوں/NN کی/PSP اس/PDM کتاب/NN کا/PSP
ایک/CD ایک/CD حرف/NN بصیرت/NN کے/PSP دریچے/NN کھولنے/VBI پر/PSP مامور/NN
ہے/VBF ۔PU/

راقم/NN نے/PSP اس/PDM کتاب/NN کا/PSP مطالعہ/NN کیا/VBF تو/SC لفظ/NN و/CC
معنی/NN کی/PSP کہکشاں/NN دیکھ/VBF کر/SCK مسحور/JJ ہو/VBF گیا/AUXA ،/PU
جس/PRD چیز/NN نے/PSP خاص/JJ طور/NN پر/PSP متاثر/NN کیا/VBF وہ/PRP ڈاکٹر/NN
صاحب/NN کا/PSP فہم/NN قرآن/NN ہے/VBF ۔PU/ بظاہر/RB ڈاکٹر/NN صاحب/NN
پنجاب/NNP یونیورسٹی/NN کے/PSP معلم/NN ادبیات/NN ہیں/VBF لیکن/SC درحقیقت/RB
وہ/PRP ایک/CD داعی/NN ،/PU ایک/CD عارف/NN ،/PU ایک/CD محقق/NN ،/PU ایک/CD
مدبر/NN ،/PU ایک/CD مقرر/NN ،/PU ایک/CD آموزگار/NN اخلاق/NN اور/CC قلم/NN
و/CC قرطاس/NN کے/PSP فرمانروا/NN ہیں/VBF ۔PU/ ٹی‌وی/NN پر/PSP ان/PRP کی/PSP
تقریریں/NN بڑے/Q ذوق/NN و/CC شوق/NN سے/PSP سنی/VBF جاتی/AUXA ہیں/AUXT ۔PU/
ان/PRP کی/PSP باتیں/NN عید/NN کی/PSP سِویاّں/NN ہیں/VBF ۔PU/ بےاختیار/RB
دل/NN میں/PSP اترتی/VBF چلی/AUXA جاتی/AUXA ہیں/AUXT ۔PU/ سب/NN سے/PSP
زیادہ/Q گرانمایہ/JJ خوبی/NN یہ/PRP ہے/VBF کہ/SC ان/PRP کی/PSP گفتگو/NN
قرآن‌کریم/NNP کی/PSP برمحل/JJ آیات/NN اور/CC ارشادات/NN رسالت‌مآبؐ/NNP
سے/PSP یوں/RB جگمگاتی/VBF ہے/AUXT جیس/PRRے

ع/SYM پرتو/NN سے/PSP آفتاب/NN کے/PSP ذرے/NN میں/PSP جان/NN ہے/VBF /PU!

webmaster@cle.org.pk