CLE Store

Center for Language Engineering

[ Text Corpora ] [ Image Corpora ] [ Lexical Resources ] [ NLP Applications ]

CLE is making these linguistic resources available without cost for supporting academic, non-commercial research. The processing fees being charged will be used to maintain these resources. You are requested to contact CLE directly for any discounts (applicable only for selective public organizations in Pakistan) or for commercial licensing options.

CLE Urdu Digest Corpus 500K

[ Pakistan ] [ International ]

Source:	Urdu Digest
CLE Catalog #:	CLE12T002
Release Date:	22 June 2012
Data Type:	Text
Language(s):	Urdu
Distribution:	1 DVD, Web Download
Processing Fee (Pakistan):	30000 PKR
Processing Fee (International):	250 USD
License:	Yes

Introduction

CLE Urdu Digest Corpus is a five hundred thousand words collection of written Urdu language from a wide range of domains, designed for the purpose of linguistic research and/or the development of language products. Corpus covers a range of subjects including education, health, politics, international affairs, sports, business, humor and literature. CLE Urdu Digest Corpus is divided into two major categories i.e. Informational (80%) and Imaginative (20%). The Informational part includes texts from letters, interviews, press, religion, sports, culture, entertainment, health and science. The Imaginative part includes texts from short stories and novels, translation of foreign literature and book reviews.

Data Source

The data for this corpus construction has been taken from Urdu Digest and it ranges between years 2003-2011. Whereas Urdu Digest is a leading general-interest Urdu magazine, with a history of fifty-two years of publication.

Data

The data is distributed in 715 UTF-8 files and is arranged according to the above mentioned genres. Each file contains minimum seven hundred words.

Sample

		’’فکر انگیز گوشۂ اشفاق‘‘
میں نے بی اے پاس کیا تو اُردو ڈائجسٹ کی پیدائش ہوئی۔ آج میں بہتّرویں سال میں ہوں اور اُردوڈائجسٹ ساتھ ساتھ ہے۔ بلاشبہ ہر محاذ ِ علم و اَدب پر اُس کی فتوحات بے حد و شمار ہیں۔ اگر اِسے تاریخ اَدب صحافت کا درخشاں ترین جریدہ قرار دیا جائے تو ہرگز مبالغہ نہ ہو گا۔ اَب جنابِ اخترعباس کی اُردوڈائجسٹ میں آمدِ مسعود ہر لحاظ سے خوش آئند ہے۔ ستمبر2011ء کا شمارہ اُن کی مُدیرانہ اختراعات اورجدّت طرازیوں کو منہ بولتا ثبوت ہے۔
جنابِ الطاف حسن قریشی نے ’’پاکستان کو بچانے کا وقت‘‘ کے عُنوان سے پاکستان کی نازک ترین سیاسی و اقتصادی صُورت حال کا حقیقت افروز تجزیہ کیا ہے۔ لیکن انھوں نے الطاف حسین کی پاکستان کے بارے میں نہایت گمراہ کُن یاوہ گوئی کا کوئی نوٹس نہیں لیا۔ اُس نے قائداعظم کو سیکولر اور قیامِ پاکستان کو کلمہ لااِلہ الّااللّٰہ  سے یکسر لاتعلق ہوکراور مُنہ پُھلا پُھلاکر، کندھے اُچک اُچک کر زبانِ ناسپاس کا جو مظاہرہ کیا، اُس پر شدید گرفت کرنے کی ضرورت ہے۔
اشفاق احمد کا گوشہ نہایت فکر انگیز ہے۔ اُن پر ہر شمارے میں گوہر افشانی کی ضرورت ہے۔
(سیّد ریاض حسین زیدی ، صدر ادب سرائے ساہیوال)
’’اس پر بھی قوم نہ سمجھے تو!!‘‘
 اُردو ڈائجسٹ کا یہ طرۂ امتیاز ہے کہ ہمیشہ ایک سے ایک اعلیٰ قابل شخص اس سے وابستہ رہا ہے۔ اُردو ڈائجسٹ اب ایک عظیم تناور درختِ علم کے حوالے سے اپنے برگ و بار لا رہاہے۔ خدا اس کو اور ترقی دے آمین۔ جناب الطاف حسن قریشی خوب سیاسی آگاہی رکھتے ہیں ۔ انھوں نے ملکی حالات پہ اس قدر جامع تبصرہ کیا ہے: اس پر بھی قوم نہ سجھے یا صاحبِ اقتداردھیان نہ دیں تو یہ بے چارے کیا کریں۔
(نقی حسین نقی امروہوی۔ کراچی)
’’بائنڈنگ پسند نہیں آئی‘‘
2 5-3 0سال سے قاری ہوں۔ستمبر کا شمارہ بیشک اچھا تھا مگر بائنڈنگ پسند نہیں آئی۔ میں منصورہ ڈگری کالج میں استاد ہوں اور ہمارے ہاں 25 پرچے آتے ہیں۔ میرے پرچے کی بائنڈنگ کھل گئی ہے۔ اشفاق صاحب کا گوشہ پسند آیا۔
   (محمد خالد ۔ منصورہ ڈگری کالج، لاہور)
(ہم نے خالد صاحب کو ان کے کالج کی ایک طالبہ کے بورڈ میں اول آنے پہ مبارک باد دی۔ امید ہے وہ اپنے پرنسپل پروفیسر عبدالسلام صاحب، گرلز سیکشن کی انچارج اور متعلقہ اساتذہ تک اس مبارک باد کی امانت کو درجہ بدرجہ، حصہ بقدر جثہ کے مصداق پہنچا دیں گے۔ بائنڈنگ تو ہم نے اس بار ریڈر ڈائجسٹ کے سٹائل کی کروائی ہے، پن کے بغیر۔ ’’مشین سے گم بائنڈنگ‘‘۔ کافی مہنگی ہے، مگراتفاقیہ کسی ایک آدھ جگہ انسانی غلطی تو ہمیشہ ممکن ہوتی ہے۔ لیجیے صاحب متبادل شمارہ بھی حاضر ہے۔)
’’کاش سندھ والے کالا باغ بننے دیں‘‘
خوبصورتی کے لحاظ سے ستمبر کا شمارہ بہت عمدہ تھا۔ فہرست ہی نہیں مضامین کے ڈیزائن بھی بہت اچھے تھے۔  میری بڑی خواہش ہے کہ اُردو ڈائجسٹ اور اس کے قارئین مل کر کچھ ایسا کریں کہ ہمارے صوبوں اور لوگوں کے دل مضبوطی سے باہم بندھے رہیں۔ کاش سندھ والے کالا باغ ڈیم بننے دیتے تو آج یوں پورا صوبہ نہ ڈوبا ہوتا…… اتنی مخلوقِ خدا جان سے نہ جاتی۔ یہ پانی جو عذاب بنا ہے، رحمت بن کر ہمارے کام آ سکتا تھا۔
(کاشف حسین حسیب۔ اے جی آفس لاہور)
’’میری تحریروں کا کیا بنا‘‘
کچھ تحریریں بھیجی تھیں۔ ان کا کیا بنا ضرور بتائیے۔ نیا شمارہ مل گیا ہے بہت مختلف اور اچھا لگا۔ میں خود لکھنے پڑھنے کا کام کرتا ہوں۔ مجھے ہلکی پھلکی تحریریں اچھی لگتی ہیں۔ وہ آپ نے کافی دی ہیں۔ اشفاق صاحب پرآپ کا مضمون بہت عمدہ تھا ۔ الطاف صاحب کا اداریہ بھی اچھا لگا۔ 
(محمد ایاز راہی ۔ مانسہرہ)
(ایاز صاحب یہ تو آپ نے بتایا ہی نہیں کہ ان تحریروں کا کیا بنانا تھا۔ ورنہ کوشش کر کے ضرورکچھ بنا دیتے …… خیر …… صورت یہ ہے کہ پہلے سے چَھپی ہوئی تحریریں تو ہم چُھپا دیتے ہیں۔ نئی تحریریں ضرور پڑھتے ہیں۔ پسند آ جائیں تو باری آنے پر چھاپتے جائیں گے۔ آپ کو ابھی دل لگا کر کوشش کرنی پڑے گی۔)
’’شمارے کا فونٹ بہتر ہے‘‘

webmaster@cle.org.pk