युनिकोड
युनिकोड (रोमन लिपी: Unicode) हा आंतरराष्ट्रीय पातळीवर प्रमाणभूत होत असलेला असा एक वर्णसंच आहे.
कॅरॅक्टर एनकोडिंग
'कॅरॅक्टर एनकोडिंग' ह्या संज्ञेची अगदी सोपी व्याख्या म्हणजे ‘कोणत्याही एका मानवी भाषेतील सर्व अक्षरे, चिन्हे यांना काही विशिष्ट क्रमाने ठरवून दिलेले गणितीय आकडे’.
- उदाहरणार्थ, कल्पना करा, की एका भाषेत ('क', 'ख, 'ग', 'घ, 'ञ') ही फक्त पाच अक्षरे आहेत. समजा आपण ठरवले की ही पाच अक्षरे (२१,२२,२३,२४,२५) ह्या पाच आकड्यांनी ओळखायची. असे केल्यास ह्या काल्पनिक भाषेतील कोणताही शब्द किंवा वाक्य आपल्याला हे पाच आकडे वापरून लिहिता येईल. उदा. 'कखग' हा शब्द '२१२२२३' असा लिहिता येईल व 'खघकञ' हा शब्द '२२२४२१२५' असा लिहिता येईल.
येथे (२१,२२,२३,२४,२५) ह्या आकड्यांच्या समूहाचे ('क', 'ख, 'ग', 'घ, 'ञ') ह्या पाच अक्षरांच्या समूहाशी आपण जे नाते ठरवले त्यास एक कॅरॅक्टर संच म्हणले जाते.
हेच उदाहरण पुढे वाढवल्यास मराठीतील १२ स्वर आणि ३६ व्यंजन अक्षरे ही एकूण ४८ आकड्यांनी ओळखता येतील. असे केल्यास हा नवीन कॅरॅक्टर संच एकूण ४८ अक्षरांना आकड्यांचे स्वरूप देईल.
पण असे आकडे ठरवण्याची गरज काय ?
असे करण्याचे एकच कारण आहे व ते म्हणजे संगणकास कोणत्याही भाषेचे ज्ञान नसते. संगणकावर साठवलेली सर्व माहिती ही केवळ आकड्यांच्या स्वरूपात साठवलेली असते. त्याचप्रमाणे संगणकास समजणारी सर्व आज्ञावली हीदेखील आकड्यांच्याच स्वरूपात साठवली जाते.
- संगणकाची ही रचना लक्षात घेतली की कॅरॅक्टर संचाचे महत्त्व लक्षात येईल. संगणकास भाषा वा अक्षरे समजत नसल्यामुळे, सर्व अक्षरे, चिन्हे (उदा प्रश्नचिन्ह, स्वल्पविराम इत्यादी) हीदेखील केवळ आकड्यांच्याच स्वरूपात साठवावी लागतात. त्यामुळे कोणताही मजकूर साठवताना कोणत्यातरी एका कॅरॅक्टर एनकोडिंगच्या साहाय्याने तो आकड्यांच्या स्वरूपात साठवला जातो. तो मजकूर पुन्हा दाखवताना (उदा. कॉंप्युटर मॉनिटरवर दाखविताना ), त्याच आकड्यांवरून अक्षरे ठरवून दाखवली जातात. अशा प्रकारचा एक कॅरॅक्टर संच आहे, जो जगातल्या सध्याच्या बहुतांश संगणकांतील बहुतेक सर्व सॉफ्टवेअर्समध्ये वापरला जातो - तो म्हणजे आस्की (इंग्लिश: ASCII - American Standard Code for Information Interchange. आस्की ह्या सेटमध्ये रोमन लिपीतील सर्व अक्षरे, अंक, विरामचिन्हे (पूर्णविराम, प्रश्नचिन्ह, उद्गारचिन्ह इत्यादी) , तसेच इतर काही चिन्हे ह्यांच्यासाठी एकूण १२८ आकड्यांचा क्रम ठरवला गेला आहे. A ते Z ही अक्षरे ६५ ते ९० ह्या आकड्यांनी तर a ते z ही अक्षरे ९७ ते १२२ ह्या आकड्यांनी ओळखली जातात. अक्षरेच नव्हे तर अंकदेखील काही विशिष्ट आकड्यांनी दर्शविले जातात. 0 ते 9 हे अंक आस्की मध्ये ४८ ते ५७ असे साठवले जातात. दोन शब्दांमधली रिकामी जागा दर्शविण्यासाठी ३२ हा आकडा आहे.
उदा. cat हा शब्द आस्कीमध्ये ९९ ९७ ११६ ह्या तीन आकड्यांत साठवला जातो; तर Cat हा शब्द ६७ ९७ ११६ असा साठवला जातो. 'Windows 95' हा मजकूर '८७ १०५ ११० १०० १११ ११९ ११५ ३२ ५७ ५३' असा होईल व संगणकात साठवला जाईल. आस्कीप्रमाणे इतर अनेक कॅरॅक्टर सेट्स प्रचलित असून बहुतांश देशांमध्ये त्या देशाच्या भाषेप्रमाणे कोणतातरी एक कॅरॅक्टर संच प्रमाण मानला जातो. भारतीय भाषांकरिता प्रमाण कॅरॅक्टर सेट इस्की (इस्की) हा आहे. (हा भारतीय सरकारद्वारे साधारणतः १९८० च्या दशकात विकसित करण्यात आला)
असाच एक कॅरॅक्टर सेट म्हणजे युनिकोड.
युनिकोड नावाचा नवीन कॅरॅक्टर संच निर्माण करण्याची गरज काय ?
आस्की किंवा इस्की यांसारखे कॅरॅक्टर सेट फक्त ठरावीक भाषेसाठी ठरवण्यात आले आहेत. भारतीय भाषांसाठी जरी 'इस्की' संच असला तरी तो 'आस्की'चेच रूप आहे. कारण 'आस्की'ला फक्त इंग्रजीलाच बरोबर घेऊन पुढे जायचे होते, तर 'इस्की'ला देवनागरीसह इंग्रजीला घेऊन पुढे जायचे होते. जगातील सर्व भाषांचा संगणकावर वापर करता यावा व सर्व भाषा एकाच कॅरॅक्टर सेटमध्ये वापरता याव्यात यासाठी युनिकोडची निर्मिती करण्यात आली.
युनिकोड मध्ये देवनागरी
(The en:Unicode range for Devanāgarī is U+0900 .. U+097F.)
राखाडी रंगाचा ठोकळा अक्षरांसाठी सध्या रिकामी ठेवलेली घरे दाखवतो.
जर तुम्हाला सर्व अक्षरे योग्य प्रकारे दिसत नसतील तर ही pdf संचिका डाउनलोड करा (उतरवून घ्या)
देवनागरी युनिकोड | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F |
U+090x | ऀ | ँ | ं | ः | ऄ | अ | आ | इ | ई | उ | ऊ | ऋ | ऌ | ऍ | ऎ | ए |
U+091x | ऐ | ऑ | ऒ | ओ | औ | क | ख | ग | घ | ङ | ङ | च | छ | ज | झ | ञ |
U+092x | ट | ठ | ड | ढ | ण | त | थ | द | न | ऩ | प | फ | ब | भ | म | य |
U+093x | र | ऱ | ल | ळ | ऴ | व | श | ष | स | ह | ऻ | ऽ | ा | ि | ी | ु |
U+094x | ू | ृ | ॄ | ॅ | ॆ | े | ै | ॉ | ॊ | ो | ौ | ् | ॎ | ॏ | ॐ | ॒ |
U+095x | ॓ | ॔ | ॕ | ॖ | ॗ | क़ | ॖ | ॗ | क़ | ख़ | ग़ | ज़ | ड़ | ढ़ | फ़ | य़ |
U+096x | ॠ | ॡ | ॢ | ॣ | । | ॥ | ० | १ | २ | ३ | ४ | ५ | ६ | ७ | ८ | ९ |
U+097x | ॰ | ॱ | ॲ | ॳ | ॴ | ॵ | ॶ | ॷ | ॸ | ॹ | ॺ | ॻ | ॼ | ॽ | ॾ | ॿ |
अतिरिक्त वाढवलेले देवनागरी युनिकोड
जर तुम्हाला सर्व अक्षरे योग्य प्रकारे दिसत नसतील तर ही pdf-२ संचिका डाउनलोड करा (उतरवून घ्या)
↓ ☸ → | ० | १ | २ | ३ | ४ | ५ | ६ | ७ | ८ | ९ | A | B | C | D | E | F |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
u+A8Ex | ꣠ | ꣡ | ꣢ | ꣣ | ꣤ | ꣥ | ꣦ | ꣧ | ꣨ | ꣩ | ꣪ | ꣫ | ꣬ | ꣭ | ꣮ | ꣯ |
u+A8Fx | ꣰ | ꣱ | ꣲ | ꣳ | ꣴ | ꣵ | ꣶ | ꣷ | ꣸ | ꣹ | ꣺ | ꣻ |
जर तुम्हाला सर्व अक्षरे योग्य प्रकारे दिसत नसतील तर ही pdf-३ संचिका डाउनलोड करा (उतरवून घ्या)
साचा:Unicode chart Vedic Extensions
अक्षर टंक
टंक म्हणजे font. देवनागरी लिपीसाठी हजारो टंक उपलब्ध आहेत.
- सम्यक टंक वापरून लिहिलेली युनिकोड देवनागरीची काही अक्षरे.
- नकुल टंक वापरून लिहिलेली युनिकोड देवनागरीची काही अक्षरे.
- सहदेव टंक वापरून लिहिलेली युनिकोड देवनागरीची काही अक्षरे.
- समानता टंक वापरून लिहिलेली युनिकोड देवनागरीची काही अक्षरे.
देवनागरी युनिकोड लेखन नियम
स्वतंत्र युनिकोड असलेली अक्षरे
काही अक्षरे ही दोन युनिकोड जोडून तयार करावी लागतात, परंतु काही अक्षरांना स्वतःचा युनिकोड असतो, तरीही बऱ्याचदा ही अक्षरे चुकीची लिहिली जातात. जसे की ॲच्या जागी ऍ (ही चूक स्वतः wikipedia मध्ये करण्यात आली आहे ).(ही चूक कशी? ऍ हे अक्षर मराठीत नाही, अॅ (‘अ’ वर चंद्र) हे आहे.
अक्षर | युनिकोड | ! |
---|---|---|
ॲ | U0972 | मराठी अक्षर. |
ॐ | U0950 | |
ऍ | U090D | हिंदी अक्षर |
काही विशिष्ट शब्द कसे निर्माण करतात
क + ् + ष = क्ष
- युनिकोड U0915+U094D+U0937 = क्ष
ज + ् + ञ = ज्ञ
- युनिकोड U091C+U094D+U091E = ज्ञ
ऱ +् + य = ऱ्य
- युनिकोड U0931+U094D+U092F = ऱ्य
(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. ऱ्यच्या जागी ऱ्य ).
.)
ऱ +् + ह = ऱ्ह
- युनिकोड U0931+U094D+U092F = ऱ्ह
(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. ऱ्हच्या जागी ऱ्ह ).
.)
क + ् + र = क्र
प + ् + र = प्र
- युनिकोड
क + ् + क + ् + य = क्क्य
- युनिकोड
त + ् + र = त्र
- युनिकोड
र +् + क = र्क
- युनिकोड
र + ् + व = र्व
- युनिकोड
ब + ृ = बृ
- युनिकोड
अक्षर विलगकZWNJ आणि अक्षर सांधकZWJ
व्यंजनाला पायाशी लावलेले हलन्त(पाय मोडायचे) चिन्ह त्या व्यंजनाचा निभृत(स्वरहीन) उच्चार करावा असे सूचित करते. अशा हलन्त व्यंजनापाठोपाठ दुसरे व्यंजन आले की जोडाक्षर बनते.जोडाक्षर झाल्यामुळे पहिले हलन्त व्यंजन तसे रहात नाही. पण कधीकधी हे पायमोडके अक्षर दिसावे अशी आपली इच्छा असते. अशा वेळी ’अक्षर विलगक’(ZWNJ-Zero Width Non-joiner) वापरून एका पायमोडक्या व्यंजनाशेजारी दुसरे व्यंजन टंकित करता येते. हे साध्य करण्यासाठी युनिकोडने U+200C या संकेताक्षराची योजना केली आहे.
उदा०
- क् + ZWNJ + ष = क्ष
.
या उलट कधीकधी दोन्ही व्यंजने आडव्या बांधणीने जोडली जावी अशी आपली इच्छा असते. अशा वेळी ’अक्षर सांधक’((ZWJ-Zero Width Joiner) लागतो. युनिकोडने त्यासाठी U+200D या कोडची योजना केली आहे. (कधीकधी अक्षरे उभ्या जोडणीने जोडली जावी अशीही आमची इच्छा असते, त्यासाठी युनिकोडने काय सोय केली आहे?)
- क् + ZWJ + ष = क्ष
जर अक्षर-सांधक किंवा विलगक वापरला नाही तर,
- क् + ष = क्ष
आणि,
- क् + ZWNJ + ह = क्ह
- क् + ZWJ + ह = क्ह.
टंकन पद्धती
- Microsoft BhashaIndia Archived 2008-07-20 at the Wayback Machine.—Indic Language Computing resources
- Online tool for English (Roman Script) to Hindi (Devanagari script) Transliteration by CDAC Mumbai Archived 2011-07-23 at the Wayback Machine.
- On line tools for typing in Unicode Devanagari for the Nepali language
- Romanized Nepali Unicode Keyboard Archived 2009-09-11 at the Wayback Machine. developed by OOPSLite Technologies
- IndiX, Indian language support for Linux Archived 2008-05-26 at the Wayback Machine., a site by the Indian National Centre for Software Technology
- Devanāgarī Tools: Wiki Sandbox, Devanāgarī Mail, Yahoo/Google Search & Devanāgarī Transliteration Archived 2008-05-22 at the Wayback Machine.
- Online Latin to Devanāgarī transliteration tool
- Devawriter & Devawriter Pro Archived 2011-08-11 at the Wayback Machine. digitisation tools.
हेही वाचा
- संगणक आणि मराठी
- महाजाल आणि मराठी