Jump to content

युनिकोड


युनिकोड (रोमन लिपी: Unicode) हा आंतरराष्ट्रीय पातळीवर प्रमाणभूत होत असलेला असा एक वर्णसंच आहे.

कॅरॅक्टर एनकोडिंग

'कॅरॅक्टर एनकोडिंग' ह्या संज्ञेची अगदी सोपी व्याख्या म्हणजे ‘कोणत्याही एका मानवी भाषेतील सर्व अक्षरे, चिन्हे यांना काही विशिष्ट क्रमाने ठरवून दिलेले गणितीय आकडे’.

उदाहरणार्थ, कल्पना करा, की एका भाषेत ('क', 'ख, 'ग', 'घ, 'ञ') ही फक्त पाच अक्षरे आहेत. समजा आपण ठरवले की ही पाच अक्षरे (२१,२२,२३,२४,२५) ह्या पाच आकड्यांनी ओळखायची. असे केल्यास ह्या काल्पनिक भाषेतील कोणताही शब्द किंवा वाक्य आपल्याला हे पाच आकडे वापरून लिहिता येईल. उदा. 'कखग' हा शब्द '२१२२२३' असा लिहिता येईल व 'खघकञ' हा शब्द '२२२४२१२५' असा लिहिता येईल.

येथे (२१,२२,२३,२४,२५) ह्या आकड्यांच्या समूहाचे ('क', 'ख, 'ग', 'घ, 'ञ') ह्या पाच अक्षरांच्या समूहाशी आपण जे नाते ठरवले त्यास एक कॅरॅक्टर संच म्हणले जाते.

हेच उदाहरण पुढे वाढवल्यास मराठीतील १२ स्वर आणि ३६ व्यंजन अक्षरे ही एकूण ४८ आकड्यांनी ओळखता येतील. असे केल्यास हा नवीन कॅरॅक्टर संच एकूण ४८ अक्षरांना आकड्यांचे स्वरूप देईल.

पण असे आकडे ठरवण्याची गरज काय ?

असे करण्याचे एकच कारण आहे व ते म्हणजे संगणकास कोणत्याही भाषेचे ज्ञान नसते. संगणकावर साठवलेली सर्व माहिती ही केवळ आकड्यांच्या स्वरूपात साठवलेली असते. त्याचप्रमाणे संगणकास समजणारी सर्व आज्ञावली हीदेखील आकड्यांच्याच स्वरूपात साठवली जाते.

संगणकाची ही रचना लक्षात घेतली की कॅरॅक्टर संचाचे महत्त्व लक्षात येईल. संगणकास भाषा वा अक्षरे समजत नसल्यामुळे, सर्व अक्षरे, चिन्हे (उदा प्रश्नचिन्ह, स्वल्पविराम इत्यादी) हीदेखील केवळ आकड्यांच्याच स्वरूपात साठवावी लागतात. त्यामुळे कोणताही मजकूर साठवताना कोणत्यातरी एका कॅरॅक्टर एनकोडिंगच्या साहाय्याने तो आकड्यांच्या स्वरूपात साठवला जातो. तो मजकूर पुन्हा दाखवताना (उदा. कॉंप्युटर मॉनिटरवर दाखविताना ), त्याच आकड्यांवरून अक्षरे ठरवून दाखवली जातात. अशा प्रकारचा एक कॅरॅक्टर संच आहे, जो जगातल्या सध्याच्या बहुतांश संगणकांतील बहुतेक सर्व सॉफ्टवेअर्समध्ये वापरला जातो - तो म्हणजे आस्की (इंग्लिश: ASCII - American Standard Code for Information Interchange. आस्की ह्या सेटमध्ये रोमन लिपीतील सर्व अक्षरे, अंक, विरामचिन्हे (पूर्णविराम, प्रश्नचिन्ह, उद्गारचिन्ह इत्यादी) , तसेच इतर काही चिन्हे ह्यांच्यासाठी एकूण १२८ आकड्यांचा क्रम ठरवला गेला आहे. A ते Z ही अक्षरे ६५ ते ९० ह्या आकड्यांनी तर a ते z ही अक्षरे ९७ ते १२२ ह्या आकड्यांनी ओळखली जातात. अक्षरेच नव्हे तर अंकदेखील काही विशिष्ट आकड्यांनी दर्शविले जातात. 0 ते 9 हे अंक आस्की मध्ये ४८ ते ५७ असे साठवले जातात. दोन शब्दांमधली रिकामी जागा दर्शविण्यासाठी ३२ हा आकडा आहे.


उदा. cat हा शब्द आस्कीमध्ये ९९ ९७ ११६ ह्या तीन आकड्यांत साठवला जातो; तर Cat हा शब्द ६७ ९७ ११६ असा साठवला जातो. 'Windows 95' हा मजकूर '८७ १०५ ११० १०० १११ ११९ ११५ ३२ ५७ ५३' असा होईल व संगणकात साठवला जाईल. आस्कीप्रमाणे इतर अनेक कॅरॅक्टर सेट्‌स प्रचलित असून बहुतांश देशांमध्ये त्या देशाच्या भाषेप्रमाणे कोणतातरी एक कॅरॅक्टर संच प्रमाण मानला जातो. भारतीय भाषांकरिता प्रमाण कॅरॅक्टर सेट इस्की (इस्की) हा आहे. (हा भारतीय सरकारद्वारे साधारणतः १९८० च्या दशकात विकसित करण्यात आला)

असाच एक कॅरॅक्टर सेट म्हणजे युनिकोड.

युनिकोड नावाचा नवीन कॅरॅक्टर संच निर्माण करण्याची गरज काय ?

आस्की किंवा इस्की यांसारखे कॅरॅक्टर सेट फक्त ठरावीक भाषेसाठी ठरवण्यात आले आहेत. भारतीय भाषांसाठी जरी 'इस्की' संच असला तरी तो 'आस्की'चेच रूप आहे. कारण 'आस्की'ला फक्त इंग्रजीलाच बरोबर घेऊन पुढे जायचे होते, तर 'इस्की'ला देवनागरीसह इंग्रजीला घेऊन पुढे जायचे होते. जगातील सर्व भाषांचा संगणकावर वापर करता यावा व सर्व भाषा एकाच कॅरॅक्टर सेटमध्ये वापरता याव्यात यासाठी युनिकोडची निर्मिती करण्यात आली.

युनिकोड मध्ये देवनागरी

(The en:Unicode range for Devanāgarī is U+0900 .. U+097F.)

राखाडी रंगाचा ठोकळा अक्षरांसाठी सध्या रिकामी ठेवलेली घरे दाखवतो.
जर तुम्हाला सर्व अक्षरे योग्य प्रकारे दिसत नसतील तर ही pdf संचिका डाउनलोड करा (उतरवून घ्या)

देवनागरी युनिकोड0123456789ABCDEF
U+090x
U+091x
U+092x
U+093x ि
U+094x
U+095x
U+096x
U+097x ॿ



Unicode Chart for Devanagari

अतिरिक्त वाढवलेले देवनागरी युनिकोड

जर तुम्हाला सर्व अक्षरे योग्य प्रकारे दिसत नसतील तर ही pdf-२ संचिका डाउनलोड करा (उतरवून घ्या)

युनिकोड : A8E0–A8FF देवनागरीसाठी अतीरिक्त वाढवलेले युनिकोड
↓ ☸ →ABCDEF
u+A8Ex
u+A8Fx


जर तुम्हाला सर्व अक्षरे योग्य प्रकारे दिसत नसतील तर ही pdf-३ संचिका डाउनलोड करा (उतरवून घ्या)

साचा:Unicode chart Vedic Extensions

अक्षर टंक

टंक म्हणजे font. देवनागरी लिपीसाठी हजारो टंक उपलब्ध आहेत.


टंकाबद्दल माहिती

देवनागरी युनिकोड लेखन नियम

स्वतंत्र युनिकोड असलेली अक्षरे

काही अक्षरे ही दोन युनिकोड जोडून तयार करावी लागतात, परंतु काही अक्षरांना स्वतःचा युनिकोड असतो, तरीही बऱ्याचदा ही अक्षरे चुकीची लिहिली जातात. जसे की च्या जागी (ही चूक स्वतः wikipedia मध्ये करण्यात आली आहे ).(ही चूक कशी? हे अक्षर मराठीत नाही, अ‍ॅ (‘अ’ वर चंद्र) हे आहे.

अक्षरयुनिकोड!
U0972मराठी अक्षर.
U0950
U090Dहिंदी अक्षर
काही विशिष्ट शब्द कसे निर्माण करतात

क + ् + ष = क्ष

युनिकोड U0915+U094D+U0937 = क्ष

ज + ् + ञ = ज्ञ

युनिकोड U091C+U094D+U091E = ज्ञ

ऱ +् + य = ऱ्य

युनिकोड U0931+U094D+U092F = ऱ्य

(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. ऱ्यच्या जागी ऱ्य ).
.)

ऱ +् + ह = ऱ्ह

युनिकोड U0931+U094D+U092F = ऱ्ह

(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. ऱ्हच्या जागी ऱ्ह ).
.)

क + ् + र = क्र

प + ् + र = प्र

युनिकोड

क + ् + क + ् + य = क्क्य

युनिकोड

त + ् + र = त्र

युनिकोड

र +् + क = र्क

युनिकोड

र + ् + व = र्व

युनिकोड

ब + ृ = बृ

युनिकोड
अक्षर विलगकZWNJ आणि अक्षर सांधकZWJ
ह्या लेखाचा/विभागाचा इंग्रजी किंवा अमराठी भाषेतून मराठी भाषेत भाषांतर करावयाचे बाकी आहे. अनुवाद करण्यास आपलाही सहयोग हवा आहे. ऑनलाईन शब्दकोश आणि इतर सहाय्या करिता भाषांतर प्रकल्पास भेट द्या.


व्यंजनाला पायाशी लावलेले हलन्त(पाय मोडायचे) चिन्ह त्या व्यंजनाचा निभृत(स्वरहीन) उच्चार करावा असे सूचित करते. अशा हलन्त व्यंजनापाठोपाठ दुसरे व्यंजन आले की जोडाक्षर बनते.जोडाक्षर झाल्यामुळे पहिले हलन्त व्यंजन तसे रहात नाही. पण कधीकधी हे पायमोडके अक्षर दिसावे अशी आपली इच्छा असते. अशा वेळी ’अक्षर विलगक’(ZWNJ-Zero Width Non-joiner) वापरून एका पायमोडक्या व्यंजनाशेजारी दुसरे व्यंजन टंकित करता येते. हे साध्य करण्यासाठी युनिकोडने U+200C या संकेताक्षराची योजना केली आहे.

उदा०

क्‌ + ZWNJ + ष = क्‌ष
.

या उलट कधीकधी दोन्ही व्यंजने आडव्या बांधणीने जोडली जावी अशी आपली इच्छा असते. अशा वेळी ’अक्षर सांधक’((ZWJ-Zero Width Joiner) लागतो. युनिकोडने त्यासाठी U+200D या कोडची योजना केली आहे. (कधीकधी अक्षरे उभ्या जोडणीने जोडली जावी अशीही आमची इच्छा असते, त्यासाठी युनिकोडने काय सोय केली आहे?)


क्‌ + ZWJ + ष = क्‍ष


जर अक्षर-सांधक किंवा विलगक वापरला नाही तर,


क्‌ + ष = क्ष


आणि,


क्‌ + ZWNJ + ह = क्‌ह


क्‌ + ZWJ + ह = क्‍ह.

टंकन पद्धती


हेही वाचा

बाह्य दुवे