(തമിഴ് കമ്പ്യൂട്ടിംഗ് രംഗത്ത് എടുത്തുപറയാവുന്ന സംഭാവനകള് നല്കിയ സെന്തില് നാഥന് senthilapi.wordpress.com ബ്ലോഗില് 2006 സെപ്റ്റംബര് 3 ന് പോസ്റ്റുചെയ്ത “അ-യൂണീക്കോഡ് “എന്ന ലേഖനത്തിന്റെ പരിഭാഷയാണ് താഴെ നല്കിയിരിക്കുന്നത്. തമിഴുമായി ബന്ധപ്പെട്ട് നടക്കുന്ന യൂണീക്കോഡ് ചര്ച്ചകളെ പറ്റി ചെറിയൊരു ധാരണ പകരാന് ഈ ലേഖനത്തിനാവുമെന്ന് കരുതട്ടെ. സെന്തില് നാഥനിപ്പോള് ലോക്കലൈസേഷന് കമ്പനിയായ അപ്ലൈഡ് ലാംഗ്വേജ് സൊലൂഷനില് മാനേജരാണ്. ലേഖനം പരിഭാഷ ചെയ്യാന് അനുമതി നല്കിയ സെന്തില് നാഥന് നന്ദി.)
തമിഴ് ഭാഷയുടെ പാരമ്പര്യത്തിനും വികസനത്തിനും വേണ്ടി വാദിക്കുന്ന തമിഴ് കമ്പ്യൂട്ടിംഗ് സംഘടന (കനിത്തമിഴ് സംഘം), ഇപ്പോള് നിലവിലുള്ള 16 ബിറ്റ് എന്കോഡിംഗിന് പകരമായി പുതിയ തമിഴ് 16 ബിറ്റ് എന്കോഡിംഗ് വേണമെന്ന് വാദിക്കുകയാണ്. ടേന് (Tamil New Encoding) എന്ന് പേരിട്ടിരിക്കുന്ന ഈ പുതിയ എന്കോഡിംഗ് രീതി പുതിയൊരു യൂണീക്കോഡ് വിവാദത്തിന് തീകൊളുത്തിയിരിക്കുന്നു. വീണ്ടുമൊരു പുതുവിവാദമോ, ഈ എന്കോഡിംഗ് വിവാദങ്ങള്ക്കൊരു അവസാനം ഇല്ലേ എന്ന് ചോദിക്കുന്നവര് നിങ്ങളിലുണ്ടാവാം. സത്യത്തില് കനിത്തമിഴര്ക്കുള്ളില് വീണ്ടുമൊരു പിളര്പ്പുണ്ടായിരിക്കുന്നു എന്നതാണ് ഇതിലെ രസകരമായ വസ്തുത.
കഴിഞ്ഞ ഞായറാഴ്ച തമിഴ് വെര്ച്ച്വല് യൂണിവേഴ്സിറ്റി ഇത് സംബന്ധിച്ചൊരു യോഗം സംഘടിപ്പിച്ചിരുന്നു.
എന്കോഡിംഗ്, യൂണിക്കോഡ്, ബിറ്റ് തുടങ്ങിയ കാര്യങ്ങളെ പറ്റി വിശദീകരിക്കാന് ഈ ബ്ലോഗില് ഇപ്പോള് നിര്വ്വാഹമില്ല. നിങ്ങളില് പലര്ക്കും ഇത് അറിയുന്ന കാര്യങ്ങളാണെന്ന് എനിക്കറിയാം. അതിനാല് ഇപ്പോള് നിലനില്ക്കുന്ന വിവാദങ്ങളെ പറ്റി അല്പ്പം ആഴത്തില് ചിന്തിക്കാം.
അല്പ്പം ചരിത്രം: കുറച്ച് വര്ഷങ്ങള്ക്ക് മുമ്പ് കേന്ദ്രസര്ക്കാരിന്റെ കീഴില് പ്രവര്ത്തിക്കുന്ന ഇലക്ട്രോണിക്സ് ഡിപ്പാര്ട്ട്മെന്റ് എല്ലാ ഇന്ത്യന് ഭാഷകള്ക്കുമായി ഒരു ഫോണ്ട് എന്കോഡിംഗ് വ്യവസ്ഥ വികസിപ്പിച്ചിരുന്നു. കാലക്രമത്തില് ലോകഭാഷകള്ക്ക് മുഴുവനുമായൊരു എന്കോഡിംഗ് വ്യവസ്ഥയായി യൂണീക്കോഡ് ജന്മമെടുത്തു. ആ സംവിധാനത്തിന്റെ വ്യവസ്ഥകള് പ്രകാരം ഓരോ രാജ്യങ്ങളും നല്കിയ സ്റ്റാന്ഡേര്ഡുകള്ക്ക് അനുസരിച്ചാണ് യൂണീക്കോഡ് ഉണ്ടായത്. ഇന്ത്യയിലെ യൂണീക്കോഡ് വിവാദങ്ങള്ക്ക് കാരണവും ഇതുതന്നെ.
പുതിയ 16 ബിറ്റുകാരുടെ വാദങ്ങള്:
ഹിന്ദി ഭാഷയുടെ ലിപിയായ ദേവനാഗിരിക്ക് അനുസൃതമായാണ് ഇസ്ക്കി (ISCII) വികസിപ്പിച്ചെടുത്തിട്ടുള്ളത്. ഈ സംവിധാനം തമിഴിനും മറ്റ് പല ഇന്ത്യന് ഭാഷകള്ക്കും അനുയോജ്യമല്ല. എടുത്തുപറയുകയാണെങ്കില് തമിഴ് യൂണീക്കോഡ് അകാരത്തോടുകൂടിയ വ്യജ്ഞനങ്ങളെ – ക, ങ, ച – ആശ്രയിക്കുന്നു. എന്നാല് തമിഴ് വ്യാകരണപ്രകാരം ക്, ങ്, ച് എന്നിങ്ങനെയാണ് വരേണ്ടത്. ഒറ്റനോട്ടത്തില് ഇതൊരു പ്രശ്നമല്ലെന്ന് തോന്നും. മുകളില് ചന്ദ്രക്കലയിട്ടാല് പ്രശ്നം തീര്ന്നല്ലോ എന്ന് ചിന്തിക്കാന് വരട്ടെ. നാച്ചുറല് ലാംഗ്വേജ് പ്രോസസ്സിംഗ് രീതികളില് ഈ ചെറിയ പ്രശ്നം വലിയ പ്രശ്നമാവുന്നു. നമ്മളെന്തിന് തമിഴിന്റെ തനതായ വ്യാകരണ ഘടകത്തെ മറ്റ് ഭാഷകള്ക്കായി നഷ്ടപ്പെടുത്തണം എന്നാണ് ചോദ്യം.
അക്ഷരങ്ങളുടെ സോര്ട്ടിംഗ് ഇപ്പോള് തമിഴ് വ്യാകരണ രീതിയിലല്ല. യൂണീക്കോഡ് തമിഴ് ചാര്ട്ടില് ച എന്ന വ്യജ്ഞനത്തിന് തൊട്ടുതാഴെ ജ വരുന്നു. ദേവനാഗിരി ലിപിയുടെ സോര്ട്ടിംഗ് തമിഴ് ഭാഷയ്ക്ക് ഉപയോഗപ്പെടുത്തിയതാണ് ഇതിന് കാരണം. തമിഴിലെ ആയുധ എഴുത്തിനെ ദേവനാഗിരി ലിപിയിലുള്ള വിസര്ഗ്ഗമായി ചേര്ത്തിരിക്കുന്നതാണ് എടുത്തുപറയേണ്ട മറ്റൊരു പ്രശ്നം.
തമിഴ് ടൈപ്പുചെയ്യാന് യൂണീക്കോഡ് ഫോണ്ടായ ലത ഉപയോഗിക്കുമ്പോള് – അതായത് ஃ ടൈപ്പ് ചെയ്താല് ஃ ന് മുമ്പില് ഒരു വൃത്തം – വരുന്നത് വായനക്കാര് കണ്ടിരിക്കും. അത് മുന്പറഞ്ഞ പ്രശ്നം കാരണമാണ്. ഫ എന്ന അക്ഷരത്തോട് ചേര്ത്ത് ഇത് ടൈപ്പുചെയ്യുമ്പോള് പിന്നില് ഈ വൃത്തം വരില്ല. ഇത് ഫോണ്ടിന്റെ ഡിസൈന് പ്രശ്നമാണെന്ന് പറഞ്ഞൊഴിയാമെങ്കിലും ദേവനാഗിരി ലിപിക്ക് കീഴില് മൊത്തം ഇന്ത്യന് ഭാഷകളെ കൊണ്ടുവന്നിരിക്കുന്നതാണ് ഈ പ്രശ്നത്തിന് കാരണം.
ഇന്ത്യന് ഭാഷകളുടെ ലിപി സംവിധാനങ്ങളില് പല വ്യത്യാസങ്ങളും ഉണ്ട്. ഹിന്ദി, ബംഗാളി എന്നീ ഭാഷകളില് വിപുലമായി ഉപയോഗിക്കുന്ന കൂട്ടക്ഷരങ്ങളെ – ക്ക, ങ്ക, ക്ഷ എന്നിങ്ങനെയുള്ളവ – തമിഴില് പിരിച്ചാണ് – ക്ക, ക്ഷ എന്നിങ്ങനെ – എഴുതുന്നത്. ഈ അവസ്ഥയില് എങ്ങനെയാണ് ഹിന്ദിക്കും തമിഴിനും പൊതുവായ നയം എന്ന ആശയം പ്രാവര്ത്തികമാവുക എന്നും നമ്മള് ചോദിക്കേണ്ടതുണ്ട്.
ഇന്ത്യന് ഭാഷകള്ക്ക് ഇപ്പോഴുള്ള യൂണീക്കോഡ് സ്റ്റാന്ഡേര്ഡൈസേഷനില് പ്രധാനപ്പെട്ടൊരു പ്രശ്നമുണ്ട്. റോമന്, ക്രിലിക് തുടങ്ങി അക്ഷരങ്ങള് വളരെ കുറവുള്ള ഭാഷകള്ക്ക് മാത്രമല്ല, ആയിരക്കണക്കിന് അക്ഷരങ്ങളുള്ള ചൈനീസ്, കൊറിയന് ഭാഷകള്ക്കും യൂണീക്കോഡില് ഒരക്ഷരത്തിന് ഒരു ചിഹ്നം എന്ന വ്യവസ്ഥയാണ് പിന്തുടര്ന്നിരിക്കുന്നത്. എന്നാല് ഇന്ത്യന് ഭാഷകള്ക്കാവട്ടെ, സ്വരാക്ഷരങ്ങള്, വ്യജ്ഞനങ്ങള് തുടങ്ങി പ്രധാനപ്പെട്ട അക്ഷരങ്ങള്ക്ക് മാത്രമേ ഇടം നല്കിയിട്ടുള്ളൂ.
ഉദാഹരണത്തിന് തമിഴ് എടുക്കുക – തമിഴില് 12 സ്വരാക്ഷരങ്ങള്, 18 വ്യജ്ഞനങ്ങള്, ഗ്രന്ഥാക്ഷരങ്ങള് (സംസ്കൃതത്തില് നിന്ന് എടുത്തിട്ടുള്ളവ), ആയുധ അക്ഷരം, ശ്രീ എന്ന അക്ഷരം തുടങ്ങിയ പ്രധാനപ്പെട്ട തമിഴ് അക്ഷരങ്ങള്ക്ക് മാത്രമേ യൂണീക്കോഡ് ചാര്ട്ടില് ഇടം നല്കിയിട്ടുള്ളൂ. എന്നാല് കാ, കീ, കൂ തുടങ്ങിയ (സ്വരവും വ്യജ്ഞനവും കൂടിച്ചേര്ന്ന) അക്ഷരങ്ങള്ക്ക് യൂണീക്കോഡില് നേരിട്ട് ഇടം നല്കിയിട്ടില്ല. അതിനാല് കമ്പ്യൂട്ടറിലും മൊബൈലിലുമെല്ലാം സ്വരവും വ്യജ്ഞനവും കൂടിച്ചേര്ന്ന അക്ഷരങ്ങള് പ്രദര്ശിപ്പിക്കാന് പ്രത്യേകമായി ചില സോഫ്വെയര് ചേര്ക്കേണ്ടിവരുന്നു. ബ്രൌസറില് റെണ്ടറിംഗ് എഞ്ചിന് എന്ന സോഫ്റ്റ്വെയര് ഇല്ലെങ്കില് നിങ്ങള് കോ, തൌ എന്നൊക്കെ കോ, തൌ എന്നാവും കാണുക.
ഇപ്പോഴുള്ള തമിഴ് യൂണീക്കോഡ് ചാര്ട്ട് അവഗണിച്ച് പുതിയ തമിഴ് ചാര്ട്ട് തയ്യാറാക്കണമെന്നും അതിനെ മാനകീകരിച്ച 16 ബിറ്റ് ഫോര്മാറ്റാക്കണമെന്നും മേല്പ്പറഞ്ഞ കാരണങ്ങളെ ഉദ്ധരിച്ച് തനിത്തമിഴ് പക്ഷക്കാര് വാദിക്കുന്നു. ഓരോ തമിഴ് അക്ഷരത്തിനും നേരിട്ടുള്ള എന്കോഡിംഗ് നല്കണമെന്നാണ് ഇവരുടെ ആവശ്യം.
എന്നാല്, യൂണീക്കോഡിന്റെ രീതികള് മാനകീകരിക്കുന്ന യൂണീക്കോഡ് കണ്സോര്ഷ്യം ഇത് അംഗീകരിക്കുന്നില്ല. ഇന്ത്യന് ഭാഷകള്ക്കെല്ലാം സ്വരാക്ഷരങ്ങള്, വ്യജ്ഞനാക്ഷരങ്ങള്, സ്വരചിഹ്നങ്ങള് എന്നിവ മാത്രം മതിയെന്നും സ്വര-വ്യജ്ഞന സമന്വയങ്ങളും കൂട്ടക്ഷരങ്ങളും വകഭേദങ്ങള് ആണെന്നും അതുകൊണ്ട് പ്രത്യേകം പ്രത്യേകം ഇടം അനുവദിക്കില്ലെന്നും കണ്സോര്ഷ്യം ശഠിക്കുന്നു.
കണ്സോര്ഷ്യത്തിന്റെ ഈ ശാഠ്യം മറ്റുള്ള ഇന്ത്യന് ഭാഷകള്ക്ക് അനുയോജ്യമാണ്. Its statement does apply to other languages in India. ഇന്ത്യന് ഭാഷകളില് ഫോണ്ടും വേര്ഡ് പ്രോസസ്സിംഗ് ഉപകരണങ്ങളും തയ്യാറാക്കുന്ന കമ്പനിയായ മോഡുലര് ഇന്ഫോടെക്കിന്റെ (ശ്രീലിപി ഇവരുടേതാണ്) ഉടമ, എം എന് കൂപ്പര് യോഗത്തില് പങ്കെടുക്കാന് എത്തിയിരുന്നു. കൂപ്പറിന്റെ അഭിപ്രായത്തില് പുതിയ 16 ബിറ്റുകാരുടെ വാദം തമിഴിന് നല്ലതായിരിക്കും എന്നാല് ഹിന്ദിക്ക് അനുയോജ്യമല്ല. കണക്ക് കൂട്ടിനോക്കിയാല് ഹിന്ദിയില് അയ്യായിരത്തോളം അക്ഷരചിഹ്നങ്ങള് ഉണ്ട്. എന്നാലാവട്ടെ തമിഴില് വെറും മുന്നൂറും. ബംഗാളി ഭാഷയില് അക്ഷരചിഹ്നങ്ങളുടെ എണ്ണം വളരെ കൂടുതലാണ്. “സാമ്പാര്” (ജാങ്കിരി എന്നാണ് സെന്തില് ഉപയോഗിച്ചിരിക്കുന്നത്) ലിപികളായ തെലുങ്ക്, കന്നഡ, തമിഴും സംസ്കൃതവും കലര്ന്ന മലയാളം എന്നീ ഭാഷകളിലും ഒരുപാട് കൂട്ടക്ഷരങ്ങള് ഉണ്ട്.
ഇതെല്ലാം പുതിയ 16 ബിറ്റുകാരുടെ വാദം.
ഇനി പഴയ 16 ബിറ്റ് യൂണീക്കോഡ് വാദികള് പറയുന്നത്: ടേന് പക്ഷക്കാര് പറയുന്നത് യൂണീക്കോഡ് കണ്സോര്ഷ്യം ഒരിക്കലും അംഗീകരിക്കില്ല. അടിസ്ഥാന അക്ഷരങ്ങള്ക്കുള്ള ഇടം മാത്രം നമുക്ക് മതി. നമ്മള് മറിച്ച് വാദിച്ചാല് മൊത്തം ഇന്ത്യന് മൊഴികളില് ഇതൊരു ഭൂകമ്പമാവും. ഇനിയും കാരണമുണ്ട്. രണ്ടായിരം തൊട്ട് തമിഴില് യൂണീക്കോഡ് അടിസ്ഥാനമാക്കി ഒരുപാട് സോഫ്റ്റ്വെയര് ഉണ്ടായിട്ടുണ്ട്. ഓപ്പറേറ്റിംഗ് സിസ്റ്റം സഹായവും ഇപ്പോള് തമിഴിനുണ്ട്. ഈ സാഹചര്യത്തില് തമിഴ് യൂണീക്കോഡ് മാറ്റുക എന്നത് അസാധ്യമാണ്.
പഴയ യൂണീക്കോഡ് പക്ഷക്കാരെ സ്റ്റാറ്റസ് ക്വോയിസ്റ്റുകള് എന്ന് കരുതരുത്. കാരണം, മൈക്രോസോഫ്റ്റടക്കം പല സോഫ്റ്റ്വെയര് കമ്പനികളും കോടിക്കണക്കിന് രൂപാ ചെലവഴിച്ച് ഇപ്പോഴുള്ള യൂണീക്കോഡ് വ്യവസ്ഥയ്ക്ക് അനുസൃതമായാണ് ഭാഷാ സോഫ്റ്റ്വെയര് വികസിപ്പിച്ചെടുത്തിട്ടുള്ളത്. ഉദാഹരണത്തിന് നോക്കിയാ സെല്ഫോണില് ഇപ്പോള് തമിഴ് തെളിയുന്നത് ഇപ്പോഴുള്ള യൂണീക്കോഡ് വ്യവസ്ഥയ്ക്ക് അനുസരിച്ചാണ്.
തമിഴ് മറ്റ് ഇന്ത്യന് ലിപികളെ പോലെ അല്ല എന്ന് വാദിക്കരുത്. ഇങ്ങനെ വാദിച്ചാല് ഇന്ത്യന് ഭാഷകള്ക്കായി ഐടി കമ്പനികള് വികസിപ്പിച്ചെടുക്കുന്ന സൊലൂഷനുകളില് നിന്ന് തമിഴ് ഒറ്റപ്പെടും, തമിഴ് അടിസ്ഥാനമാക്കിയുള്ള സോഫ്റ്റ്വെയര് വികസനവും നില്ക്കും.
ഇപ്പോള് ഉള്ള അവസ്ഥയില് എന്തെങ്കിലും പ്രശ്നമുള്ളതായി തോന്നുന്നില്ല.
(ബാക്കി ഭാഗം 2 ല്)
സെപ്റ്റംബര് 11, 2007 at 5:44 am
മലയാളത്തില് നടക്കുന്ന യൂണീക്കോഡ് ചര്ച്ച പോലും എനിക്ക് മനസ്സിലായിട്ടില്ല. എനിക്ക് നന്നായി മലയാളം യൂണീക്കോഡ് ടൈപ്പുചെയ്യാനും വായിക്കാനും പറ്റുന്നുണ്ട്. ഇതൊക്കെ എല്ലാര്ക്കും ചെയ്യാന് പറ്റുന്നുണ്ടെന്ന് കരുതുന്നു. പിന്നെ എന്തിനാണ് വിവാദങ്ങള്? വിശദീകരിക്കുമോ? പതിനഞ്ചിന് നടക്കുന്ന സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിംഗ് സമ്മേളനത്തിന് നാട്ടില് പോവുന്നുണ്ടോ?
സെപ്റ്റംബര് 11, 2007 at 6:33 am
വിനയന്, മലയാളത്തിലെ ചില്ലക്ഷരങ്ങള്ക്ക് സ്വന്തമായി സ്ഥാനം കൊടുക്കണമെന്ന് വാദിയ്ക്കുന്ന ചിലരും (അതിനവര് പറയുന്ന കാരണം ജിമെയിലിലുപയോഗിച്ചിട്ടുള്ളതു പോലുള്ള ചില സോഫ്റ്റുവെയറുകള് ഇപ്പോള് ചില്ലക്ഷരങ്ങള്ക്കുപയോഗിയ്ക്കുന്ന യൂണികോഡിലെ ചില പ്രത്യേകാക്ഷരങ്ങളെ ഒഴിവാക്കും എന്നതാണ്), ഇപ്പോളൊരു പ്രശ്നവുമില്ലാതെ (വിനയന് തന്നെ സമ്മതിയ്ക്കുന്നതു പോലെ) തന്നെ ചില്ലക്ഷരങ്ങളുപയോഗിയ്ക്കാമെന്നും വീണ്ടുമൊരു മാറ്റം കൂടുതല് പ്രശ്നങ്ങളാണുണ്ടാക്കാന് (കൂട്ടക്ഷരങ്ങളെ പിരിച്ചെഴുതാനുപയോഗിയ്ക്കുന്ന പ്രത്യേകാക്ഷരത്തിനും ഇതേ പ്രശ്നമുണ്ടെങ്കിലും ചില്ലക്ഷരങ്ങള്ക്ക് പ്രത്യേക സ്ഥാനം വേണമെന്ന് വാദിയ്ക്കുന്നവര് ഈ കാര്യത്തില് മൌനം പാലിയ്ക്കുകയാണ്) പോകുന്നതെന്നും വാദിയ്ക്കുന്നവര് തമ്മിലാണ് തര്ക്കം. പതിനഞ്ചിന് നടക്കുന്ന സമ്മേളനത്തിന് വന്നാല് കൂടുതല് മനസ്സിലാക്കാം. ബെന്നിയും വരാമെന്ന് പറഞ്ഞിട്ടുണ്ട്.
സൂരേഷിതിനെക്കുറിച്ച് വളരെ ലളിതമായും വിശദമായും വിവരിച്ചിട്ടുണ്ട്.
http://surumablog.blogspot.com/
ഏപ്രില് 30, 2008 at 11:02 pm
സ്വന്തം ഭാഷയെക്കുറിച്ച് ആഴമായി ചിന്തിച്ച്, റ്റെക്നോളജിയെ അതിനായി മെരുക്കിയെടുക്കാന് ശ്രമിക്കുന്നതു കാണുന്നതില് വളരെ സന്തോഷം.
പതുക്കെയാണെങ്കിലും ഇതുപോലെയുള്ള മാറ്റങ്ങള് അനിവാര്യം തന്നെ. പലപ്പോഴും മാറ്റത്തിന്റെ ഗുണം മാറ്റം വന്നു കഴിഞ്ഞേ നമ്മളറിയൂ.
ബെന്നി ഈ വാര്ത്ത പങ്കു വെച്ചതില് സന്തോഷം.