ಕನ್ನಡಕ್ಕೆ ಬೇಕು ಕನ್ನಡದ್ದೇ ಒಸಿಆರ್

ಕಳೆದ ಗುರುವಾರ (ನವೆಂಬರ್ ೮ರಂದು) ಯುವ ಪುರವಣಿಯಲ್ಲಿ ಪ್ರಕಟವಾದ ದೀಪಕ್‌ ಕರಾಡೆ ಅವರ, ‘ಕನ್ನಡ, ಇರಲಿ ತಂತ್ರಜ್ಞಾನದ ಸಂಗಡ’ ಲೇಖನ ಕನ್ನಡದ ಭಾಷೆಯ ದೃಷ್ಟಿಯಿಂದ ತಾಂತ್ರಿಕವಾಗಿ ಆಗುತ್ತಿರುವ ಮಹತ್ವದ ಬೆಳವಣಿಗೆಯೊಂದನ್ನು ಪರಿಚಯಿಸಿತು. ಇಂಗ್ಲಿಷ್‌ನೊಂದಿಗೆ ಗುದ್ದಾಡಬೇಕಾದ ಸ್ಥಿತಿ ಇರುವ ಪ್ರಾದೇಶಿಕ ಭಾಷೆಯೊಂದನ್ನು ಹೆಚ್ಚು ಹೆಚ್ಚು ಸಶಕ್ತಗೊಳಿಸುವ ನಿಟ್ಟಿನಲ್ಲಿ ತಂತ್ರಜ್ಞಾನವನ್ನು ದುಡಿಸಿಕೊಳ್ಳುವಂತಾಗುತ್ತಿರುವುದು ನಿಜಕ್ಕೂ ಶ್ಲಾಘನೀಯ. ದೀಪಕ್‌ ಅವರು ಈ ಲೇಖನದ ಕಡೆಯಲ್ಲಿ ಕನ್ನಡದಲ್ಲಿ ಒಸಿಆರ್ ತಂತ್ರಜ್ಞಾನಕ್ಕೆ ಸಂಬಂಧಿಸಿದಂತೆ ಯಾವುದೇ ಬೆಳವಣಿಗೆಯಾಗಿಲ್ಲ ಎಂದು ಪ್ರಸ್ತಾಪಿಸಿದ್ದರು. ಆದರೆ ವಾಸ್ತವದಲ್ಲಿ ಸಾಕಷ್ಟು ಮಹತ್ವದ ಪ್ರಯತ್ನಗಳಾಗಿವೆ. ಸುಮಾರು ಹತ್ತು ವರ್ಷಗಳ ಅವಧಿಯಲ್ಲಿ ಈ ಕುರಿತು ಚರ್ಚೆಯಿಂದ ಆರಂಭವಾಗಿ, ನಾಲ್ಕಾರು ಸಾಫ್ಟ್‌ವೇರ್‌ವರೆಗೆ ಮಹತ್ವದ ಪ್ರಯತ್ನಗಳಾಗಿವೆ.
ಏನಿದು ಒಸಿಆರ್‌?
ನಿಮ್ಮ ಬಳಿ ಯಾವುದೋ ಮುದ್ರಿತ ಪ್ರತಿ ಇದೆ. ಹತ್ತಾರು ಪುಟಗಳಿರುವುದರಿಂದ ಅದರಲ್ಲಿರುವ ಬರಹವನ್ನು ನೀವು ಬಳಸಿಕೊಳ್ಳಬೇಕಾಗಿರುವುದರಿಂದ ಅದನ್ನು ಪುನಃ ಟೈಪಿಸಬೇಕು. ಆದರೆ ಅಷ್ಟು ಸಮಯವಿಲ್ಲ. ಅಂಥ ಹೊತ್ತಲ್ಲಿ ನಿಮಗೆ ಈ ಒಸಿಆರ್‌ ನೆರವಾಗುತ್ತದೆ. ಒಸಿಆರ್‌ ಅಂದರೆ ಆಪ್ಟಿಕಲ್‌ ಕ್ಯಾರೆಕ್ಟರ್‌ ರೆಕಗ್ನಿಷನ್‌. ಚಿತ್ರ ರೂಪದಲ್ಲಿರುವ ಮುದ್ರಿತ ಅಕ್ಷರಗಳನ್ನು ಸೆರೆಹಿಡಿದು ಗುರುತಿಸಿ ಅದನ್ನು ಮತ್ತೆ ನಿಮ್ಮ ಬಳಕೆಗೆ ಅನುಕೂಲವಾಗುವಂತೆ ಪರಿವರ್ತಿಸಿಕೊಡುವ ಕೆಲಸವನ್ನು ಈ ಒಸಿಆರ್‌ ಮಾಡುತ್ತದೆ. ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿ ಇದು ದಶಕಗಳಿಂದ ಬಳಕೆಯಾಗುತ್ತಿದೆ. ಪ್ರಾದೇಶಿಕ ಭಾಷೆಗಳಲ್ಲಿ ಇದು ಸಾಧ್ಯವಾಗುತ್ತಿರುವುದು ಇತ್ತೀಚೆಗೆ.
ಕನ್ನಡದಲ್ಲಿ ಒಸಿಆರ್‌ ಇದೆಯೇ?
ಕನ್ನಡದ ಒಸಿಆರ್ ತಂತ್ರಜ್ಞಾನದ ಸಂಶೋಧನೆ ಮತ್ತು ಅಭಿವೃದ್ಧಿ ಕೆಲಸಗಳಿಗೆ ಸುಮಾರು ಹದಿನಾರು ವರ್ಷಗಳ ಇತಿಹಾಸವಿದೆ. ಭಾರತೀಯ ವಿಜ್ಞಾನ ಸಂಸ್ಥೆಯ ಎಂಜಿನಿಯರಿಂಗ್ ವಿಭಾಗದಲ್ಲಿ ಸಂಶೋಧನೆ ನಡೆಸುತ್ತಿದ್ದ ಬಿ ವಿಜಯ್‌ ಕುಮಾರ್ ಮತ್ತು ಎ ಜಿ ರಾಮಕೃಷ್ಣ ಒಸಿಆರ್ ಸಾಫ್ಟ್‌ವೇರ್‌ ಅನ್ನು ಅಭಿವೃದ್ಧಿ ಪಡಿಸಿದ್ದರು. ನಂತರದಲ್ಲಿ ಹಲವು ಪ್ರಯತ್ನಗಳು ನಡೆದಿವೆ. ಒಂದೆಡೆ ಸಾಫ್ಟ್‌ವೇರ್‌ಗಳು ಅಭಿವೃದ್ಧಿಯಾಗುತ್ತಿರುವಾಗಲೇ, ಆನ್‌ಲೈನ್‌ನಲ್ಲಿಯೇ ಮುದ್ರಿತ ಪುಟಗಳನ್ನು ಅಕ್ಷರಗಳನ್ನಾಗಿ ಪರಿವರ್ತಿಸಿಕೊಡುವ ವೆಬ್‌ಸೈಟ್‌ಗಳು ಆರಂಭವಾದವು.
ಕಲೈಡೋ ಸಾಫ್ಟ್‌ವೇರ್‌ನ ಪ್ರಕಾಶ್‌ ಅವರು ಕ್ಯಾನ್‌ಸ್ಕ್ಯಾನ್‌ ಹೆಸರಿನ ಸಾಫ್ಟ್‌ವೇರ್‌ ಪರಿಚಯಿಸಿದರು. ಸಿ ಎಸ್‌ ಯೋಗಾನಂದ ಅವರು ೨೦೧೧ರಲ್ಲಿ ಒಸಿಆರ್‌ ಸಾಫ್ಟ್‌ವೇರ್‌ವನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದರು. ಫ್ರೀ ಒಸಿಆರ್‌ ಉಚಿತವಾಗಿ ಲಭ್ಯವಿರುವ ಮತ್ತೊಂದು ಸಾಫ್ಟ್‌ವೇರ್‌. ಇಂಡಿಯನ್‌ ಲಾಂಗ್ವೆಜ್‌ ಟೆಕ್ನಾಲಜಿ ಫ್ರೊಲಿಫರೇಷನ್ ಅಂಡ್ ಡಿಪ್ಲಾಯ್‌ಮೆಂಟ್‌ ಸೆಂಟರ್‌ ಕೂಡ ಇ ಅಕ್ಷರಯಾನ್ ಹೆಸರಿನ ಕನ್ನಡ ಒಸಿಆರ್ ಸಾಫ್ಟ್‌ವೇರ್‌ ಪಡಿಸಿದೆ. ಇದೂ ಉಚಿತವಾಗಿ ಲಭ್ಯವಿದೆ. ಏಕಕಾಲಕ್ಕೆ ಐದು ಪುಟಗಳನ್ನು ಒಸಿಆರ್ ಮಾಡಬಹುದಾದ ಸಾಫ್ಟ್‌ವೇರ್‌ ಇದು. ಇವುಗಳ ಜೊತೆಗೆ ಈಗ ಈ ಪಟ್ಟಿಗೆ ಹೊಸ ಸೇರ್ಪಡೆ ಟೆಸಾರಾಕ್ಟ್‌. ಇದು ಗೂಗಲ್‌ ಸಂಸ್ಥೆ ಅಭಿವೃದ್ಧಿ ಪಡಿಸಿದ ಒಸಿಆರ್‌ ಸಾಫ್ಟ್‌ವೇರ್‌.


ಇನ್ನು ಕೆಲವು ವೆಬ್‌ಸೈಟ್‌ಗಳು ಈ ಸೇವೆಯನ್ನು ಒದಗಿಸುತ್ತಿವೆ. http://i2ocr.com/ , www.newocr.com , https://www.aconvert.com/document/ocr/ ಅವುಗಳಲ್ಲಿ ಮುಖ್ಯವಾದವು.

ಇನ್ನಷ್ಟು ಸಮರ್ಥವಾಗಿಸಬೇಕಾಗಿದೆ
ಕನ್ನಡದಲ್ಲಿ ಅನೇಕ ಶ್ರೇಷ್ಠ ಕೃತಿಗಳು ಈಗ ಅಚ್ಚಿನಲ್ಲಿಲ್ಲ. ಹಳೆಯ ಪ್ರತಿಗಳು ಜೀರ್ಣಾವಸ್ಥೆ ತಲುಪಿವೆ. ಅವುಗಳನ್ನು ಮರುಮುದ್ರಣ ಮಾಡುವುದಕ್ಕೆ ಅನುಸರಿಸುತ್ತಿರುವ ಮಾರ್ಗ ಸ್ಕ್ಯಾನ್‌ ಮಾಡಿ ಮುದ್ರಣಕ್ಕೆ ಬೇಕಾದಂತೆ ಮಾರ್ಪಾಡು ಮಾಡಿಕೊಳ್ಳುವುದು. ತಿದ್ದುಪಡಿ, ಸೇರ್ಪಡೆಗಳಿಗೆ ಅವಕಾಶ ಇಲ್ಲವೇ ಇಲ್ಲ. ಒಸಿಆರ್‌ ಅಂಥ ಕಾರ್ಯದಲ್ಲಿ ನೆರವಾಗುತ್ತದೆ. ಆದರೆ ಸದ್ಯ ಕನ್ನಡದಲ್ಲಿ ಲಭ್ಯವಿರುವ ಒಸಿಆರ್ ತಂತ್ರಜ್ಞಾನ ಭಾರಿ ಪ್ರಮಾಣದಲ್ಲಿ ಪಠ್ಯವನ್ನು ಮುದ್ರಿತ ರೂಪದಲ್ಲಿ ಸಂಪಾದಿಸಬಹುದಾದ ರೂಪಕ್ಕೆ ಪರಿವರ್ತಿಸುವುದು ಅಥವಾ ರೂಪಾಂತರಿಸುವುದು ಸಮರ್ಥವಾಗಿ ಸಾಧ್ಯವಾಗುತ್ತಿಲ್ಲ. ಟೆಸಾರಾಕ್ಟ್‌ ಏಕಕಾಲಕ್ಕೆ ಹಲವು ಪುಟಗಳನ್ನು ಒಸಿಆರ್ ಮಾಡಿಕೊಡುತ್ತದೆ. ಕ್ಯಾನ್‌ ಸ್ಕ್ಯಾನ್‌ ಕೂಡ ಕೊಂಚ ಮಟ್ಟಿಗೆ ನೆರವಾಗುತ್ತದೆ. ಆದರೆ ಈ ಎಲ್ಲ ತಂತ್ರಾಂಶಗಳಲ್ಲೂ ತಾಂತ್ರಿಕ ಪರಿವರ್ತನೆಯ ಬಳಿಕ, ತಿದ್ದು, ಒಪ್ಪ ಮಾಡುವ ಕೆಲಸ ಬಾಗಿರುತ್ತದೆ. ನೇರ ಬಳಸಿಕೊಳ್ಳುವುದಕ್ಕೆ ಅವಕಾಶವೇ ಇಲ್ಲ. ಒತ್ತಕ್ಷರಗಳು, ಚಿಹ್ನೆಗಳು ಪರಿವರ್ತನೆಯ ವೇಳೆ ಕಳೆದು ಹೋಗುವುದರಿಂದ ಪಠ್ಯವನ್ನು ಶುದ್ಧ ಮಾಡುವ ಕೆಲಸವಂತು ಉಳಿಯುತ್ತದೆ. ಇದು ಸಮಯವನ್ನು ಬೇಡುತ್ತದೆ.
ಅದಕ್ಕೆ ಕನ್ನಡ ವರ್ಣಮಾಲೆಯ ಸಂಕೀರ್ಣತೆಯೇ ಕಾರಣ. ಇಂಗ್ಲಿಷ್‌ ಭಾಷೆಯಲ್ಲಿ ೨೬ ಅಕ್ಷರಗಳಿವೆ. ಆದರೆ ಕನ್ನಡದ ವರ್ಣಮಾಲೆ ೪೯ ಅಕ್ಷರಗಳಿವೆ. ಕಾಗುಣಿತಾಕ್ಷರಗಳು ಕೊಂಬು ತಲೆಕಟ್ಟುಗಳಿಂದಾಗಿ ಸಂಕೀರ್ಣವಾಗುತ್ತವೆ. ಒಸಿಆರ್‌ ತನ್ನ ಡಾಟಾ ಬೇಸ್‌ನಲ್ಲಿರುವ ಅಕ್ಷರ ರೂಪಗಳನ್ನು ತಾನು ಸ್ಕ್ಯಾನ್‌ ಮಾಡುತ್ತಿರುವ ಚಿತ್ರದಲ್ಲಿರುವ ಅಕ್ಷರಗಳನ್ನು ಹೋಲಿಸಿ ನೀಡುತ್ತದೆ. ಕನ್ನಡದಲ್ಲಿ ಸಂಕೀರ್ಣವಾದ ಪದಗಳು ಒಸಿಆರ್‌ ಗ್ರಹಿಸಿಕೊಡುವಲ್ಲಿ ಸೋಲುತ್ತಿದೆ. ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿ ಪ್ರತಿ ಅಕ್ಷರವೂ ಸ್ವತಂತ್ರ. ಅದಕ್ಕೆ ಒತ್ತು, ಕೊಂಬು, ತಲೆಕಟ್ಟುಗಳ ಗೊಡವೆ ಇಲ್ಲ. ಕನ್ನಡ ಅಕ್ಷರಗಳಲ್ಲಿರುವ ಈ ಸಂಕೀರ್ಣತೆಯೇ ಪರಿಪೂರ್ಣ ಒಸಿಆರ್‌ ಅಭಿವೃದ್ಧಿಯನ್ನು ನಿಧಾನವಾಗಿಸಿದೆ.
ಆದರೆ ಈ ತಂತ್ರಜ್ಞಾನವನ್ನು ಹೆಚ್ಚು ಹೆಚ್ಚು ಸಮರ್ಥಗೊಳಿಸುವ ನಿಟ್ಟಿನಲ್ಲಿ ಪ್ರಯತ್ನಗಳು ಸಕ್ರಿಯವಾಗಿವೆ. ಭಾಷೆಯ ಬೆಳವಣಿಗೆಯ ದೃಷ್ಟಿಯಿಂದ ಇಂತಹ ತಾಂತ್ರಿಕ ಸಾಧ್ಯತೆಗಳನ್ನು ಹೆಚ್ಚಾಗಬೇಕು ಮತ್ತು ಇರುವ ಸಾಧ್ಯತೆಗಳು ಇನ್ನಷ್ಟು ಸಮರ್ಥವಾಗಬೇಕು.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.