অর্ধ-অজ্ঞতার কাজ চালানো জ্ঞান : জৈবতথ্য সারিবদ্ধকরণ

Theory of partial ignorance

আমার বায়োইনফরমেটিক্স শেখা শুরু হয় Bio-Bio-1 সংগঠনে।  বাংলাদেশে তথ্যপ্রযুক্তির একজন গুরু ও উদ্যোক্তা ফখরুজ জামান ভাই সংগঠনটি ২০০৯ সালে শুরু করেন। আমি বায়ো-বায়ো-১ সংগঠনের পাঠচক্রে অংশ নেয়া শুরু করি ২০১২ সালের ডিসেম্বর থেকে। বায়োইনফরমেটিক্স শেখার শুরুতে সবাই যে সমস্যায় পড়েন তা হলো এর multi-disciplinary প্রকৃতি নিয়ে। বায়োইনফরমেটিক্স বুঝে কাজ করতে গেলে জীববিজ্ঞান, কম্পিউটারবিদ্যা ও পরিসংখ্যানের জ্ঞান আবশ্যক। পাঠচক্রে যারা আসতেন, তারা একেকজন একেক বিষয়ের পড়াশুনায় দক্ষ। কিন্তু অন্যান্য বিষয়ে তারা একেবারেই আনাড়ী। নিজের বিষয় ছাড়া অন্যান্য বিষয়ের অপরিচিত পরিভাষার মুখোমুখি হয়ে সবারই সমস্যা হতো। তখন জামান ভাই আমাদের এ সমস্যা সামাল দিতে একটি কৌশল শেখান – তা হলো Theory of partial ignorance!

অর্ধ-অজ্ঞতা দিয়ে কাজ চালাও

সংক্ষেপে, Theory of partial ignorance-এর মূল বক্তব্য হলো আমরা যখন শেখা শুরু করি, তখন অনেক কিছুই অবোধ্য ও অপরিচিত লাগবে। আমি জীববিজ্ঞানের ছাত্র, বায়োইনফরমেটিক্সের কোন পদ্ধতি বুঝতে গেলে হয়তো কম্পিউটারবিদ্যা বা পরিসংখ্যানের এমন সব তত্ত্ব চলে আসবে যা আমার বর্তমানে আয়ত্বের বাইরে। সে জন্য কি বসে থাকলে হবে? আমরা কি আবার কম্পিউটারবিদ্যা বা পরিসংখ্যান পড়ে আসবো? বলা বাহুল্য, নতুন করে গোড়া থেকে কম্পিউটারবিদ্যা বা পরিসংখ্যান পড়তে গেলে কমপক্ষে একবছর তো লাগবেই। এভাবে আর হয়তো বায়োইনফরমেটিক্স শেখা শুরুই করা হবে না। জামান ভাই আমাদের শেখালেন, নতুন কিছু শিখতে গেলে যদি অপরিচিত অবোধ্য কোন বিষয়ে আটকে যাই, সেটা আপাতত বাদ দিয়ে এগিয়ে যাও। না হয় শেখার মধ্যে কিছু গোঁজামিল থাকবে আপাতত। কিন্তু ঐ বিষয়ের মূল ধারণাটা অন্তত পাওয়া যাবে। সব চাইতে বড় বিষয়, খুঁটিনাটি অনেক কিছু না বুঝলেও ঐ ধারণা নিয়ে কাজ শুরু করা যাবে। একবার যদি কেউ কাজ শুরু করে ফেলেন, তাহলে কাজ করতে করতে জানার গোঁজামিলগুলো ভালোভাবে শিখে ফেলা যাবে। https://i0.wp.com/images-na.ssl-images-amazon.com/images/I/51mnEheN3yL._SX346_BO1,204,203,200_.jpg?resize=225%2C323&ssl=1

অর্ধঅজ্ঞতার সাহসকে পুঁজি করে আমরা আনকোরা কয়েকজন ঠিক করলাম বায়োইনফরমেটিক্সের গোঁড়ার বিষয়গুলো শেখা শুরু করা যাক। প্রাণরসায়ন ও অনুপ্রাণবিজ্ঞান থেকে ছিলো আরিফ আশরাফ ও কম্পিউটারবিদ্যা থেকে ছিলো রবিউল ইসলাম ভাই। বায়োইনফরমেটিক্সের গুরু সাদ্দাম হোসেন ভাই আমাদের দুইটা বই দিয়েছিলেন, একটা কালো-লাল মলাটের, অন্যটা নীল! কালো-লাল বইটা ছিলো  Biological Sequence Analysis। এটা বায়োইনফরমেটিক্সের নিও-ক্লাসিক বই ধরা হয়। ডারবিন ও সহলেখকবৃন্দ পরিসংখ্যানের সাম্ভাব্যতার তত্ত্ব দিয়ে বায়োইনফরমেটিক্সের গোড়ার বিষয়গুলো ব্যাখ্যা করেছেন।  নীল-মলাটের অন্যটি ছিলো পাভেল পেভজনারের Bioinformatics Algorithm। দুটোই বায়োইনফরমেটিক্সের খুব বিখ্যাত বই।

https://i2.wp.com/mitpress.mit.edu/sites/default/files/9780262101066.jpg?resize=198%2C254&ssl=1

আমরা ডারবিনের বইটা দিয়ে শুরু করি। আমি আর অপু জীববিজ্ঞানের, রবিউল ভাই কম্পিউটারবিজ্ঞানে। কিন্তু পরিসংখ্যানের কেউই ছিলো না। আর পরিসংখ্যান আমরা খুব একটা ভালো বুঝতামও না। তাও জামান ভাইয়ের অর্ধ-অজ্ঞতার সাহসকে পুঁজি করে আমরা বইটা পড়া শুরু করি আর প্রতিটা লাইনে ধাক্কা খাই। ডারবিনের এ বইটার প্রতিটা লাইন ছিলো অবোধ্য তত্ত্বে ঠাঁসা। যতটা পারি নিজেরা বোঝার চেষ্টা করি। যেটা বুঝি না সেটা বাদ দিয়ে এগিয়ে যাই। এভাবে আমাদের গোঁজামিল দিয়ে বায়োইনফরমেটিক্স বোঝা শুরু হলো। এ শেখার শুরু হয়েছিলো সিকোয়েন্স এলাইনমেন্ট দিয়ে।

জৈবতথ্য সারিবদ্ধকরণ (Sequence Alignment)

বায়োইনফরমেটিক্সেের একদম শুরুর বিষয় হলো সিকোয়েন্স এলাইনমেন্ট বা জৈবতথ্য সারিবদ্ধকরণ। কেউ বায়োইনফরমেটিক্স শেখা শুরু করতে চাইলে বা এ বিষয়ে কাজ করতে চাইলে সারিবদ্ধকরণের প্রক্রিয়া ভালোভাবে বোঝা উচিত। যদিও অধিকাংশ তথ্যবিশ্লেষণের ক্ষেত্রে আমরা বিভিন্ন সফটওয়্যার ব্যবহার করি। কিন্তু এ সফটওয়্যার কোন প্রক্রিয়ায় বিশ্লেষণ করছে এটা না বুঝলে বায়োইনফরমেটিক্সের কাজ মুখস্থ ধরনের হয়ে যায়। শিশুর জন্মের পর যেমন আমরা সুন্দর একটি নাম ঠিক করি, ঠিক তেমনই বায়োইনফরমেটিক্সের যে কোন প্রজেক্টের শুরুই হয় সিকোয়েন্স এলাইনমেন্ট দিয়ে।

শিক্ষক.কম ওয়েবসাইটে বায়ো-বায়ো-১ এর সদস্যরা মিলে আমরা বায়োইনফরমেটিক্স পরিচিতি নামে একটা ছোট কোর্স শুরু করেছিলাম। সেখান থেকে জৈবতথ্য সারিবদ্ধকরণ সম্পর্কে জানা যাক:

আমরা এমনিতেই জৈব ডেটার (biological data) সমুদ্রে হাবুডুবু খাচ্ছি। উপরন্তু প্রতিদিন নূতন নূতন ডেটা তৈরি হচ্ছে। ধরুন, আপনি ল্যাবে কিছু ব্যাকটেরিয়ার ডি.এন.এ সিকুএন্সিং (সিকুয়েন্সিং করা মানে হল, A,T, C, G এই চারটা বর্ণমালা কিভাবে ক্রমসোমে সাজানো আছে সেটা নির্ণয় করা)করেছেন কিন্তু এইগুলো আসলে কোন ধরনের ব্যাকটেরিয়া তা আপনি জানেন না। মানে হল, তাদের পরিচয় আপনি জানেন না। সেটা জানার উপায় হল, যদি সেইগুলোর সিকুয়েন্সকে এমন কিছু ব্যাকটেরিয়ার সিকুয়েন্সের সাথে তুলনা করেন যাদের পরিচয় আমাদের জানা। যাদের পরিচয় আমরা জানি, তাদেরকে আমরা রেফারেন্স হিসেবে ধরে নিচ্ছি। ধরুন,

রেফারেন্স সিকুয়েন্সঃ  “ATGCGTACGTGTCATACTGACGTACGTTGAGTA”

ল্যাব থেকে পাওয়া একটা সিকুয়েন্সঃ   ATGCGAACCATTCATACACGCTT

উপরের গল্পের মত এখন মিলিয়ে দেখতে হবে, কোন মিল আছে নাকি? যদি মিল থাকলে, তবে কতটুকু মিল আছে, কোন কোন জায়গায় মিল আছে। মিল খুঁজে বের করার প্রক্রিয়াকে ক্রম প্রান্তিকরণ (Sequence Alignment ) বলা হয়। সুতরাং, ক্রম প্রান্তিকরণ (Sequence Alignment ) হচ্ছে একটা প্রক্রিয়া যার মাধ্যমে ডি.এন.এ বা আর.এন.এ বা প্রোটিনের দুই বা ততোধিক ক্রম বা সিকুয়েন্স (sequence) এর মধ্যে কোন মিল/সাদৃশ্য আছে কিনা সেটা দেখা হয়। ক্রমান্বয়ে সাজানোর উদ্দেশ্য হল সিকুয়েন্সগুলোর মধ্যে গাঠনিক (structural) বা কার্যগত (functional) মিল আছে কিনা।

“খালি হাতে এলাইনমেন্ট”

একজন বায়োইনফরমেটিশিয়ান হয়তো বলবেন জৈবতথ্য সারিবদ্ধকরণের প্রথম শুরু হয় ১৯৭০ সালে। কিন্তু প্রোটিনের অনুক্রম বের করা শুরু হয় এর থেকে বিশ বছর আগেই। ১৯৫০-র দশকের মাঝামাঝি সম্পর্কিত জীবের প্রোটিন অনুক্রমের তুলনা শুরু হয়। বলা বাহুল্য, তখন এখনকার মতো চমৎকার কম্পিউটার ছিলো না, আর দুইটি অনুক্রমকে কিভাবে  সাজালে তাদের মধ্যে সর্বোচ্চ মিল খুঁজে পাওয়া যায় সে প্রয়োজনও ছিলো অনুপস্থিত। অধিকাংশ গবেষণাপত্রে অনুক্রমগুলোকে পাশাপাশি রেখে দেয়া হতো কোন তুলনা ছাড়াই। এমিনো এসিডের দুইটি অনুক্রমকে পাশাপাশি কিভাবে সাজালে এদের মধ্যে কোথায় মিল বা অমিল সর্বোচ্চ হবে এ ধরনের গবেষণা শুরু হয় ১৯৬০-র দশকের শুরু দিকে। বিজ্ঞানীরা দুইটি অনুক্রমের সারিবদ্ধকরণ তখন খালি হাতে চোখের আন্দাজেই করতেন।

জৈবতথ্যের (বিশেষ করে প্রোটিন) অনুক্রম বের করার প্রক্রিয়া তখন মাত্র শৈশবে ছিলো। এ প্রক্রিয়াও ছিলো অনেক ঝামেলাপূর্ণ ও জটিল। তাই জৈবতথ্য জমা হতো অনেক ধীরে ধীরে, দীর্ঘ সময় ধরে।  তবে ১৯৬০-র ও ১৯৭০-র দশকে আরএনএ ও ডিএনএ অনুক্রম বের করার প্রযুক্তি চলে আসলে জৈবতথ্য দ্রুতগতিতে জমা হওয়া শুরু করে। সমসাময়িক সময়ে বিজ্ঞানীরা বুঝতে আরম্ভ করলেন যে  জৈবতথ্যের দুইটি অনুক্রমকে অনেক ভাবেই বিন্যস্ত করা যায়। কিভাবে দুইটি জৈবতথ্য অনুক্রমকে বিন্যস্ত করলে তাদের মধ্যকার পার্থক্য সবচেয় কম হবে ও মিল বেশি হবে তার অনুসন্ধান শুরু হয়ে যায় এসময়েই। ঠিক এই রকম একটা প্রেক্ষাপটে নিডলম্যান ও উঞ্চ তাদের বিখ্যাত ডাইনামিক প্রোগ্রামিং ভিত্তিক প্রক্রিয়া প্রস্তাব করেন যাতে দুইটি অনুক্রমের মধ্যের অসংখ্য বিন্যাস থেকে খুব দ্রুত সন্তোষজনক একটি সাজ পাওয়া যায়।

শেষকথা

জৈবতথ্যবিজ্ঞানের কাজ করার সময় সিকোয়েন্স এলাইনমেন্টের প্রক্রিয়া বোঝাটা গুরুত্বপূর্ণ মনে করি। আসলে বিভিন্ন প্রজেক্টে আমরা বিভিন্ন সফটওয়্যার ব্যবহার করি, কিংবা বিভিন্ন প্রোগ্রামকে অজস্র উপাত্ত নিয়ে কাজ করার জন্য ছোট ছোট প্রোগ্রাম লেখি। কিন্তু এ সফটওয়্যারগুলো বিভিন্ন বায়োইনফরমেটিক্সের এলগরিদম কিভাবে বাস্তবায়ন করছে সে অন্তর্জ্ঞান অনেক সাহায্য করে। বিশেষ করে প্রজেক্টের অজস্র trouble-shooting এর জন্য সফটওয়্যার আসলে কি করছে তার ধারণা রাখাটা জরুরী।

 

তথ্যসূত্র:

[১] The early history of sequence alignment

বাংলায় জৈবতথ্যবিজ্ঞান চলবে কি?

বিজ্ঞানে বিশেষায়িত ইংরেজী শব্দের পরিভাষা করা উচিত কি না তা নিয়ে বিস্তর বিতর্ক রয়েছে। বাংলাদেশে প্রধানমত হলো, না, পরিভাষা যেমন আছে তেমনই থাক, উচ্চতর শিক্ষা ইংরেজী ভাষাতেই থাকুক। চার বছরের স্নাতকের পড়াশুনায় যেসব শব্দ ইংরেজীতে অভ্যস্ত হয়েছি তাকে বাংলা করার কি দরকার? হাস্যকর শোনাবে তো।

আপাতত এই বিতর্ককে পাশ কাটিয়ে বায়োইনফরমেটিক্সকে বাংলায় জৈবতথ্যবিজ্ঞান হিসেবেই লিখি। অন্তত এই ব্লগে আমি এতটুকু স্বৈরাচারী হতেই পারি।

অণুজীববিজ্ঞান বিষয়ে সম্মান তৃতীয় বর্ষ পাঠরত অবস্থায় থেকে দেখেছি বায়োইনফরমেটিক্স নামটি অনেক জীববিজ্ঞানের শিক্ষার্থীর কাছেই আগ্রহ জাগিয়ে আসছে। নোয়াখালী বিজ্ঞান প্রযুক্তি বিশ্ববিদ্যালয়ে শিক্ষকতার সময়ে দেখেছি শিক্ষার্থীদের মধ্যে জৈবতথ্যবিজ্ঞানের প্রতি আকর্ষণের শেষ নেই। এই আকর্ষণের কারণ কতটুকু ন্যায্য, উৎস কতটা যথার্থ সে নিয়ে অবশ্য আমার সন্দেহ রয়েছে।

কেন বলছি এ কথা? কারণ যত যাই হোক, জৈবতথ্যবিজ্ঞানের মূল লক্ষ্যই হলো জীববিজ্ঞান গবেষণার বিভিন্ন প্রশ্ন সমাধানে অজস্র উপাত্তের যথার্থ বিশ্লেষণের জন্য প্রয়োজনীয় পদ্ধতি তৈরি ও প্রয়োগ। এসব পদ্ধতি তৈরির জন্য গণিত ও পরিসংখ্যানের সাহায্য নেয়া হয়। সাহায্য নেয়া হয় গণকবিদ্যা ও গণকযন্ত্রের। জটিল প্রোগ্রাম লেখেন গবেষকরা, ব্যবহার করেন। এই জটিল প্রক্রিয়া, পদ্ধতি, উপাত্ত বিশ্লেষণ উদ্ভুত মাথা-ঘুরানো বিভিন্ন চিত্র একজন নবীন গবেষককে মুগ্ধভাবে আকর্ষণ করতেই পারে। তবে শেষ বিচারে, এসব কিছুর শুরু কিন্তু জীববিজ্ঞান গবেষণাকে সাহায্য করার জন্য। জৈবতথ্যবিজ্ঞান জীববিজ্ঞানের সহায়তাকারী যন্ত্র মাত্র।

ভুল বুঝবেন না। আমি জৈবতথ্যবিজ্ঞানের সমালোচনা করছি না। আমি শুধু সতর্ক করছি। আমরা যাতে ঘোড়ার আগে গাড়ি জুঁতে না দেই। জৈবতথ্যবিজ্ঞান জীববিজ্ঞানকে বদলে দিয়েছে এ বিষয়ে কোন সন্দেহ নেই। শুধু জটিল প্রযুক্তি-প্রক্রিয়া-পদ্ধতির অলি-গলিতে মোহাবিষ্টের মতো হারিয়ে গিয়ে গবেষণার কারণ হারিয়ে না ফেলি তার কথাই বলছি।

জৈবতথ্যবিজ্ঞানের জ্বরে আক্রান্ত অনেকের ভিড়ে আমিও ছিলাম, আছি। অন্যান্য জ্বরাক্রান্ত আগ্রহীদের সাথে নিজের অভিজ্ঞতা ও ভাবনা-চিন্তা আলাপনের জন্য এই ব্লগের উদ্ভব। স্বাগত আপনাকে।