সব LLM-ই AI, কিন্তু সব AI কিন্তু LLM নয়: কৃত্রিম বুদ্ধিমত্তার জগতকে চলুন কাছ থেকে দেখি
ভুমিকা:
আসসালামু আলাইকুম! কেমন আছেন? আশা করি, আল্লাহর রহমতে ভালোই আছেন। আচ্ছা, একটা ব্যাপার কি খেয়াল করেছেন? ইদানিংকালে আমাদের চারপাশের আড্ডায়, খবরের কাগজে, এমনকি চায়ের দোকানেও দুটি শব্দ খুব ঘনঘন শোনা যাচ্ছে—AI (আর্টিফিশিয়াল ইন্টেলিজেন্স) এবং LLM (লার্জ ল্যাঙ্গুয়েজ মডেল)। এই শব্দ দুটি এতটাই জনপ্রিয় হয়েছে যে, অনেকেই মনে করেন দুটো বুঝি একই জিনিস। বিশেষ করে চ্যাটজিপিটি (ChatGPT) বা জেমিনি এআই (Gemini)-এর মতো টুলগুলো ব্যবহার করার পর আমাদের ধারণা হয়েছে, AI মানেই বুঝি এমন কিছু যা আমাদের সাথে কথা বলতে পারে বা আমাদের জন্য লেখালেখি করে দিতে পারে।
কিন্তু এখানেই একটা ছোট্ট কিন্তু মজাদার ভুল বোঝাবুঝি লুকিয়ে আছে। বিষয়টা অনেকটা এমন যে, সব আপেলই ফল, কিন্তু পৃথিবীর সব ফল তো আর আপেল নয়! ঠিক একইভাবে, সব LLM নিঃসন্দেহে AI-এর অংশ, কিন্তু AI-এর বিশাল জগতটা শুধু LLM-এর মধ্যেই সীমাবদ্ধ নয়।
আজকের এই লেখায় আমরা কোনো জটিল সংজ্ঞার মারপ্যাঁচে না গিয়ে, একেবারে সহজ ভাষায়, গল্পের ছলে কৃত্রিম বুদ্ধিমত্তার এই বিশাল জগতের সাথে পরিচিত হব। চলুন, শুরু করা যাক আমাদের আজকের যাত্রা।
মূল সম্পর্কটা কোথায়? AI একটি স্কুল, আর LLM তার একটি বিভাগ মাত্র
ব্যাপারটা সহজে বোঝার জন্য, চলুন আমরা কৃত্রিম বুদ্ধিমত্তা বা AI-কে একটি বিশাল স্কুল বা বিশ্ববিদ্যালয় হিসেবে কল্পনা করি। এই স্কুলে বিভিন্ন বিষয়ে পড়াশোনার জন্য আলাদা আলাদা বিভাগ বা ডিপার্টমেন্ট রয়েছে। যেমন—কোনো বিভাগে ছবি আঁকা শেখানো হয়, কোনো বিভাগে গণিত, আবার কোনো বিভাগে খেলাধুলা।
এই AI নামক স্কুলের সবচেয়ে জনপ্রিয় এবং আলোচিত বিভাগটির নাম হলো 'ভাষা ও সাহিত্য বিভাগ'। আর এই বিভাগের সবচেয়ে মেধাবী ছাত্রছাত্রীই হলো লার্জ ল্যাঙ্গুয়েজ মডেল (LLM)। এদের কাজ হলো মানুষের ভাষা বোঝা, শেখা এবং সেই ভাষার মাধ্যমে নতুন কিছু তৈরি করা। এরা কবিতা লিখতে পারে, গল্প বলতে পারে, আপনার ইমেইলের উত্তর দিতে পারে, এমনকি বিভিন্ন ভাষার মধ্যে অনুবাদও করতে পারে। এক কথায়, ভাষা সংক্রান্ত যাবতীয় কারসাজি এদের নখদর্পণে।
কিন্তু ভাবুন তো, একটা বড় স্কুলে কি শুধু ভাষা আর সাহিত্য বিভাগই থাকে? একদমই না! সেখানে 'চারুকলা বিভাগ' থাকে, যেখানে ছবি চেনা এবং আঁকা শেখানো হয়। 'ফলিত বিজ্ঞান বিভাগ' থাকে, যারা যন্ত্রপাতির কার্যকারিতা বোঝে। আবার 'ক্রীড়া বিভাগ' থাকে, যারা কৌশল এবং কর্মপন্থা নিয়ে কাজ করে। AI-এর জগতেও ঠিক এমনই বিভিন্ন "বিভাগ" রয়েছে, যারা ভাষা ছাড়াও আরও অনেক জটিল এবং গুরুত্বপূর্ণ কাজ করতে পারে। চলুন, আজ AI স্কুলের সেইসব তুখোড় ছাত্রছাত্রীদের সাথে পরিচিত হওয়া যাক।
ভাষার বাইরেও বিশাল জগৎ: AI স্কুলের অন্যান্য তারকাদের সাথে পরিচয়
লার্জ ল্যাঙ্গুয়েজ মডেলের বাইরেও AI-এর এমন সব শাখা রয়েছে, যা আমাদের প্রযুক্তি ব্যবহারের অভিজ্ঞতাকে আমূল বদলে দিচ্ছে। এদের প্রত্যেকটির কাজ করার ধরণ এবং উদ্দেশ্য ভিন্ন।
Vision Language Models (VLM): যখন AI-এর চোখেও দৃষ্টি, মুখেও ভাষা
ইনি হলেন AI স্কুলের সেই বিস্ময়কর ছাত্র, যে একাধারে দেখতেও পায় আবার কথাও বলতে পারে। Vision Language Model বা VLM ছবি, ভিডিও এবং টেক্সট—এই তিনটি জিনিসকে একসাথে বিশ্লেষণ করার ক্ষমতা রাখে। আপনি যদি তাকে একটি ছবি দেখিয়ে কোনো প্রশ্ন করেন, সে কেবল ছবিটি শনাক্তই করবে না, বরং ছবির প্রেক্ষাপট বুঝে বিস্তারিত উত্তর দেবে।
- এটি কীভাবে কাজ করে? VLM-কে লক্ষ লক্ষ ছবি এবং সেই সম্পর্কিত লেখার ডেটাসেট দিয়ে প্রশিক্ষণ দেওয়া হয়। এর ফলে, এটি ছবির পিক্সেলের প্যাটার্নের সাথে শব্দের অর্থের একটি যোগসূত্র তৈরি করতে শেখে। যখন এটি একটি বিড়ালের ছবি দেখে, তখন সেটিকে শুধুমাত্র একটি আকৃতি হিসেবে দেখে না, বরং 'বিড়াল', 'প্রাণী', 'পোষা'—এই শব্দগুলোর সাথে যুক্ত করে ফেলে।
- বাস্তব জীবনের উদাহরণ: এর সবচেয়ে সহজলভ্য এবং শক্তিশালী উদাহরণ হলো Google Lens। আপনি যখন আপনার ফোনের ক্যামেরা দিয়ে কোনো বিদেশি সাইনবোর্ডের দিকে তাক করেন, Google Lens শুধু লেখাটি পড়েই না, বরং সেটিকে আপনার পরিচিত ভাষায় অনুবাদও করে দেয়। আবার কোনো পণ্যের ছবি তুললে, সেটি কোন ব্র্যান্ডের বা কোথায় পাওয়া যাবে, সেই তথ্যও হাজির করে। এখানে VLM তার দেখার (Vision) এবং পড়ার (Language) ক্ষমতাকে একসাথে ব্যবহার করছে।
Small Language Models (SLM): ছোট ডিভাইসের বুদ্ধিমান সহযোগী
এদেরকে LLM-এর ছোট এবং কর্মঠ সংস্করণ বলা যেতে পারে। বড় মডেলগুলোর মতো এদেরকে চালানোর জন্য বিশাল সার্ভার বা প্রচুর কম্পিউটিং পাওয়ারের প্রয়োজন হয় না। এরা আকারে ছোট হওয়ায় সরাসরি আমাদের স্মার্টফোন, ল্যাপটপ বা স্মার্টওয়াচের মতো ডিভাইসে থেকেই কাজ করতে পারে।
- এটি কীভাবে কাজ করে? SLM-কে সাধারণত একটি বা কয়েকটি নির্দিষ্ট কাজের জন্য বিশেষভাবে প্রশিক্ষণ দেওয়া হয়। যেমন, শুধু অনুবাদ করা বা শুধু লেখার ভুল সংশোধন করা। এর ফলে এদের আকার অনেক ছোট থাকে এবং এরা খুব দ্রুত কাজ করতে পারে, এমনকি ইন্টারনেট সংযোগ ছাড়াই।
- বাস্তব জীবনের উদাহরণ: আপনার স্মার্টফোনের কি-বোর্ড যখন স্বয়ংক্রিয়ভাবে আপনার টাইপিং-এর ভুল শুধরে দেয় (Autocorrect) বা পরের শব্দটি কী হতে পারে তার পরামর্শ (Suggestion) দেয়, তখন জানবেন পর্দার আড়ালে একটি SLM কাজ করছে। এছাড়াও, ভয়েস অ্যাসিস্ট্যান্টকে দেওয়া ছোটখাটো কমান্ড, যেমন "অ্যালার্ম সেট করো", এগুলোও অনেক সময় ডিভাইসের নিজস্ব SLM দিয়েই পরিচালিত হয়।
Masked Language Models (MLM): বাক্যের ভেতরের অর্থ বোঝার কারিগর
ছোটবেলার 'শূন্যস্থান পূরণ'-এর কথা মনে আছে? Masked Language Model বা MLM ঠিক সেই কাজটিই করে, তবে অনেক বুদ্ধিদীপ্ত উপায়ে। একে একটি বাক্য দিয়ে তার মাঝখান থেকে এক বা একাধিক শব্দ অদৃশ্য (Mask) করে দেওয়া হয়। এরপর মডেলটির কাজ হলো বাক্যের আগে এবং পরের শব্দগুলোর উপর ভিত্তি করে সেই শূন্যস্থানে সবচেয়ে উপযুক্ত শব্দটি অনুমান করা।
- এটি কীভাবে কাজ করে? বারবার এই অনুশীলনের মাধ্যমে MLM একটি ভাষার শুধু শব্দই শেখে না, বরং শব্দের পারিপার্শ্বিকতা বা কনটেক্সট বুঝতে শেখে। সে বুঝতে পারে, "আমি ____ খেতে ভালোবাসি" বাক্যে 'ভাত' বসার সম্ভাবনা বেশি, কিন্তু "আমি বই ____ ভালোবাসি" বাক্যে 'পড়তে' বসার সম্ভাবনা বেশি। এই ক্ষমতাটিই তাকে ভাষার গভীর অর্থ অনুধাবন করতে সাহায্য করে।
- বাস্তব জীবনের উদাহরণ: Google Search-এর পেছনে থাকা BERT (Bidirectional Encoder Representations from Transformers) নামক প্রযুক্তিটি MLM-এর একটি যুগান্তকারী উদাহরণ। আগে যখন আপনি গুগলে "how to park a car on a hill" লিখে সার্চ করতেন, গুগল হয়তো "hill" বা "park" শব্দগুলোকে আলাদাভাবে দেখত। কিন্তু BERT-এর মতো MLM ব্যবহার করার ফলে, গুগল এখন পুরো বাক্যটির অর্থ—অর্থাৎ, 'পাহাড়ি রাস্তায় গাড়ি পার্ক করার পদ্ধতি'—বুঝতে পারে এবং আপনাকে অনেক বেশি সঠিক ও প্রাসঙ্গিক ফলাফল দেখাতে পারে।
Large Action Models (LAMs): যে শুধু শোনে না, কাজও করে দেয়
এরা হলো AI জগতের 'কর্মবীর'। অন্যান্য মডেলগুলো যেখানে তথ্য প্রদান বা লেখা তৈরিতেই সীমাবদ্ধ, সেখানে Large Action Model বা LAMs আপনার নির্দেশ শুনে সেই অনুযায়ী কাজও সম্পাদন করতে পারে। এরা মানুষের ভাষাকে ডিজিটাল জগতে কার্যকরি নির্দেশে (Actionable Commands) পরিণত করতে পারে।
- এটি কীভাবে কাজ করে? LAMs বিভিন্ন অ্যাপ্লিকেশন বা সফটওয়্যারের API (Application Programming Interface)-এর সাথে সংযুক্ত থাকে। আপনি যখন বলেন, "আমার বন্ধুকে মেসেজ করে জানাও যে আমি ১০ মিনিট দেরি করবো", LAM আপনার ভয়েস কমান্ডকে টেক্সটে রূপান্তর করে, আপনার মেসেজিং অ্যাপটি খোলে, আপনার বন্ধুর কন্টাক্ট খুঁজে বের করে এবং নির্দিষ্ট মেসেজটি টাইপ করে পাঠিয়ে দেয়।
- বাস্তব জীবনের উদাহরণ: যদিও এই প্রযুক্তি এখনও তার বিকাশের প্রাথমিক পর্যায়ে রয়েছে, তবে এর সম্ভাবনা অসীম। ভবিষ্যতে আপনার পার্সোনাল অ্যাসিস্ট্যান্ট হিসেবে LAMs আপনার হয়ে ফ্লাইট বুক করা, রেস্টুরেন্টে টেবিল রিজার্ভ করা, ক্যালেন্ডারে মিটিং যোগ করা থেকে শুরু করে অনলাইন শপিং করার মতো বহুস্তরীয় কাজগুলোও সম্পন্ন করতে পারবে।
Latent Consistency Models (LCM): কল্পনার গতিতে ছবি আঁকিয়ে
আপনি যদি ছবি বা ডিজাইন নিয়ে কাজ করেন, তাহলে LCM আপনার জন্য একটি জাদুর কাঠি হতে পারে। এই মডেলগুলো টেক্সট বা সাধারণ স্কেচ থেকে অবিশ্বাস্য দ্রুত গতিতে অত্যন্ত উচ্চ-মানের ছবি তৈরি করতে পারে। প্রচলিত ইমেজ জেনারেশন মডেলগুলোর যেখানে একটি ছবি তৈরি করতে কয়েক মিনিট সময় লাগত, সেখানে LCM কয়েক সেকেন্ডের মধ্যেই সেই কাজ করতে পারে।
- এটি কীভাবে কাজ করে? LCM প্রচলিত মডেলগুলোর বহু-ধাপ বিশিষ্ট ইমেজ জেনারেশন প্রক্রিয়াকে অনেক সংক্ষিপ্ত করে ফেলে। এটি অল্প কয়েকটি ধাপেই একটি চূড়ান্ত এবং নিখুঁত ছবি তৈরি করতে সক্ষম, যা একে রিয়েল-টাইম অ্যাপ্লিকেশনের জন্য আদর্শ করে তুলেছে।
- বাস্তব জীবনের উদাহরণ: Krea AI-এর মতো রিয়েল-টাইম ইমেজ জেনারেটর প্ল্যাটফর্মগুলো এই প্রযুক্তি ব্যবহার করে। এখানে একজন শিল্পী যখন ডিজিটাল ক্যানভাসে কিছু আঁকতে শুরু করেন, LCM সাথে সাথেই সেই স্কেচটিকে একটি বাস্তবসম্মত ছবিতে রূপান্তর করতে থাকে। এর ফলে শিল্পী তার কল্পনার প্রতিচ্ছবি তাৎক্ষণিকভাবে দেখতে পান এবং প্রয়োজন অনুযায়ী পরিবর্তন করতে পারেন।
আমাদের জীবনে এই AI মডেলগুলোর সম্মিলিত প্রভাব
এই বিভিন্ন ধরণের AI মডেলগুলো বিচ্ছিন্নভাবে কাজ করে না, বরং এরা সম্মিলিতভাবে আমাদের দৈনন্দিন জীবন এবং বিভিন্ন শিল্পে এক নীরব বিপ্লব ঘটাচ্ছে।
- স্বাস্থ্যসেবাতে: একজন ডাক্তার যখন রোগীর এক্স-রে রিপোর্ট দেখছেন, তখন একটি Vision Model (যেমন SAM - Segment Anything Model) এক্স-রে প্লেটের প্রতিটি অঙ্গকে আলাদাভাবে শনাক্ত করতে পারে, অন্যদিকে একটি MLM সেই রিপোর্টের সাথে থাকা হাজারো মেডিকেল জার্নাল থেকে প্রাসঙ্গিক তথ্য খুঁজে বের করে রোগ নির্ণয়ে সহায়তা করতে পারে।
- স্ব-চালিত গাড়িতে: একটি স্ব-চালিত গাড়ি তার চারপাশকে বোঝার জন্য VLM ব্যবহার করে রাস্তা, ট্র্যাফিক সাইন, পথচারী এবং অন্যান্য যানবাহন শনাক্ত করে। একই সাথে, একটি SLM গাড়ির ভেতরের ভয়েস কমান্ড বুঝতে সাহায্য করে।
- ব্যবসা-বাণিজ্যে: ই-কমার্স সাইটগুলোতে একটি LLM চ্যাটবট হিসেবে গ্রাহকদের প্রশ্নের উত্তর দেয়, অন্যদিকে একটি ডেটা অ্যানালাইসিস মডেল গ্রাহকদের কেনাকাটার ধরণ বিশ্লেষণ করে ব্যবসায়িক কৌশল নির্ধারণে সাহায্য করে।
ভবিষ্যতের দিকে তাকিয়ে: সম্ভাবনা এবং সতর্কতা
কৃত্রিম বুদ্ধিমত্তার এই অগ্রযাত্রা আমাদের জন্য অপার সম্ভাবনা বয়ে আনছে। ভবিষ্যতে হয়তো আমরা এমন বুদ্ধিমান সিস্টেম দেখতে পাব যা জলবায়ু পরিবর্তন মোকাবিলায় নতুন সমাধান দেবে, জটিল রোগের নিরাময় আবিষ্কার করবে অথবা প্রত্যেক শিক্ষার্থীর জন্য তার নিজস্ব মেধা অনুযায়ী শিক্ষার ব্যবস্থা করবে।
তবে এই বিশাল সম্ভাবনার সাথে কিছু দায়িত্ব এবং চ্যালেঞ্জও জড়িত। AI-এর কারণে চাকরির বাজারে কী প্রভাব পড়বে, আমাদের ব্যক্তিগত তথ্যের গোপনীয়তা কতটা সুরক্ষিত থাকবে, এবং এই প্রযুক্তিকে নৈতিকভাবে কীভাবে ব্যবহার করা যায়—এই প্রশ্নগুলো নিয়ে আমাদের এখন থেকেই ভাবতে হবে। প্রযুক্তির উদ্ভাবন যেমন জরুরি, তার দায়িত্বশীল ব্যবহার নিশ্চিত করা তার চেয়েও বেশি জরুরি।
শেষ কথা
আশা করি, এতক্ষণের দীর্ঘ আলোচনায় এটা স্পষ্ট হয়েছে যে, কৃত্রিম বুদ্ধিমত্তার জগৎ কতটা বিশাল, বৈচিত্র্যময় এবং রোমাঞ্চকর। LLM নিঃসন্দেহে এই জগতের একজন উজ্জ্বল তারকা, কিন্তু তার বাইরেও অসংখ্য তারকা রয়েছে যাদের প্রত্যেকের নিজস্ব আলো এবং ক্ষমতা আছে।
পরেরবার যখন আপনি AI শব্দটি শুনবেন, তখন শুধু কথা বলা কোনো চ্যাটবটের কথা না ভেবে, বরং সেই বিশাল স্কুলের কথা ভাববেন—যেখানে কেউ ছবি দেখে, কেউ নির্দেশ পালন করে, কেউ ভাষার ভেতরের রহস্য বোঝে, আর সবাই মিলে আমাদের ভবিষ্যৎকে একটু একটু করে বদলে দেওয়ার চেষ্টা করছে। এই জ্ঞানার্জনের যাত্রায় কৌতুহলকে বাঁচিয়ে রাখুন, কারণ AI-এর গল্পটা সবে শুরু হয়েছে।


অর্ডিনারি আইটির নীতিমালা মেনে কমেন্ট করুন। প্রতিটি কমেন্ট রিভিউ করা হয়।
comment url