ওপেনএআই (OpenAI) চালু করল তাদের সবচেয়ে শক্তিশালী এআই: ‘ডীপ রিসার্চ’ ও এক গোপন এআই ডিভাইস

ভূমিকা

আজ কথা বলব ওপেনএআই (OpenAI)-এর দুটি বড় আপডেট নিয়ে। প্রথমে দেখব নতুন এআই-চালিত টুল বা এজেন্ট ‘ডীপ রিসার্চ (Deep Research)’, যা তাদের সর্বশেষ ফ্ল্যাগশিপ মডেল ‘ওথ্রি (Model o3)’-এর ওপর ভিত্তি করে তৈরি। এটি আমাদের প্রথম বাস্তব সুযোগ দিচ্ছে পূর্ণাঙ্গ ওথ্রি মডেলকে (যা এখনো পুরোপুরি উন্মুক্ত হয়নি) কাজে লাগিয়ে দেখার, কেননা এখন পর্যন্ত আমরা ‘ওথ্রি মিনি’ (o3 Mini) ব্যবহার করতে পারতাম, যা সম্পূর্ণ শক্তিশালী সংস্করণ নয়।

এরপর যাব ওপেনএআই-এর সেই গোপন পরিকল্পনায়, যেখানে জনি আইভ (Jony Ive) — অ্যাপলের (Apple) বহু আইকনিক পণ্যের ডিজাইন জিনিয়াস — এবং ওপেনএআই-এর সিইও স্যাম অল্টম্যান (Sam Altman) হাতে হাত মিলিয়ে এক নতুন এআই-কেন্দ্রিক হার্ডওয়্যার (AI-Focused Hardware) তৈরির উদ্যোগ নিয়েছেন। এটি হয়ত আইফোন (iPhone) যুগান্তকারী হওয়ার পরে প্রযুক্তি জগতে সবচেয়ে বড় শিফট হয়ে উঠতে পারে। এই নিবন্ধে আমরা বিস্তারিতভাবে বিষয়গুলো আলোচনা করব।

প্রথম আপডেট: ডীপ রিসার্চ (Deep Research)

কী এই ডীপ রিসার্চ?

ওপেনএআই (OpenAI) সম্প্রতি চালু করেছে ডীপ রিসার্চ (Deep Research) নামের একটি এআই এজেন্ট (AI Agent)। এটি আপাতত চ্যাটজিপিটির প্রো সাবস্ক্রাইবারদের (মাসে ২০০ ডলার সাবস্ক্রিপশন ফিজ) জন্যই সীমিত আকারে উপলব্ধ, অন্তত আপাতত। স্যাম অল্টম্যান জানিয়েছেন, প্রথমে তারা প্রো ইউজারদের (Pro Users) কাছে রোল আউট করছেন, যেখানে প্রতি মাসে ১০০টি কোয়েরি (Query) করার সীমা থাকবে। এরপর টিম (Team) ও এন্টারপ্রাইজ (Enterprise) গ্রাহকদের জন্য এটি চালু হবে, আর অবশেষে ফ্রি টিয়ার (Free Tier) ব্যবহারকারীরাও পরবর্তীতে এটি পেতে পারেন।

ডীপ রিসার্চের মূল ধারণা হলো, এটি বহুমুখী ধাপে (Multi-step) গবেষণা কার্যক্রম পরিচালনা করতে পারবে ইন্টারনেটে। সাধারণত আমরা নিয়মিত ChatGPT বা GPT-4 ব্যবহার করি অদল-বদল প্রশ্নোত্তরের জন্য। কিন্তু সেটা হলো “On-demand Q&A” ধাঁচের। আর ডীপ রিসার্চ হলো সম্পূর্ণ নতুন মাত্রার এজেন্ট — যা ইন্টারনেটে (Web) ঘুরে একাধিক উৎস (Sources) থেকে তথ্য সংগ্রহ করে, সেগুলোকে বিশ্লেষণ করে, টেক্সট-ইমেজ-পিডিএফ (PDF) যেকোনো ফরম্যাটকে যাচাই করে এবং একীভূত (Synthesize) করে বিস্তারিত ও রেফারেন্সযুক্ত (Cited) একটি রিপোর্ট দেয়।

ওপেনএআই এটিকে ‘AGI (Artificial General Intelligence) লক্ষ্যপূরণের দিকে আরও এক ধাপ’ বলে আখ্যা দিচ্ছে। কারণ, বড় পরিসরে জ্ঞান সংশ্লেষণ (Knowledge Synthesis) করতে পারা মানে হলো নতুন জ্ঞান সৃষ্টি করার পূর্বশর্ত। যদি কেউ কয়েক মিনিটের মধ্যেই উচ্চপর্যায়ের গবেষণা পর্যালোচনা (Literature Review) করতে পারে, তবে সেটি নিঃসন্দেহে এক ‘গেমচেঞ্জার’।

ওপেনএআইয়ের চিফ প্রোডাক্ট অফিসার (Chief Product Officer) কেভিন ডব্লিউ (Kevin W) ওয়াশিংটন ডিসিতে (Washington DC) এর ডেমো দেখিয়েছেন। উদাহরণ হিসেবে, আপনি চাইলে জানতে পারেন, অ্যালবার্ট আইনস্টাইন (Albert Einstein) যদি কখনো মার্কিন সরকারের এনার্জি সেক্রেটারি (Secretary of Energy) পদে প্রার্থী হতেন, তাহলে তার পটভূমি ও সম্ভাব্য সাক্ষাৎকার প্রশ্নগুলো কেমন হতে পারে—এই ধরনের জটিল অনুসন্ধানেও ডীপ রিসার্চ ইন্টারনেটের অজস্র ডাটার উৎসে গিয়ে খুঁটিনাটি তথ্য নিয়ে আসবে, তা একত্র করে সাজাবে, এবং সর্বোপরি উৎস (Sources) উল্লেখ করে দেবে।

কীভাবে কাজ করে?

আপনি যদি ChatGPT-এর প্রো ভারশনের সাবস্ক্রাইবার হন ও নতুন ইন্টারফেসে (Interface) যান, তাহলে মেসেজ কম্পোজার (Message Composer) সেকশনে ডীপ রিসার্চ (Deep Research) বেছে নিতে পারবেন। সেখানে আপনার প্রশ্ন বা অনুসন্ধান (Query) লিখে দিতে পারেন। উদাহরণ:

  • সিটি লিভিং (City Living)-এর জন্য বিভিন্ন ধাপের বাইক (Bike) নিয়ে বিশদ তুলনামূলক বিশ্লেষণ
  • স্ট্রিমিং প্ল্যাটফর্মগুলোর আর্থিক বিশ্লেষণ (Financial Analysis) করার জন্য বড় ডেটাসেট কিংবা স্প্রেডশিট (Spreadsheet) সংযুক্ত করা

এরপর যখন আপনি ‘Go’ চাপবেন, একটা সাইডবার (Sidebar) উঠে আসবে যেখানে দেখা যাবে এজেন্ট কী কী পদক্ষেপ নিচ্ছে, কোন কোন সাইটে যাচ্ছে, কী কী ডেটা সংগ্রহ করছে, কোন তথ্য নতুনভাবে খুঁজছে—বস্তুত এটি নিজেই Pivot করতে পারে যদি কোথাও কোনো তথ্য বিভ্রান্তি তৈরি হয়।

এই প্রসেস চলতে পারে ৫ মিনিট থেকে শুরু করে বড় কোনো অনুসন্ধানে প্রায় আধা ঘণ্টা পর্যন্ত। এটি অ্যাসিনক্রোনাস (Asynchronous) বা পটভূমিতে কাজ করে, তাই আপনি অন্য কাজে চলে যেতে পারেন—কফি খেতে পারেন, ইত্যাদি। কাজ শেষ হলে এটি আপনাকে নোটিফাই করবে। চূড়ান্ত ফলাফল হবে একটি সু-সংঘবদ্ধ (Super Thorough) গবেষণা বিশ্লেষণী (Research Analyst-Style) রিপোর্ট, যা ChatGPT ইন্টারফেসেই দেখতে পাবেন।

ওপেনএআই জানিয়েছে, ভবিষ্যতে এতে ইমেজ, ডেটা ভিজ্যুয়ালাইজেশন (Data Visualization), গ্রাফ বা টেবিল ইত্যাদি যুক্ত করা হবে, যাতে তথ্য আরও পরিস্কারভাবে উপস্থাপিত হয়।

উদাহরণ হিসেবে

কেউ প্রশ্ন করেছে—“কোনটা ভালো: শুধু আইকন (Icon) ব্যবহার করা, শুধু টেক্সট (Text) ব্যবহার করা, নাকি আইকন + টেক্সট, ইউজার ইন্টারফেস ইউজেবিলিটির দিক থেকে কোনটি বেশি কার্যকর?” স্বাভাবিক GPT-4 এক বাক্যে বা স্বল্প কিছু কথায় বলবে, “আইকন + লেবেল সাধারণত সহজবোধ্য, কারণ একমাত্র আইকন ভুল বোঝার সম্ভাবনা রাখে।”

কিন্তু ডীপ রিসার্চ একটি বিশদ প্রতিবেদন তৈরি করেছে, যেখানে বাস্তব গবেষণার (Real Studies) রেফারেন্স, ব্যবহারকারীদের ত্রুটি-বিভ্রান্তির পরিসংখ্যান, বয়স্ক ব্যবহারকারীদের অভিজ্ঞতা, নিলসন নরম্যান গ্রুপের (Nielsen Norman Group) সুপারিশ, এমনকি বিভিন্ন দেশের সংস্কৃতিগত পার্থক্য ইত্যাদি সবকিছু সঙ্গেসঙ্গে তুলে ধরা হয়েছে।

এনএফএল (NFL) কিকারের (Kicker) গড় অবসর বয়স (Average Retirement Age) নিয়ে প্রশ্ন করলেও সাধারণ GPT-4 আনুমানিক একটা সংখ্যা দিয়ে দেবে, যেমন ২৯ বছর। কিন্তু ডীপ রিসার্চ দেখিয়েছে, ইতিহাস ঘেঁটে জর্জ ব্ল্যান্ডা (George Blanda) ৪৮ বছর পর্যন্ত খেলেছেন, অ্যাডাম ভিনিতিয়েরি (Adam Vinatieri) ও জন কার্নি (John Carney) প্রায় ৪৬ পর্যন্ত খেলেছেন। কিকারের গায়ে কম ধাক্কা লাগে বলে তারা দীর্ঘদিন খেলতে পারেন—এই ব্যাখ্যাসহ বিস্তারিত রিপোর্ট পেয়েছে ব্যবহারকারী, সেইসঙ্গে পরিসংখ্যান ও সূত্রের উল্লেখও মেলে।

কীভাবে এত শক্তিশালী?

ডীপ রিসার্চ প্রকৃতপক্ষে ওপেনএআইয়ের নতুন মডেল সিরিজের একটা ভার্সন, যার নাম ‘ওথ্রি (o3)’, যা ওয়েব ব্রাউজিং, ডেটা স্ক্র্যাপিং, বিশ্লেষণ (Analysis) ও যৌক্তিকতা (Reasoning) উন্নত করতে ডিজাইন করা হয়েছে। পুরো সিস্টেমটি একদম end-to-end রিইনফোর্সমেন্ট লার্নিং (Reinforcement Learning) পদ্ধতিতে প্রশিক্ষিত, যেখানে এটি বাস্তব কাজ করে করে শেখেছে—ইন্টারনেটে কীভাবে তথ্য অনুসন্ধান করতে হয়, পরস্পরবিরোধী তথ্য দেখলে কীভাবে সত্য যাচাই করতে হয় ইত্যাদি। এমনকি ডাটা বা ভিজ্যুয়ালাইজেশন তৈরিতে পাইথন (Python) ব্যবহার করে।

তাদের একটি বিশাল ৩,০০০টি প্রশ্নের পরীক্ষা ছিল, যার নাম ‘Humanity’s Last Exam’, যেখানে ১০০টি আলাদা বিষয়ে বিশেষজ্ঞ-স্তরের (Expert-Level) প্রশ্ন করা হয়। সেখানে স্বাভাবিক GPT-4 মাত্র ৩.৩% সঠিক উত্তর দিয়েছে। অন্যান্য মডেল যেমন গ্রোক ২ (Grock 2), ক্লড ৩.৫ (Claude 3.5), সনেট (Sonnet), জেমিনি থিংকিং (Gemini Thinking), ডিপসিক আর ইত্যাদি আছে, সেগুলোও তুলনামূলকভাবে কম স্কোর করেছে। ‘ওথ্রি মিনি (o3 Mini)’ দিতে পেরেছে প্রায় ১৩% সঠিক উত্তর, কিন্তু ডীপ রিসার্চকে চালিকা শক্তি জুগিয়েছে যে সম্পূর্ণ ওথ্রি মডেল, সেটি ২৬.৬% পর্যন্ত পৌঁছে গেছে—যা একটা বিশাল লাফ। এই পার্থক্যটা মূলত “মাল্টি-স্টেপ ও মাল্টি-সার্চ” গবেষণা করার সুযোগ থাকার কারণে হয়েছে।

তারা জিয়া (GIA) নামের আরেকটি পাবলিক বেঞ্চমার্কেও (Public Benchmark) ডীপ রিসার্চকে পরীক্ষা করেছে। এখানে বাস্তব প্রশ্নের সমাধান দিতে গিয়ে ডীপ রিসার্চ অসাধারণ ফলাফল দেখিয়েছে। দেখা গেছে, যত বেশিবার এজেন্ট ইন্টারনেটে অনুসন্ধান করে (Tool Calls), ততই ভালো উত্তর দেয়—যেভাবে মানুষ কোনো বিষয় আগে পড়ে, তারপর নতুন তথ্য পেয়ে পুনরায় পড়ে, অবশেষে যাচাই করে সিদ্ধান্তে আসে।

দূর ভবিষ্যতে ওপেনএআই এই এজেন্টকে সাবস্ক্রিপশন-নির্ভর (Subscription-based) ডেটাবেস যেমন পেইড জার্নাল, অভ্যন্তরীণ কোম্পানি ডেটা ইত্যাদির সঙ্গেও সংযুক্ত করতে চায়। আরও দূরের লক্ষ্য হলো, এটি ‘অপারেটর (Operator)’ নামের আরেকটি এআই এজেন্টের সঙ্গে মিলেমিশে কাজ করবে—অপারেটর বাস্তব কাজ (যেমন ফ্লাইট বুকিং, কেনাকাটা) করুক, আর ডীপ রিসার্চ জ্ঞানগত ও গবেষণালব্ধ তথ্য সরবরাহ করুক।

এআই-কেন্দ্রিক হার্ডওয়্যার (AI-Focused Hardware) পরিকল্পনা

স্যাম অল্টম্যান, জনি আইভ ও এক নতুন যুগ

স্যাম অল্টম্যান স্পষ্টতই চাইছেন, এমন কিছু প্রযুক্তি তৈরি করতে যা মানুষের সাথে এআই-এর পারস্পরিক ক্রিয়াকলাপ (User Interactions) আমূল বদলে দেবে। খবরে শোনা যাচ্ছে, তিনি অ্যাপলের সাবেক প্রধান ডিজাইন অফিসার জনি আইভ (Jony Ive) এর সঙ্গে মিলে এক নতুন ডিভাইস তৈরি করতে যাচ্ছেন, যেটি হতে পারে প্রকৃতপক্ষে “এআই-বেইসড”।

অনেকেই বলছেন, এটি স্মার্টফোনকে (Smartphone) প্রতিস্থাপন করতে পারে—যেমনভাবে ২০০৭ সালে আইফোন প্রযুক্তি জগতে বিশাল পরিবর্তন আনছিল, এটিও হতে পারে সেই স্তরের বিপ্লব। জনি আইভের দুর্দান্ত ডিজাইন কৌশল ও স্যাম অল্টম্যানের এআই দক্ষতা মিলিয়ে এমন কিছু আসতে পারে, যা ‘আইফোন পরবর্তী যুগ’ বলে অভিহিত করা হচ্ছে।

অল্টম্যান, ব্রায়ান চেসকির (Brian Chesky, Airbnb সিইও) মাধ্যমে জনি আইভের সাথে পরিচিত হয়েছেন বলে জানা গেছে। এছাড়া লরিন পাওয়েল জবসের (Laurene Powell Jobs) এমারসন কালেক্টিভ (Emerson Collective) সহ কিছু বড় বিনিয়োগকারী এটি আর্থিকভাবে সমর্থন করছে। শোনা যাচ্ছে, ২০২৪ সালের শেষ নাগাদ পর্যন্ত প্রায় এক বিলিয়ন ডলার পুঁজি (Funding) তারা জোগাড় করতে পারে।

সম্ভাব্য বৈশিষ্ট্য

এটি হয়তো একটি টাচস্ক্রিনযুক্ত (Touchscreen) ডিভাইস হবে, যেখানে এআইয়ের আসল শক্তি—জনারেটিভ এআই (Generative AI) — পুরোপুরি অন্তর্ভুক্ত থাকবে। অর্থাৎ, গুগল মেসেজ, ট্রাভেল বুকিং, ক্যামেরা-মুভমেন্ট রিয়েল-টাইম বিশ্লেষণ, সবকিছু এক প্ল্যাটফর্মেই করতে পারবে।

গুগল (Google) বা অ্যাপল (Apple) তাদের ফোনে এআই ফিচার যোগ করছে, কিন্তু অল্টম্যান মনে করেন, শুধু সফটওয়্যারের (Software) মাধ্যমে অতিসামান্য আপডেট করে সত্যিকারের ‘এআই ডিভাইস’ তৈরি হবে না। এর জন্য ‘গ্রাউন্ড আপ (Ground-Up)’ ডিজাইন লাগবে—যেখানে হার্ডওয়্যার ও সফটওয়্যার এআই-ভিত্তিক চিন্তাপদ্ধতিতে তৈরি করা হবে।

আমরা জানি, অল্টম্যান আগে ‘Humane Inc’ নামক এক স্টার্টআপে বিনিয়োগ করেছিলেন—তারা ‘Humane AI Pin’ নামে একটি এআই-চালিত ডিভাইস বের করেছিল, যা মিশ্র রিভিউ পেয়েছিল। ‘Rabbit R1’ নামের আরেকটি ডিভাইসও খুব ভালো সাড়া পায়নি। তাই বোঝা যাচ্ছে, এআই-ভিত্তিক হার্ডওয়্যার তৈরি মোটেই সহজ নয়। কিন্তু জনি আইভের মতো ডিজাইন মাস্টার ও ওপেনএআইয়ের উন্নত মডেল (যেমন ওথ্রি বা ভবিষ্যৎ ভার্সন) মিলিয়ে হয়তো এক নতুন মানদণ্ড তৈরি করা সম্ভব।

টাইমলাইন, সম্ভাব্য মূল্য ও অন্যান্য দিক

অল্টম্যান বলেছেন, এটি বাজারে আসতে বেশ কয়েক বছর লাগবে। তারা এটা নিয়ে পরীক্ষানিরীক্ষা করছেন, এখনো প্রোটোটাইপ (Prototype) দেখার আগে কমপক্ষে কিছুটা সময় অপেক্ষা করতে হবে। দামের বিষয়ে (Cost) ধারণা করা হচ্ছে, এটি হয়তো একটু প্রিমিয়াম বা মধ্যম-মূল্যের হবে, কিন্তু খুবই সস্তা কিছু হবে না। অল্টম্যান মনে করেন, মানুষ এমনিতেই ফোন কিনতে টাকা খরচ করে, তাই পরবর্তী প্রজন্মের ডিভাইসের জন্যও ব্যয় করতে পারবে।

এ ডিভাইসটি সামাজিকভাবে কম ‘বিক্ষিপ্ততা’ আনবে—সম্ভবত স্ক্রিনের দিকে চেয়ে থাকার পরিবর্তে আরও স্বাভাবিক যোগাযোগ পদ্ধতি, যেমন ভয়েস (Voice) বা ওয়্যারেবল (Wearable) ইন্টারফেস ব্যবহার করতে পারে। হয়তো এটি কানে-শোনা টাইপ ডিভাইস, অথবা গলার কাছে ক্লিপ-অন—এমন ধারণাও কেউ কেউ করেছেন।

শেষ কথা

ওপেনএআইয়ের (OpenAI) ডীপ রিসার্চ (Deep Research) ও তাদের সম্ভাব্য এআই হার্ডওয়্যার (AI Hardware Device) —এই দুই খবর নিঃসন্দেহে এআই জগতের অন্যতম আলোচিত বিষয় হয়ে দাঁড়িয়েছে।

  • ডীপ রিসার্চ আমাদের দেখাচ্ছে, বহুমুখী ধাপে ওয়েবে তথ্য অনুসন্ধান-সংগ্রহ-বিশ্লেষণ করে কীভাবে অসাধারণ একচেটিয়া রিপোর্ট বানানো যায়। বিদ্যমান GPT-4 বা অন্যান্য মডেলের তুলনায় এটি অনেক বেশি নির্ভুল (Accuracy) ও বিশদ (Depth) তথ্য দিতে পারে। এ আই এজেন্টটি ভবিষ্যতে আরও শক্তিশালী হবে, সাবস্ক্রিপশনভিত্তিক উত্স বা ব্যক্তিগত ডেটা ঘিরেও কাজ করতে পারবে। দীর্ঘমেয়াদে, এটি এক ধরনের ‘অ্যাসিস্ট্যান্ট’ বা ‘রিসার্চার’ হিসেবে কাজ করবে।
  • এআই ফোকাসড হার্ডওয়্যার: জনি আইভ ও স্যাম অল্টম্যানের সম্মিলিত উদ্যমে এমন একটি ডিভাইস নিয়ে আসার চেষ্টা চলছে, যা হয়তো স্মার্টফোন যুগকে বদলে দিতে পারে। ভবিষ্যতে যেটি হবে কম স্ক্রিন-নির্ভর, বেশি কণ্ঠ (Voice) বা এআই-নির্ভর, মানুষের দৈনন্দিন জীবনকে স্ক্রিনে বুঁদ করে রাখার বদলে স্বাভাবিক পারস্পরিক ক্রিয়ায় নিয়ে যাবে—এমনটাই ধারণা করা হচ্ছে।

এখনো হয়তো বহু প্রশ্ন আছে—কবে নাগাদ আমরাই হাতে পাবো, কীভাবে গোপনীয়তা (Privacy) নিশ্চিত করা হবে, বা এর দাম কেমন হবে ইত্যাদি। কিন্তু স্পষ্টতই, ওপেনএআই বর্তমান এআই ট্রেন্ডকে এক ধাপ এগিয়ে নিয়ে যেতে চায়।

আপনি যদি ডীপ রিসার্চ (Deep Research) বা এআই ডিভাইসের (AI Device) ওপর আরও গভীর আলোচনা চান, নিচে মন্তব্য করতে পারেন। কে জানে, হয়তো সেই গভীর বিশ্লেষণ পরেরবার ডীপ রিসার্চ নিজেই রচনা করে দেবে!

Be the first to comment

Leave a Reply

Your email address will not be published.




This site uses Akismet to reduce spam. Learn how your comment data is processed.