R-এ Data Recoding: tidyverse ব্যবহার করে ডেটাকে Analysis-Ready করার সম্পূর্ণ গাইড
ডেটা অ্যানালাইসিস শেখার শুরুতে অনেকেই মনে করেন, কোড লিখতে পারলেই কাজ শেষ। কিন্তু বাস্তবে আপনি যত ভালো কোডই লিখুন না কেন—ডেটা যদি সঠিকভাবে প্রস্তুত না থাকে, তাহলে আপনার analysis ভুল হওয়ার ঝুঁকি থেকেই যায়। এই কারণেই Data Recoding হলো R-এ ডেটা অ্যানালাইসিস শেখার সবচেয়ে গুরুত্বপূর্ণ ভিত্তি। এই পোস্টে আপনি শিখবেন, কীভাবে R tidyverse ও dplyr ব্যবহার করে raw data কে clean, recoded এবং analysis-ready করা যায়।
Data Recoding কী?
Data recoding বলতে বোঝায়—
missing value হ্যান্ডেল করা
ভুল বা অপ্রয়োজনীয় মান ঠিক করা
unit conversion করা
categorical ও logical ডেটাকে মানুষের বোঝার মতো করা
সহজভাবে বললে, raw data কে meaningful data তে রূপান্তর করাই data recoding।
tidyverse কেন Data Recoding-এর জন্য আদর্শ?
tidyverse হলো R-এর এমন একটি প্যাকেজ সমষ্টি, যা data manipulation-কে—
- পরিষ্কার
- readable
- এবং beginner-friendly করে তোলে।
library(tidyverse)
এই একটি লাইনেই আপনি select(), mutate(), filter(), recode()–এর মতো শক্তিশালী টুল পেয়ে যান।
ডেটা এনালাইসিস স্টার্টআপ ই-বুক ফর বিগিনার্স (স্টেপ বাই স্টেপ গাইড ফর বিগিনার্স - সম্পূর্ণ বাংলায়)
ই-বুকটি থেকে যা যা শিখতে পারবেন:
- R-প্রোগ্রামিং পরিচিতি
- ডেটা ক্লিনিং
- ডেটা ম্যানিপুলেশন
- স্ট্যাটিসটিক্যাল এনালাইসিস
- ডেটা ভিজ্যুয়ালাইজেশন
- ডেটা এনালাইসিস
যেকেউ শিখতে পারবেন একেবারে শুরু থেকে!
ই-বুক ডাউনলোড করতে নিচের ‘ডাউনলোড ই-বুক’ বাটনে ক্লিক করুন।
ডেটা এনালাইসিস স্টার্টআপ ই-বুক ফর বিগিনার্স (স্টেপ বাই স্টেপ গাইড ফর বিগিনার্স - সম্পূর্ণ বাংলায়)
ই-বুকটি থেকে যা যা শিখতে পারবেন:
- R-প্রোগ্রামিং পরিচিতি
- ডেটা ক্লিনিং
- ডেটা ম্যানিপুলেশন
- স্ট্যাটিসটিক্যাল এনালাইসিস
- ডেটা ভিজ্যুয়ালাইজেশন
- ডেটা এনালাইসিস
যেকেউ শিখতে পারবেন একেবারে শুরু থেকে!
ই-বুক ডাউনলোড করতে নিচের ‘ডাউনলোড ই-বুক’ বাটনে ক্লিক করুন।
Missing Data কেন সমস্যা তৈরি করে?
বাস্তব ডেটাসেটে প্রায়ই missing value (NA) থাকে।
আপনি যদি সেগুলো ignore করেন, তাহলে mean বা summary statistics ভুল ফলাফল দিতে পারে।
mean(starwars$height)
এই কোড NA রিটার্ন করে।
সমাধান—
mean(starwars$height, na.rm = TRUE)
এখানে na.rm = TRUE ব্যবহার করে আপনি NA বাদ দিয়ে সঠিক হিসাব পাচ্ছেন।
na.omit() দিয়ে Missing Row বাদ দেওয়া
অনেক সময় analysis-এর জন্য পুরোপুরি clean dataset দরকার হয়।
sw <- starwars %>%
select(name, height, mass, sex) %>%
rename(weight = mass) %>%
na.omit()
এই ধাপে আপনি—
দরকারি column নির্বাচন করছেন
massকেweightনামে rename করছেনmissing value থাকা row বাদ দিচ্ছেন
ফলে dataset আরও নির্ভরযোগ্য হয়।
Unit Conversion কেন গুরুত্বপূর্ণ?
ভুল unit থাকলে interpretation ভুল হয়।
mutate(height = height / 100)
এখানে height কে centimeter থেকে meter-এ রূপান্তর করা হয়েছে, যা বাস্তব বিশ্লেষণের জন্য বেশি উপযোগী।
filter() দিয়ে অপ্রয়োজনীয় Category বাদ দেওয়া
সব category সব analysis-এর জন্য দরকার হয় না।
filter(sex %in% c(“male”, “female”))
এই ধাপে আপনি analysis-কে আরও focused করছেন।
recode() দিয়ে Categorical Data পরিষ্কার করা
Raw categorical data অনেক সময় বড় ও অস্পষ্ট হয়।
mutate(gsex = recode(sex,
male = “m”,
female = “f”))
এর ফলে—
variable ছোট ও পরিষ্কার হয়
modeling ও visualization সহজ হয়
Logical Variable তৈরি করা
ডেটা থেকে সিদ্ধান্ত নিতে logical condition অত্যন্ত গুরুত্বপূর্ণ।
mutate(size = height > 1 & weight > 75)
এখানে একটি TRUE/FALSE ভেরিয়েবল তৈরি হয়েছে।
Final Dataset চেক করা
view(sw)
এই কমান্ডের মাধ্যমে আপনি পুরো recoded এবং cleaned dataset একসাথে দেখতে পাচ্ছেন—যা এখন সম্পূর্ণভাবে analysis-ready।
Data Recoding না জানলে কী সমস্যা হয়?
Visualization misleading হয়
Model ভুল সিদ্ধান্ত দেয়
Beginner হিসেবে ভুল ধরতে পারেন না
এই কারণেই professional data analyst-রা সবসময় analysis শুরু করেন data recoding দিয়ে।
R-প্রোগ্রামিং ডেটা এনালাইসিস ফর স্টুডেন্টস কোর্স (স্টেপ বাই স্টেপ গাইড ফর বিগিনার্স - সম্পূর্ণ বাংলায়)
R-প্রোগ্রামিং ডেটা এনালাইসিস ফর স্টুডেন্টস কোর্স থেকে যা যা শিখতে পারবেন:
- R-প্রোগ্রামিং পরিচিতি
- ডেটা ক্লিনিং
- ডেটা ম্যানিপুলেশন
- স্ট্যাটিসটিক্যাল এনালাইসিস
- ডেটা ভিজ্যুয়ালাইজেশন
- ডেটা এনালাইসিস
- AI-Assisted কোডিং (vibe coding)
যেকেউ শিখতে পারবেন একেবারে শুরু থেকে!
কোর্সে এনরোল হতে নিচের “কোর্সে এনরোল করুন” বাটনে ক্লিক করে ওয়েবসাইট ভিজিট করুন।
R-প্রোগ্রামিং ডেটা এনালাইসিস ফর স্টুডেন্টস কোর্স (স্টেপ বাই স্টেপ গাইড ফর বিগিনার্স - সম্পূর্ণ বাংলায়)
R-প্রোগ্রামিং ডেটা এনালাইসিস ফর স্টুডেন্টস কোর্স থেকে যা যা শিখতে পারবেন:
- R-প্রোগ্রামিং পরিচিতি
- ডেটা ক্লিনিং
- ডেটা ম্যানিপুলেশন
- স্ট্যাটিসটিক্যাল এনালাইসিস
- ডেটা ভিজ্যুয়ালাইজেশন
- ডেটা এনালাইসিস
- AI-Assisted কোডিং (vibe coding)
যেকেউ শিখতে পারবেন একেবারে শুরু থেকে!
কোর্সে এনরোল হতে নিচের “কোর্সে এনরোল করুন” বাটনে ক্লিক করে ওয়েবসাইট ভিজিট করুন।
উপসংহার (Conclusion)
আপনি যদি R দিয়ে ডেটা অ্যানালাইসিস শেখা সত্যিকার অর্থে শুরু করতে চান, তাহলে মনে রাখবেন—
ভালো analysis আসে clean ও recoded data থেকে।
কোড শেখার আগে, ডেটা বোঝা শিখুন।
এই জায়গাতেই beginner আর confident analyst-এর পার্থক্য তৈরি হয়।
ব্লগ রিসোর্স
- গিটহাব কোড লিংক: এখানে ক্লিক করুন
- Kaggle notebook লিংক: এখানে ক্লিক করুন
- Rpub লিংক: এখানে ক্লিক করুন
- ইউটিউব ভিডিও টিউটোরিয়াল লিংক: এখানে ক্লিক করুন
- কোর্স লিংক: এখানে ক্লিক করুন
- R-Programming ই-বুক: লিংক: এখানে ক্লিক করুন
- WhatsApp Group (Course Updates): এখানে ক্লিক করুন
- Telegram Group (Resources & নিয়মিত আপডেট): এখানে ক্লিক করুন