30 câu hỏi phỏng vấn Data Scientist – Stats, ML, Coding, System

Data Scientist là một trong những vị trí có nhu cầu tuyển dụng và mức lương cao nhất ngành CNTT tại Việt Nam 2026. Theo dữ liệu CareerLink (05/2026) và khảo sát Talentnet 2025, lương Data Scientist tại VN tăng 22% so với 2024 – cao thứ 2 trong các vai trò IT (sau ML Engineer). Bộ câu hỏi phỏng vấn Data Scientist thường tập trung vào 5 nhóm: Statistics & Math, Machine Learning, Data Engineering, Programming (Python/SQL), và Behavioral case. Bài viết tổng hợp 30 câu hỏi phổ biến nhất với khung trả lời cho thị trường VN.

Tổng quan nhanh:

– Quy trình phỏng vấn Data Scientist thường 4–5 vòng: HR → Take-home assignment → Technical Interview → System Design → Hiring Manager.

– 5 nhóm câu hỏi: Stats & ML (35%), Coding Python/SQL (25%), Data Engineering (15%), System Design (15%), Behavioral (10%).

– Mức lương 2026 (CRL Q2 + Talentnet): Junior 18–28 triệu, Mid 30–55 triệu, Senior 60–100 triệu, Lead 90–160 triệu.

– Top 5 công ty tuyển nhiều: VNG Cloud, MoMo, Be Group, FPT AI, VinAI Research.

1. Nhóm Statistics & Probability

Đây là kiến thức nền – đa số phỏng vấn vòng đầu hỏi 3–5 câu nhóm này.

Câu 1: “Sự khác biệt giữa Type I và Type II error?”. Khung: Type I (false positive) – reject H0 khi đúng. Type II (false negative) – fail to reject H0 khi sai. Trade-off qua significance level α và power 1-β.

Câu 2: “Khi nào dùng t-test, khi nào dùng z-test?”. Khung: z-test khi sample size > 30 và biết σ. t-test khi sample size < 30 hoặc không biết σ. Both giả định data normally distributed.

Câu 3: “P-value là gì? Threshold thường là?”. Khung: Xác suất quan sát được data extreme như hiện tại nếu H0 đúng. p < 0.05 thường dùng để reject H0 (significance level α).

Câu 4: “Central Limit Theorem (CLT) phát biểu gì?”. Khung: Sampling distribution của mean tiệm cận normal khi n đủ lớn (≥30), bất kể distribution gốc. Cơ sở cho confidence interval và hypothesis testing.

Câu 5: “Khác biệt giữa correlation và causation?”. Khung: Correlation: 2 biến biến thiên cùng nhau (Pearson r). Causation: A gây ra B. Correlation không implies causation – cần experiment (RCT) hoặc quasi-experiment (DiD, IV).

2. Nhóm Machine Learning

Câu hỏi Điểm trọng tâm
Bias-variance tradeoff? Bias cao = underfit; variance cao = overfit. Total error = bias² + variance + noise. Cân bằng qua regularization, cross-validation
Khi nào dùng L1 vs L2 regularization? L1 (Lasso) – feature selection, sparse model. L2 (Ridge) – tất cả feature, smooth weights. Elastic Net = L1 + L2
ROC AUC vs Precision-Recall? ROC AUC tốt cho balanced data. PR curve tốt hơn cho imbalanced (fraud detection, churn)
Random Forest vs XGBoost? RF – bagging parallel, robust noise. XGBoost – boosting sequential, accuracy cao hơn nhưng dễ overfit, cần tuning
Cross-validation strategies? k-fold (k=5/10), stratified k-fold cho classification, time-series split cho temporal data
Class imbalance xử lý thế nào? SMOTE oversampling, undersampling, class weight, threshold tuning, focal loss

3. Nhóm coding Python & SQL

Đây là phần thực hành – thường có live coding 1–2 bài.

Câu 12 (Python): “Viết function tính moving average của list”. Khung: Dùng deque hoặc rolling window. Code: def moving_avg(arr, w): return [sum(arr[i:i+w])/w for i in range(len(arr)-w+1)]. Lưu ý: pandas df.rolling(w).mean() hiệu quả hơn cho large data.

Câu 13 (SQL): “Viết query tìm top 3 sản phẩm doanh thu cao nhất mỗi tháng”. Khung: Dùng ROW_NUMBER() OVER (PARTITION BY month ORDER BY revenue DESC). WHERE rn ≤ 3.

Câu 14 (Python): “Khác biệt list comprehension và generator?”. Khung: List – eval ngay, lưu memory toàn bộ. Generator – lazy eval, lưu state. Generator phù hợp large data hoặc streaming.

Câu 15 (SQL): “INNER JOIN vs LEFT JOIN khác gì?”. Khung: INNER – chỉ rows match cả 2 bảng. LEFT – tất cả rows từ left + match từ right (NULL nếu không match). Quan trọng cho missing data analysis.

Câu 16 (Pandas): “Khi nào dùng pivot_table vs groupby?”. Khung: groupby cho aggregation đơn giản (sum/mean/count). pivot_table cho cross-tabulation với row + column index. pivot_table flexible hơn nhưng chậm hơn.

Tham khảo các vị trí Data Scientist đang tuyển tại chuyên mục CNTT – Phần mềm trên CareerLink để hiểu rõ scope yêu cầu của từng công ty top tại VN.

4. Nhóm Data Engineering & Big Data

Phần này quan trọng cho cấp Mid+ và các công ty xử lý big data (VNG, MoMo, Be).

Câu 17: “ETL vs ELT khác nhau?”. Khung: ETL – Extract, Transform, Load (transform trước khi đưa vào DW). ELT – Load trước, Transform sau (phù hợp data lake, modern warehouse như BigQuery, Snowflake).

Câu 18: “Khi nào dùng Spark thay vì Pandas?”. Khung: Pandas – data < 10GB, single machine. Spark – distributed, > 10GB hoặc cần parallel processing. PySpark API tương tự Pandas, dễ chuyển.

Câu 19: “Schema evolution trong data lake xử lý thế nào?”. Khung: Schema-on-read (Parquet, Delta Lake), versioning (Iceberg), backward/forward compatibility, schema registry (Confluent).

Câu 20: “Anh/chị đã dùng các tool nào?”. Khung: Pipeline – Airflow, Prefect, Dagster. Storage – S3, BigQuery, Snowflake. Stream – Kafka, Flink, Kinesis. ML platform – MLflow, Kubeflow, Vertex AI.

“Phỏng vấn Data Scientist tại VN ngày càng yêu cầu thực tế. Tôi không chỉ hỏi ‘XGBoost là gì’ mà yêu cầu ứng viên kể 1 use case họ đã build từ đầu, từ data collection, feature engineering, model selection đến deployment và monitoring. Đó mới là Data Scientist thật sự.” – Head of Data Science một fintech unicorn tại TP.HCM.

5. Nhóm System Design / End-to-End ML Pipeline

Câu hỏi cấp Senior – đánh giá tư duy hệ thống và kinh nghiệm production.

Câu 21: “Design 1 hệ thống recommendation cho Shopee/Lazada?”. Khung: Data sources (user behavior, product catalog, transaction). Pipeline: collect → feature store → train (collaborative filtering + content-based + deep learning) → serve (low latency < 100ms via cache + ANN search).

Câu 22: “Build fraud detection cho fintech – approach?”. Khung: Imbalanced data (1:1000+ ratio), feature engineering (velocity, amount distribution, network graph), model (XGBoost + Isolation Forest + Graph Neural Net), real-time scoring < 50ms, feedback loop.

Câu 23: “Anh/chị monitor model performance trong production thế nào?”. Khung: Data drift (PSI, KS test), concept drift (performance metrics over time), prediction distribution, latency, throughput. Tools: Evidently, WhyLabs, custom dashboards.

Câu 24: “A/B testing setup khi nào không đủ?”. Khung: Network effects (social platform), seasonal effects, không thể randomize (ride-sharing pricing). Alternative: switchback, geo-experiments, synthetic control.

Câu 25: “Khi nào nên build model in-house vs dùng API (OpenAI/Anthropic)?”. Khung: In-house khi data sensitive, latency requirement < 100ms, custom domain. API khi prototype, scale nhỏ, không có expertise NLP/computer vision.

6. Nhóm Behavioral case (STAR)

Vòng cuối với Hiring Manager hoặc Director of Data Science.

Câu 26: “Kể về dự án ML có business impact lớn nhất”. Khung STAR: Vấn đề business, approach, kết quả định lượng (revenue lift, cost saving, NPS).

Câu 27: “Lần model fail trong production – bài học?”. Khung: Bối cảnh, root cause, hành động khắc phục, quy trình mới (monitoring, validation, rollback).

Câu 28: “Anh/chị thuyết phục stakeholder không tin ML thế nào?”. Khung: Bắt đầu với metric họ care, simple model trước (LR/RF), MVP, prove ROI, scale dần.

Câu 29: “Anh/chị làm gì khi model đạt 95% accuracy nhưng business không thấy giá trị?”. Khung: Re-evaluate metric (accuracy ≠ business value), align với revenue/cost, đo lường net benefit per prediction, A/B test.

Câu 30: “Anh/chị có câu hỏi gì cho chúng tôi?”. Khung: Roadmap data team 12 tháng, infra hiện tại (data lake, ML platform), văn hoá experimentation, mentorship.

Lỗi cần tránh khi phỏng vấn Data Scientist:

– Chỉ kể về Kaggle competition mà thiếu kinh nghiệm production – công ty muốn ứng viên hiểu end-to-end.

– Trả lời “tôi sẽ dùng XGBoost” cho mọi vấn đề – cần explain reasoning lựa chọn model.

– Bỏ qua data quality và feature engineering – các bài toán thực 80% thời gian là data prep.

– Quá tập trung deep learning khi vấn đề có thể giải bằng model đơn giản.

– Không có ví dụ cụ thể với business impact – rất quan trọng cho cấp Senior.

7. Top công ty tuyển Data Scientist 2026 tại VN

Công ty Senior 5–7 năm (triệu/tháng) Đặc thù
VinAI Research 80–140 Research, AI Foundation Model
MoMo Pay 65–110 Fintech, fraud detection, recommendation
VNG Cloud 60–100 Game analytics, cloud AI
Be Group 55–95 Ride-sharing pricing, demand forecasting
FPT AI 50–90 NLP tiếng Việt, OCR, computer vision

Tham khảo thêm bài viết về lập trình viên là gì – công việc và lộ trình để hiểu thêm về lộ trình nghề nghiệp ngành CNTT/AI tại Việt Nam.

Lời khuyên chuẩn bị phỏng vấn Data Scientist:

– Practice trên LeetCode (50+ medium SQL + Python), Stratascratch.

– Đọc 1 system design book: “Designing Machine Learning Systems” (Chip Huyen).

– Build 2–3 portfolio project có business impact rõ ràng (Kaggle GOLD/SILVER, hoặc dự án freelance).

– Chuẩn bị 5 STAR stories: dự án impact lớn, model fail, thuyết phục stakeholder, deal với data quality, mentor team.

– Học AWS Certified Machine Learning hoặc Google Professional ML Engineer – tăng giá trị CV.

8. Câu hỏi thường gặp

1. Sinh viên trái ngành (Toán, Vật lý, Kinh tế) có thể vào Data Scientist không?

Có. Ngành Toán, Vật lý, Kinh tế Lượng có nền tảng Stats tốt – chuyển sang DS dễ. Cần đầu tư 6–12 tháng học Python (Pandas, NumPy, Scikit-learn), SQL, ML cơ bản. Path khuyến nghị: hoàn thành Coursera Data Science Specialization (Johns Hopkins) hoặc Andrew Ng ML Course, build 2 portfolio Kaggle project, apply Junior Data Analyst trước (12–24 tháng) rồi chuyển sang Data Scientist.

2. Cần biết Deep Learning để vào Data Scientist không?

Không bắt buộc cho Junior. Đa số use case business solve được bằng XGBoost/LightGBM (tabular data). Deep Learning quan trọng cho: NLP (BERT/LLM), Computer Vision (CNN), Recommendation (Two-Tower). Junior nên master classical ML trước (Linear/Logistic Regression, Tree-based), học DL khi đã solid foundation. Senior+ thì Deep Learning là kỹ năng must-have.

3. Lương Data Scientist Việt Nam có cao hơn các vai trò IT khác không?

Cao hơn 15–25% so với Software Engineer cùng cấp. Senior Data Scientist 6 năm: 60–100 triệu (vs Senior SE 50–90 triệu). Lý do: nhu cầu cao + supply ít (cần combo Math/Stats + Programming + Business sense). ML Engineer (DS + Engineering skills) cao nhất ngành – Senior 80–150 triệu/tháng tại các công ty top như VinAI, MoMo, VNG.

Chuẩn bị tốt cho câu hỏi phỏng vấn Data Scientist đòi hỏi đầu tư nghiêm túc cho 5 nhóm: Statistics & ML cơ bản, Coding Python/SQL, Data Engineering, System Design end-to-end, và Behavioral case. Một ứng viên có 2–3 portfolio project với business impact rõ ràng + chuẩn bị 5 STAR stories chuẩn sẽ tạo lợi thế quyết định trong vòng phỏng vấn cuối tại các công ty top như VinAI, MoMo, VNG, Be Group.

Minh An

Bài viết mang tính chất tham khảo, không thay thế tư vấn nghề nghiệp chuyên sâu từ chuyên gia ngành Data Science / AI.

Về Tác Giả

CareerLink

Sao chép thành công