Skip to content

Latest commit

 

History

History
263 lines (186 loc) · 31.6 KB

File metadata and controls

263 lines (186 loc) · 31.6 KB

Khoa học dữ liệu cho người mới bắt đầu - Một chương trình học

Mở trong GitHub Codespaces

Giấy phép GitHub Người đóng góp GitHub Vấn đề GitHub Yêu cầu kéo GitHub Chào đón PR

Người theo dõi GitHub Nhánh GitHub Sao GitHub

Microsoft Foundry Discord

Diễn đàn Nhà phát triển Microsoft Foundry

Nhóm Đại sứ Đám mây Azure tại Microsoft vui mừng cung cấp một chương trình học 10 tuần, 20 bài học toàn bộ về Khoa học Dữ liệu. Mỗi bài học bao gồm kiểm tra trước và sau bài, hướng dẫn chi tiết để hoàn thành bài học, lời giải và bài tập. Phương pháp học dựa trên dự án cho phép bạn học trong khi xây dựng, một cách đã được chứng minh để các kỹ năng mới "bám dính".

Xin chân thành cảm ơn các tác giả của chúng tôi: Jasmine Greenaway, Dmitry Soshnikov, Nitya Narasimhan, Jalen McGee, Jen Looper, Maud Levy, Tiffany Souterre, Christopher Harrison.

🙏 Đặc biệt cảm ơn 🙏 các tác giả, người đánh giá và đóng góp nội dung Đại sứ Sinh viên Microsoft, đặc biệt là Aaryan Arora, Aditya Garg, Alondra Sanchez, Ankita Singh, Anupam Mishra, Arpita Das, ChhailBihari Dubey, Dibri Nsofor, Dishita Bhasin, Majd Safi, Max Blum, Miguel Correa, Mohamma Iftekher (Iftu) Ebne Jalal, Nawrin Tabassum, Raymond Wangsa Putra, Rohit Yadav, Samridhi Sharma, Sanya Sinha, Sheena Narula, Tauqeer Ahmad, Yogendrasingh Pawar , Vidushi Gupta, Jasleen Sondhi

Sketchnote by @sketchthedocs https://sketchthedocs.dev
Khoa học Dữ liệu cho Người mới bắt đầu - Sketchnote bởi @nitya

🌐 Hỗ trợ đa ngôn ngữ

Được hỗ trợ qua GitHub Action (Tự động & Luôn cập nhật)

Arabic | Bengali | Bulgarian | Burmese (Myanmar) | Chinese (Simplified) | Chinese (Traditional, Hong Kong) | Chinese (Traditional, Macau) | Chinese (Traditional, Taiwan) | Croatian | Czech | Danish | Dutch | Estonian | Finnish | French | German | Greek | Hebrew | Hindi | Hungarian | Indonesian | Italian | Japanese | Kannada | Korean | Lithuanian | Malay | Malayalam | Marathi | Nepali | Nigerian Pidgin | Norwegian | Persian (Farsi) | Polish | Portuguese (Brazil) | Portuguese (Portugal) | Punjabi (Gurmukhi) | Romanian | Russian | Serbian (Cyrillic) | Slovak | Slovenian | Spanish | Swahili | Swedish | Tagalog (Filipino) | Tamil | Telugu | Thai | Turkish | Ukrainian | Urdu | Vietnamese

Thích sao chép về máy (Clone) cục bộ?

Kho lưu trữ này bao gồm hơn 50 bản dịch ngôn ngữ, điều này làm tăng đáng kể kích thước tải xuống. Để sao chép mà không có bản dịch, hãy sử dụng sparse checkout:

Bash / macOS / Linux:

git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
cd Data-Science-For-Beginners
git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'

CMD (Windows):

git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
cd Data-Science-For-Beginners
git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"

Điều này cho bạn mọi thứ bạn cần để hoàn thành khóa học với tốc độ tải xuống nhanh hơn nhiều.

Nếu bạn muốn hỗ trợ thêm các ngôn ngữ dịch thuật, các ngôn ngữ được hỗ trợ được liệt kê tại đây

Tham gia cộng đồng của chúng tôi

Microsoft Foundry Discord

Chúng tôi có một chuỗi học tập Discord với chủ đề AI đang diễn ra, tìm hiểu thêm và tham gia với chúng tôi tại Chuỗi học với AI từ ngày 18 đến 30 tháng 9 năm 2025. Bạn sẽ nhận được các mẹo và thủ thuật sử dụng GitHub Copilot cho Khoa học Dữ liệu.

Chuỗi học với AI

Bạn là sinh viên?

Bắt đầu với các tài nguyên sau đây:

  • Trang Trung tâm Sinh viên Trong trang này, bạn sẽ tìm thấy tài nguyên dành cho người mới bắt đầu, bộ dụng cụ dành cho sinh viên và thậm chí cả cách nhận phiếu chứng nhận miễn phí. Đây là trang bạn nên đánh dấu trang và kiểm tra định kỳ vì chúng tôi thay đổi nội dung ít nhất hàng tháng.
  • Đại sứ Sinh viên Microsoft Learn Tham gia cộng đồng đại sứ sinh viên toàn cầu, đây có thể là con đường của bạn vào Microsoft.

Bắt đầu

📚 Tài liệu

👨‍🎓 Dành cho Sinh viên

Người Mới Hoàn Toàn: Mới bắt đầu với khoa học dữ liệu? Bắt đầu với các ví dụ thân thiện cho người mới! Những ví dụ đơn giản, có chú thích đầy đủ này sẽ giúp bạn hiểu các khái niệm cơ bản trước khi bước vào toàn bộ chương trình. Sinh viên: để sử dụng chương trình này một cách độc lập, hãy fork toàn bộ repo và hoàn thành các bài tập một mình, bắt đầu với bài kiểm tra trước bài giảng. Sau đó đọc bài giảng và hoàn thành các hoạt động còn lại. Hãy cố gắng tạo các dự án bằng cách hiểu bài học thay vì sao chép mã giải pháp; tuy nhiên, mã đó có sẵn trong thư mục /solutions trong mỗi bài học theo dự án. Một ý tưởng khác là lập nhóm học với bạn bè và cùng nhau học nội dung. Để học thêm, chúng tôi khuyên dùng Microsoft Learn.

Bắt đầu nhanh:

  1. Kiểm tra Hướng dẫn Cài đặt để thiết lập môi trường của bạn
  2. Xem qua Hướng dẫn Sử dụng để học cách làm việc với chương trình học
  3. Bắt đầu với Bài 1 và làm lần lượt theo thứ tự
  4. Tham gia cộng đồng Discord của chúng tôi để được hỗ trợ

👩‍🏫 Dành cho Giáo viên

Giáo viên: chúng tôi đã bao gồm một số đề xuất về cách sử dụng chương trình giảng dạy này. Chúng tôi rất mong nhận được phản hồi của bạn trong diễn đàn thảo luận của chúng tôi!

Gặp gỡ Đội ngũ

Video quảng cáo

Gif bởi Mohit Jaisal

🎥 Nhấn vào hình ảnh ở trên để xem video về dự án và những người đã tạo ra nó!

Phương pháp giảng dạy

Chúng tôi đã chọn hai nguyên tắc sư phạm khi xây dựng chương trình giảng dạy này: đảm bảo rằng nó dựa trên dự án và bao gồm các bài kiểm tra thường xuyên. Vào cuối chuỗi này, học viên sẽ học được các nguyên tắc cơ bản về khoa học dữ liệu, bao gồm các khái niệm về đạo đức, chuẩn bị dữ liệu, các cách khác nhau để làm việc với dữ liệu, trực quan hóa dữ liệu, phân tích dữ liệu, các trường hợp sử dụng khoa học dữ liệu trong thực tế, và nhiều hơn nữa.

Ngoài ra, một bài kiểm tra nhẹ nhàng trước lớp tạo ý định học tập cho học viên về một chủ đề, trong khi bài kiểm tra thứ hai sau lớp đảm bảo việc ghi nhớ lâu dài hơn. Chương trình giảng dạy này được thiết kế để linh hoạt và thú vị, có thể học toàn bộ hoặc một phần. Các dự án bắt đầu nhỏ và ngày càng phức tạp hơn vào cuối chu kỳ 10 tuần.

Tìm Bộ Quy tắc Ứng xử, hướng dẫn Đóng góp, Dịch thuật. Chúng tôi hoan nghênh phản hồi mang tính xây dựng của bạn!

Mỗi bài học bao gồm:

  • Sketchnote tùy chọn
  • Video bổ sung tùy chọn
  • Bài kiểm tra khởi động trước bài học
  • Bài học bằng văn bản
  • Đối với các bài học dựa trên dự án, hướng dẫn từng bước cách xây dựng dự án
  • Kiểm tra kiến thức
  • Một thử thách
  • Đọc thêm bổ sung
  • Bài tập
  • Bài kiểm tra sau bài học

Lưu ý về các bài kiểm tra: Tất cả các bài kiểm tra đều nằm trong thư mục Quiz-App, tổng cộng 40 bài kiểm tra với mỗi bài 3 câu hỏi. Các bài kiểm tra được liên kết trong các bài học, nhưng ứng dụng kiểm tra có thể chạy cục bộ hoặc được triển khai trên Azure; hãy làm theo hướng dẫn trong thư mục quiz-app. Các bài kiểm tra đang được dịch dần dần.

🎓 Ví dụ Thân thiện với Người mới bắt đầu

Mới làm quen với Khoa học Dữ liệu? Chúng tôi đã tạo một thư mục ví dụ đặc biệt với mã nguồn đơn giản, có chú thích rõ ràng để giúp bạn bắt đầu:

  • 🌟 Hello World - Chương trình khoa học dữ liệu đầu tiên của bạn
  • 📂 Tải Dữ liệu - Học cách đọc và khám phá bộ dữ liệu
  • 📊 Phân tích Đơn giản - Tính toán thống kê và tìm kiếm mẫu
  • 📈 Trực quan hóa Cơ bản - Tạo biểu đồ và đồ thị
  • 🔬 Dự án Thực tế - Quy trình hoàn chỉnh từ đầu đến cuối

Mỗi ví dụ đều có chú thích chi tiết giải thích từng bước, rất phù hợp cho người mới bắt đầu tuyệt đối!

👉 Bắt đầu với các ví dụ 👈

Các bài học

 Sketchnote bởi @sketchthedocs https://sketchthedocs.dev
Lộ trình Khoa học Dữ liệu cho Người mới bắt đầu - Sketchnote bởi @nitya
Số bài học Chủ đề Nhóm bài học Mục tiêu học tập Bài học liên kết Tác giả
01 Định nghĩa Khoa học Dữ liệu Giới thiệu Tìm hiểu các khái niệm cơ bản về khoa học dữ liệu và mối liên hệ của nó với trí tuệ nhân tạo, học máy và dữ liệu lớn. bài học video Dmitry
02 Đạo đức Khoa học Dữ liệu Giới thiệu Các khái niệm, thách thức và khuôn khổ về đạo đức dữ liệu. bài học Nitya
03 Định nghĩa Dữ liệu Giới thiệu Cách phân loại dữ liệu và các nguồn phổ biến của nó. bài học Jasmine
04 Giới thiệu về Thống kê & Xác suất Giới thiệu Các kỹ thuật toán học về xác suất và thống kê để hiểu dữ liệu. bài học video Dmitry
05 Làm việc với Dữ liệu Quan hệ Làm việc với dữ liệu Giới thiệu về dữ liệu quan hệ và cơ bản về khám phá và phân tích dữ liệu quan hệ với Ngôn ngữ Truy vấn Có cấu trúc, còn gọi là SQL (phát âm “xi-kwel”). bài học Christopher
06 Làm việc với Dữ liệu NoSQL Làm việc với dữ liệu Giới thiệu về dữ liệu phi quan hệ, các loại khác nhau của nó và cơ bản về khám phá và phân tích các cơ sở dữ liệu tài liệu. bài học Jasmine
07 Làm việc với Python Làm việc với dữ liệu Cơ bản về sử dụng Python để khám phá dữ liệu với các thư viện như Pandas. Khuyến nghị có kiến thức nền tảng về lập trình Python. bài học video Dmitry
08 Chuẩn bị Dữ liệu Làm việc với dữ liệu Các chủ đề về kỹ thuật dữ liệu để làm sạch và chuyển đổi dữ liệu nhằm xử lý các thách thức về dữ liệu thiếu, không chính xác hoặc không đầy đủ. bài học Jasmine
09 Trực quan hóa Số lượng Trực quan hóa dữ liệu Học cách sử dụng Matplotlib để trực quan hóa dữ liệu chim 🦆 bài học Jen
10 Trực quan hóa Phân bố Dữ liệu Trực quan hóa dữ liệu Trực quan hóa các quan sát và xu hướng trong một khoảng. bài học Jen
11 Trực quan hóa Tỷ lệ Trực quan hóa dữ liệu Trực quan hóa các phần trăm rời rạc và nhóm. bài học Jen
12 Trực quan hóa Mối quan hệ Trực quan hóa dữ liệu Trực quan hóa các kết nối và tương quan giữa các bộ dữ liệu và các biến của chúng. bài học Jen
13 Trực quan hóa Có ý nghĩa Trực quan hóa dữ liệu Các kỹ thuật và hướng dẫn giúp trực quan hóa của bạn có giá trị cho việc giải quyết vấn đề và sẽ kiến hiệu quả. bài học Jen
14 Giới thiệu về Vòng đời Khoa học Dữ liệu Vòng đời Giới thiệu về vòng đời khoa học dữ liệu và bước đầu tiên là thu thập và trích xuất dữ liệu. bài học Jasmine
15 Phân tích Vòng đời Giai đoạn này của vòng đời khoa học dữ liệu tập trung vào các kỹ thuật phân tích dữ liệu. bài học Jasmine
16 Giao tiếp Vòng đời Giai đoạn này của vòng đời khoa học dữ liệu tập trung vào việc trình bày những hiểu biết từ dữ liệu theo cách giúp người ra quyết định dễ hiểu hơn. bài học Jalen
17 Khoa học Dữ liệu trên Đám mây Dữ liệu Đám mây Chuỗi bài học này giới thiệu về khoa học dữ liệu trên đám mây và các lợi ích của nó. bài học TiffanyMaud
18 Khoa học Dữ liệu trên Đám mây Dữ liệu Đám mây Huấn luyện mô hình sử dụng công cụ Low Code. bài học TiffanyMaud
19 Khoa học Dữ liệu trên Đám mây Dữ liệu Đám mây Triển khai mô hình với Azure Machine Learning Studio. bài học TiffanyMaud
20 Khoa học Dữ liệu trong Thực tế Trong Thực tế Các dự án dựa trên khoa học dữ liệu trong thế giới thực. bài học Nitya

GitHub Codespaces

Làm theo các bước sau để mở mẫu này trong một Codespace:

  1. Nhấp vào menu thả xuống Code và chọn tùy chọn Mở với Codespaces.
  2. Chọn + Codespace mới ở dưới cùng của bảng điều khiển. Để biết thêm thông tin, xem tài liệu GitHub.

VSCode Remote - Containers

Làm theo các bước này để mở kho lưu trữ này trong container sử dụng máy tính cục bộ của bạn và VSCode với phần mở rộng VS Code Remote - Containers:

  1. Nếu đây là lần đầu bạn sử dụng container phát triển, hãy đảm bảo hệ thống của bạn đáp ứng các yêu cầu trước (ví dụ đã cài Docker) trong tài liệu hướng dẫn bắt đầu.

Để sử dụng kho lưu trữ này, bạn có thể mở kho lưu trữ trong một volume Docker cô lập:

Lưu ý: Về mặt kỹ thuật, điều này sẽ sử dụng lệnh Remote-Containers: Clone Repository in Container Volume... để nhân bản mã nguồn trong một volume Docker thay vì trong hệ thống tệp cục bộ. Volumes là cơ chế ưu tiên để lưu trữ dữ liệu container.

Hoặc mở bản sao đã clone hoặc tải về kho lưu trữ tại máy cục bộ:

  • Clone kho lưu trữ này về hệ thống tập tin cục bộ.
  • Nhấn F1 và chọn lệnh Remote-Containers: Open Folder in Container....
  • Chọn thư mục đã clone này, chờ container khởi động và thử nghiệm.

Truy cập ngoại tuyến

Bạn có thể chạy tài liệu này ngoại tuyến bằng cách sử dụng Docsify. Fork repo này, cài đặt Docsify trên máy cục bộ, sau đó ở thư mục gốc của repo, gõ lệnh docsify serve. Trang web sẽ được phục vụ tại cổng 3000 trên localhost của bạn: localhost:3000.

Lưu ý, các notebook sẽ không được render qua Docsify, nên khi cần chạy notebook, hãy chạy riêng trong VS Code với kernel Python.

Các Chương trình Giảng dạy Khác

Nhóm chúng tôi còn sản xuất các chương trình giảng dạy khác! Hãy xem qua:

LangChain

LangChain4j cho Người mới bắt đầu LangChain.js dành cho người mới bắt đầu LangChain dành cho người mới bắt đầu

Azure / Edge / MCP / Agents

AZD dành cho người mới bắt đầu Edge AI dành cho người mới bắt đầu MCP dành cho người mới bắt đầu AI Agents dành cho người mới bắt đầu


Chuỗi AI Sinh tạo

Generative AI dành cho người mới bắt đầu Generative AI (.NET) Generative AI (Java) Generative AI (JavaScript)


Học tập cốt lõi

ML dành cho người mới bắt đầu Khoa học dữ liệu dành cho người mới bắt đầu AI dành cho người mới bắt đầu An ninh mạng dành cho người mới bắt đầu Phát triển web dành cho người mới bắt đầu IoT dành cho người mới bắt đầu Phát triển XR dành cho người mới bắt đầu


Chuỗi Copilot

Copilot cho lập trình cặp với AI Copilot cho C#/.NET Cuộc phiêu lưu Copilot

Nhận trợ giúp

Gặp vấn đề? Kiểm tra Hướng dẫn khắc phục sự cố của chúng tôi để tìm giải pháp cho các vấn đề phổ biến.

Nếu bạn bị kẹt hoặc có bất kỳ câu hỏi nào về việc xây dựng ứng dụng AI. Hãy tham gia cùng những người học khác và các nhà phát triển có kinh nghiệm trong các cuộc thảo luận về MCP. Đây là một cộng đồng thân thiện, nơi mọi câu hỏi đều được chào đón và kiến thức được chia sẻ tự do.

Microsoft Foundry Discord

Nếu bạn có phản hồi về sản phẩm hoặc lỗi trong quá trình xây dựng, hãy truy cập:

Microsoft Foundry Developer Forum


Từ chối trách nhiệm: Tài liệu này đã được dịch sử dụng dịch vụ dịch thuật AI Co-op Translator. Mặc dù chúng tôi nỗ lực đảm bảo tính chính xác, xin lưu ý rằng các bản dịch tự động có thể chứa lỗi hoặc không chính xác. Tài liệu gốc bằng ngôn ngữ nguyên bản của nó nên được coi là nguồn tham khảo chính xác nhất. Đối với thông tin quan trọng, nên sử dụng dịch vụ dịch thuật chuyên nghiệp bởi con người. Chúng tôi không chịu trách nhiệm về bất kỳ hiểu lầm hoặc diễn giải sai nào phát sinh từ việc sử dụng bản dịch này.