Chapter 4: Ingesting and Transforming Data | Azure Data Engineer Associate Certification Guide

Book Overview & Buying
Table Of Contents

Azure Data Engineer Associate Certification Guide - Second Edition

By : Giacinto Palmieri, Surendra Mettapalli, Newton Alex

4.6 (16)

Buy this Book

Azure Data Engineer Associate Certification Guide

4.6 (16)

By: Giacinto Palmieri, Surendra Mettapalli, Newton Alex

Buy this Book

Overview of this book

One of the top global cloud providers, Azure offers extensive data hosting and processing services, driving widespread cloud adoption and creating a high demand for skilled data engineers. The Azure Data Engineer Associate (DP-203) certification is a vital credential, demonstrating your proficiency as an Azure data engineer to prospective employers. This comprehensive exam guide is designed for both beginners and seasoned professionals, aligned with the latest DP-203 certification exam, to help you pass the exam on your first try. The book provides a foundational understanding of IaaS, PaaS, and SaaS, starting with core concepts like virtual machines (VMs), VNETS, and App Services and progressing to advanced topics such as data storage, processing, and security. What sets this exam guide apart is its hands-on approach, seamlessly integrating theory with practice through real-world examples, practical exercises, and insights into Azure's evolving ecosystem. Additionally, you'll unlock lifetime access to supplementary practice material on an online platform, including mock exams, interactive flashcards, and exam tips, ensuring a comprehensive exam prep experience. By the end of this book, you’ll not only be ready to excel in the DP-203 exam, but also be equipped to tackle complex challenges as an Azure data engineer.

Preface

Second Edition

Online Practice Resources

Who This Book Is For

What This Book Covers

Download the Example Code Files

Requirements for Online Content

How to Get the Most Out of This Book

Download the Color Images

Conventions Used

Get in Touch

Share Your Thoughts

Download a Free PDF Copy of This Book

Free Chapter

Part 1: Azure Basics

Chapter 1: Introducing Azure Basics

Making the Most Out of this Book – Your Certification and Beyond

Technical Requirements

Introducing the Azure Portal

Exploring Azure Accounts, Subscriptions, and Resource Groups

Introducing Azure Services

Exploring Azure VMs

Exploring Azure Storage

Exploring Azure Networking (VNet)

Summary

Exam Readiness Drill – Chapter Review Questions

Working On Timing

Part 2: Data Storage

Chapter 2: Implementing a Partition Strategy

Technical Requirements

Benefits of Partitioning

Designing a Partition Strategy for Files

Designing Partition Strategy for Analytical Workloads

Implementing Partition Strategy for Streaming Workloads

Partition Strategy for Efficiency and Performance

Designing Partition Strategy for Azure Synapse Analytics

Recognizing Partitioning Needs in ADLS Gen2

Summary

Exam Readiness Drill – Chapter Review Questions

Working On Timing

Chapter 3: Designing and Implementing the Data Exploration Layer

Technical Requirements

Introduction to Data Exploration

SQL Serverless and Spark Clusters

Azure Synapse Analytics Database Templates

Microsoft Purview

Summary

Exam Readiness Drill – Chapter Review Questions

Working On Timing

Part 3:Data Processing

Chapter 4: Ingesting and Transforming Data

Technical Requirements

Designing and Implementing Incremental Loads

Transforming Data Using Apache Spark

Transforming Data Using T-SQL

The Transforming Options Available in ADF

Transformations Using Synapse Pipelines

Transforming Data Using Stream Analytics

Splitting Data

Shredding JSON to Manage Data Elements

Encoding and Decoding Data

Configuring Error Handling for the Transformation

Normalizing and Denormalizing Values

Performing Data Exploratory Analysis

Summary

Exam Readiness Drill – Chapter Review Questions

Working On Timing

Chapter 5: Developing a Batch Processing Solution

Technical Requirements

Batch-Processing Technologies

Storage

Data Ingestion

Transformation

Using PolyBase to Load Data to a SQL Pool

Implementing Azure Synapse Link and Querying Replicated Data

Creating Data Pipelines

Scaling Resources

Configuring Batch Size

Creating Tests for Data Pipelines

Integrating Jupyter/Python Notebooks into a Data Pipeline

Upserting Data

Reverting Data to a Previous State

Configuring Exception Handling

Configuring Batch Retention

Reading from and Writing to a Delta Lake

Summary

Exam Readiness Drill – Chapter Review Questions

Working On Timing

Chapter 6: Developing a Stream Processing Solution

Technical Requirements

Implementing a Streaming Use Case with Azure

Processing Data Using Spark Structured Streaming

Creating Windowed Aggregates

Handling Schema Drifts

Processing Time Series Data

Processing Data across Partitions

Configuring Checkpoints and Watermarking

Scaling Resources

Developing Testing Processes for Data Pipelines

Optimizing Pipelines for Analytical or Transactional Purposes

Handling Interruptions

Configure Exception Handling

Upserting Data

Replaying Archived Stream Data

Summary

Exam Readiness Drill – Chapter Review Questions

Working On Timing

Chapter 7: Managing Batches and Pipelines

Technical Requirements

Trigger Batches

Handling Failed Batch Loads

Validating Batch Loads

Managing Data Pipelines in ADF or Synapse

Scheduling Data Pipelines in ADF or Synapse

Implementing Version Control for Pipeline Artifacts

Managing Spark Jobs in a Pipeline

Summary

Exam Readiness Drill – Chapter Review Questions

Working On Timing

Part 4:Secure, Monitor, and Optimize Data Storage and Processing

Chapter 8: Implementing Data Security

Technical Requirements

Implementing Data Masking

Encrypting Data at Rest and in Motion

Implementing Row-Level and Column-Level Security

Implementing Azure Role-Based Access Control

Implementing POSIX-Like ACLs for ADLS Gen2

Resolving Conflicting Rules: RBAC and ACLs

Implementing a Data Retention Policy

Implementing Secure Endpoints: Public and Private

Implementing Resource Tokens in Azure Databricks

Loading DataFrames with Sensitive Information

Managing Sensitive Information

Summary

Exam Readiness Drill – Chapter Review Questions

Working On Timing

Chapter 9: Monitoring Data Storage and Data Processing

Technical Requirements

Implementing Logging by Azure Monitor

Configuring Monitoring Services

Monitoring Stream Processing

Measuring the Performance of Data Movement

Monitoring and Updating Statistics

Monitoring Data Pipeline Performance

Measuring Query Performance

Scheduling and Monitoring Pipeline Tests

Interpreting Azure Monitor Metrics and Logs

Implementing a Pipeline Alert Strategy

Summary

Exam Readiness Drill – Chapter Review Questions

Working On Timing

Chapter 10: Optimizing and Troubleshooting Data Storage and Data Processing

Technical Requirements

Managing Small Files

Handling Skew in Data

Handling Data Spill

Optimizing Resource Management

Tuning Queries Using Indexers

Tuning Queries Using Caching

Troubleshooting a Failed Spark Job

Summary

Exam Readiness Drill – Chapter Review Questions

Working On Timing

Chapter 11: Accessing the Online Practice Resources

How to Access These Materials

Troubleshooting Tips

Back to the Book

Why subscribe?

Other Books You May Enjoy

Share Your Thoughts

Download a Free PDF Copy of This Book

Azure Data Engineer Associate Certification Guide - Second Edition

By : Giacinto Palmieri, Surendra Mettapalli, Newton Alex

Azure Data Engineer Associate Certification Guide

By: Giacinto Palmieri, Surendra Mettapalli, Newton Alex

Overview of this book

Transforming Data Using Apache Spark

Confirmation

Buy this book with your credits?

Submit Your Feedback

Create a Free Account To Continue Reading

Sign in to activate your 7-day free access