DBT ช่วยให้นักวิเคราะห์ข้อมูลและวิศวกรสามารถแปลงข้อมูลของพวกเขาโดยใช้แนวทางปฏิบัติเดียวกับที่วิศวกรซอฟต์แวร์ใช้ในการสร้างแอปพลิเคชัน
DataBricks Lakehouse ให้หนึ่งแพลตฟอร์มง่าย ๆ เพื่อรวมข้อมูลทั้งหมดของคุณการวิเคราะห์และเวิร์กโหลด AI ของคุณ
อะแดปเตอร์ dbt-databricks มีรหัสทั้งหมดที่ทำให้ DBT สามารถทำงานกับ Databricks ได้ อะแดปเตอร์นี้มีพื้นฐานมาจากงานที่น่าทึ่งที่ทำใน DBT-spark คุณสมบัติที่สำคัญบางอย่าง ได้แก่ :
ติดตั้งง่าย ไม่จำเป็นต้องติดตั้งไดรเวอร์ ODBC เนื่องจากอะแดปเตอร์ใช้ API Python Python
เปิดโดยค่าเริ่มต้น ตัวอย่างเช่นมันใช้รูปแบบตารางเปิดและ performant delta โดยค่าเริ่มต้น สิ่งนี้มีประโยชน์มากมายรวมถึงการให้คุณใช้ MERGE เป็นกลยุทธ์การทำให้เป็นรูปธรรมเริ่มต้นเริ่มต้น
สนับสนุนแคตตาล็อก Unity DBT-Databricks> = 1.1.1 รองรับ Namespace 3 ระดับของ Catalog Unity (แคตตาล็อก / สคีมา / ความสัมพันธ์) เพื่อให้คุณสามารถจัดระเบียบและรักษาความปลอดภัยข้อมูลตามที่คุณต้องการ
ผลงาน . อะแดปเตอร์จะสร้างนิพจน์ SQL ที่เร่งโดยอัตโนมัติโดยเอ็นจิ้นโฟตอนแบบเวกเตอร์
หากคุณกำลังพัฒนาโครงการ DBT บน Databricks เราขอแนะนำให้ใช้ dbt-databricks ด้วยเหตุผลที่ระบุไว้ข้างต้น
dbt-spark เป็นอะแดปเตอร์ที่พัฒนาขึ้นอย่างแข็งขันซึ่งทำงานร่วมกับ Databricks รวมถึง Apache Spark ทุกที่ที่โฮสต์เช่น AWS EMR
ติดตั้งโดยใช้ PIP:
pip install dbt-databricksอัปเกรดเป็นเวอร์ชันล่าสุด
pip install --upgrade dbt-databricksyour_profile_name:
target: dev
outputs:
dev:
type: databricks
catalog: [optional catalog name, if you are using Unity Catalog, only available in dbt-databricks>=1.1.1]
schema: [database/schema name]
host: [your.databrickshost.com]
http_path: [/sql/your/http/path]
token: [dapiXXXXXXXXXXXXXXXXXXXXXXX] การเริ่มต้นอย่างรวดเร็วเหล่านี้จะช่วยให้คุณทำงานพร้อมกับอะแดปเตอร์ dbt-databricks :
การพัฒนาโครงการ DBT แรกของคุณ
การใช้ DBT Cloud กับ Databricks (Azure | AWS)
รันงานการผลิต DBT บนเวิร์กโฟลว์ Databricks
ใช้แคตตาล็อก Unity กับ DBT-Databricks
การใช้การกระทำของ GitHub สำหรับ DBT CI/CD บน Databricks
การโหลดข้อมูลจาก S3 ไปยัง Delta โดยใช้มาโคร databricks_copy_into
มีส่วนร่วมในที่เก็บนี้
อะแดปเตอร์ dbt-databricks ได้รับการทดสอบแล้ว:
ด้วย Python 3.7 หรือสูงกว่า
เทียบกับ Databricks SQL และ Databricks runtime releases 9.1 LTS และภายหลัง
คุณสามารถแทนที่การคำนวณที่ใช้สำหรับโมเดล Python เฉพาะได้โดยการตั้งค่าคุณสมบัติ http_path ในการกำหนดค่าโมเดล สิ่งนี้จะมีประโยชน์หากคุณต้องการเรียกใช้โมเดล Python บนคลัสเตอร์วัตถุประสงค์ทั้งหมดในขณะที่ใช้โมเดล SQL บนคลังสินค้า SQL โปรดทราบว่าความสามารถนี้มีให้เฉพาะสำหรับรุ่น Python
def model(dbt, session): dbt.config( http_path="sql/protocolv1/..." )