Ugrás a fő tartalomra

Bejegyzések

Bejegyzések megjelenítése ebből a hónapból: 2025

Uber Secondary Index az Apache Parquet számára

Uber Secondary Index az Apache Parquet számára 1. Bevezetés: Mi az Uber Secondary Index a Parquet kontextusában? Az Uber Secondary Index (más néven row-level secondary index vagy Parquet row-level secondary index ) egy Uber által fejlesztett és bevezetett mechanizmus, amely kiterjeszti az Apache Parquet fájlformátum képességeit. Ez nem egy önálló Apache projekt, hanem egy belső optimalizáció , amelyet az Uber a nagy léptékű adatkezelési platformján (data lakehouse) használ, elsősorban Apache Hudi integrációval. A cél: gyorsabb upsert műveletek (update + insert) támogatása Parquet fájlokon belül, miközben minimalizálja az I/O műveleteket. Fejlesztő : Uber Engineering (Data Infra csapat, pl. Xinli Shang, Jianchun Xu) Első említés : 2023-ban, Uber blogposztban ("Fast Copy-On-Write within Apache Parquet for Data Lakehouse ACID Upserts") Célzott probléma : A hagyományos Parquet immutable (változtathatatlan) jellege miatt az ACID műveletek (pl. upserts) gyakran teljes fájl-ú...