Эпизоды
-
OTF Talk 第21回はDatabricksの桑野 章弘さんに、「Delta Lake 入門」についてお話をうかがいました。
Delta Lakeのはじまり/商用版とOSS版の違い/Delta Lake の特徴/楽観的なトランザクション管理/Unity Catalog
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
https://www.otftalk.com/
guest:@kuwa_tw
Databricks ソリューションアーキテクト
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考)
桑野さん Xアカウント https://x.com/kuwa_tw
Databrics https://www.databricks.com/jp
Delta Lakeとは? (Databricksドキュメント)
https://docs.databricks.com/ja/delta/index.html
Delta Lakeクイックスタートガイド (Takaaki Yayoi)
https://qiita.com/taka_yayoi/items/345f503d5f8177084f24
Deltaテーブルにおけるリキッドクラスタリングの活用 (Takaaki Yayoi)
https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1
楽観的なトランザクション管理 (Takaaki Yayoi)
https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1
Databricks 事例(株式会社リクルート)
https://www.databricks.com/sites/default/files/2023-03/customer_story_recruit_ja_jp_2.pdf
-
OTF Talk 第20回は、joker1007さんに「Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(後編)」についてお話をうかがいました。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
Hudiを選択した背景/検証環境/インデックス設定による変化/結果と考察
guest:@joker1007
Repro チーフアーキテクト
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考)
joker1007さんXアカウント https://x.com/joker1007
Repro https://repro.io/
更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて (joker1007さんによるHudi解説)
https://tech.repro.io/entry/2024/07/26/141233
本番のトラフィック量でHudiを検証して見えてきた課題 (otfst_tokyo #4 でのjoker1007さん登壇資料)
https://speakerdeck.com/joker1007/ben-fan-notorahuitukuliang-dehudiwojian-zheng-sitejian-etekitake-ti
Apache HudiのMerge on Readテーブルのパフォーマンス特性とチューニングについて(上記資料の解説ブログ)
https://tech.repro.io/entry/2024/10/28/170721
-
Пропущенные эпизоды?
-
OTF Talk 第19回はjoker1007さんに、「Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(前編)」についてお話をうかがいました。
既存システムとその特性/将来に向けて解消したい課題/OTF(Hudi)に着目した理由
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
guest:@joker1007
Repro チーフアーキテクト
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考)
joker1007さんXアカウント https://x.com/joker1007
Repro https://repro.io/
更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて (joker1007さんによるHudi解説)
https://tech.repro.io/entry/2024/07/26/141233
本番のトラフィック量でHudiを検証して見えてきた課題 (otfst_tokyo #4 でのjoker1007さん登壇資料)
https://speakerdeck.com/joker1007/ben-fan-notorahuitukuliang-dehudiwojian-zheng-sitejian-etekitake-ti
Apache HudiのMerge on Readテーブルのパフォーマンス特性とチューニングについて(上記資料の解説ブログ)
https://tech.repro.io/entry/2024/10/28/170721
-
第18回:LINEヤフーにおけるHiveからIcebergへの移行(後編)
OTF Talk 第18回は、奥田さんに「LINEヤフーにおけるHiveからIcebergへの移行(後編)」についてお話をうかがいました。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
Iceberg導入のモチベーション/HiveからIcebergへインプレースでの移行/一部移行した感触/ユーザーコミュニケーションの重要性
guest:奥田 輔さん @okdtsk
LINEヤフー データグループ
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
Cloudera Evolve 2024
https://www.cloudera.com/events/evolve/singapore.html
LINEのデータプラットフォームが目指すべき未来
※2021年の資料ですが、当時の基盤やデータサイズについて触れられています。
https://speakerdeck.com/line_developers/the-future-of-line-data-platform-we-are-aiming-for
Protocol Buffers
https://github.com/protocolbuffers/protobuf
-
OTF Talk 第17回は奥田さんに、「LINEヤフーにおけるHiveからIcebergへの移行(前編)」についてお話をうかがいました。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
Cloudera Evolve 2024での登壇/HDFSで900PB超のデータ基盤/現状の構成と課題/なぜApache Iceberg?
guest:奥田 輔さん @okdtsk
LINEヤフー データグループ
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
Cloudera Evolve 2024
https://www.cloudera.com/events/evolve/singapore.html
LINEのデータプラットフォームが目指すべき未来
※2021年の資料ですが、当時の基盤やデータサイズについて触れられています。
https://speakerdeck.com/line_developers/the-future-of-line-data-platform-we-are-aiming-for
Protocol Buffers
https://github.com/protocolbuffers/protobuf
-
OTF Talk 第16回は、鯵坂さんに「AWS Glueの OTFサポート」についてお話をうかがいました。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
AWS Glue概要/AWS GlueのOTFサポート/開発におけるOTFトピック(Hudi, Iceberg)
guest:鯵坂 明さん @ajis_ka
AWS Glue サービスチーム シニアソフトウェアエンジニア / Hadoop PMC
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
Apache PMC (Project Management Committee)
https://www.apache.org/dev/pmc.html
Apache Ozone
https://ozone.apache.org/
AWS Glue
https://aws.amazon.com/jp/glue/
Hudiのログメッセージ改善Pull Request
https://github.com/apache/hudi/pull/9577
Icebergのコメント対応Pull Request
https://github.com/apache/iceberg/pull/10199
-
OTF Talk 第15回は鯵坂さんに、「Apache Hadoopから見たOTF」についてお話をうかがいました。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
鯵坂さんとHadoopとの関わり/OTF環境で利用されるHadoopソフトウェア/OTF実装とHiveカタログ
guest:鯵坂 明さん @ajis_ka
AWS Glue サービスチーム シニアソフトウェアエンジニア / Hadoop PMC
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
Apache PMC (Project Management Committee)
https://www.apache.org/dev/pmc.html
Apache Ozone
https://ozone.apache.org/
AWS Glue
https://aws.amazon.com/jp/glue/
Hudiのログメッセージ改善Pull Request
https://github.com/apache/hudi/pull/9577
Icebergのコメント対応Pull Request
https://github.com/apache/iceberg/pull/10199
-
OTF Talk 第14回は、ケビンさんに、Apache Iceberg The Definitive Guide 輪読会と、その輪読会での学習内容であるIceberg概要やIcebergのパフォーマンス最適化についてお話をうかがいます。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
輪読会を運営中/なぜSnowflakeコミュニティがIcebergの勉強会を?/第1章:Icebergとは何か/第4章:パフォーマンス
guest: @kevinrobot34 (ケビン)
ナウキャスト データプラットフォームエンジニア
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
SnowflakeのIcebergサポート (Snowflakeドキュメント)
https://docs.snowflake.com/en/release-notes/2024/other/2024-06-10-iceberg-tables
Apache Iceberg: The Definitive Guide
https://www.amazon.co.jp/dp/B0CZ4F2MP3
輪読会発表資料:1章 前田さん
https://drive.google.com/file/d/1a7J1OJustb5125KT6s2HkAqtzuifJvNT/view
輪読会発表資料:4章前半 ※ケビンさん
https://speakerdeck.com/kevinrobot34/apache-iceberg-the-definitive-guide-ch4
輪読会発表資料:4章後半 ※島尻さん
https://speakerdeck.com/rshimajiri/apache-iceberg-the-definitive-guide-lun-du-hui-4zhang-optimizing-the-performance-of-iceberg-tables-hou-ban
Bloom filter (Wikipedia)
https://ja.wikipedia.org/wiki/%E3%83%96%E3%83%AB%E3%83%BC%E3%83%A0%E3%83%95%E3%82%A3%E3%83%AB%E3%82%BF
-
OTF Talk 第13回はケビンさんに、DWH利用者からみた、Apache Icebergの魅力についてお話を伺いました。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
SnowflakeのIceberg対応/Icebergの学習を通してDWHの内部を想像する/DWHとIcebergの使いわけ
guest: @kevinrobot34 (ケビン)
ナウキャスト データプラットフォームエンジニア
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
SnowflakeのIcebergサポート (Snowflakeドキュメント)
https://docs.snowflake.com/en/release-notes/2024/other/2024-06-10-iceberg-tables
Apache Iceberg: The Definitive Guide
https://www.amazon.co.jp/dp/B0CZ4F2MP3
輪読会発表資料:1章 前田さん
https://drive.google.com/file/d/1a7J1OJustb5125KT6s2HkAqtzuifJvNT/view
輪読会発表資料:4章前半 ※ケビンさん
https://speakerdeck.com/kevinrobot34/apache-iceberg-the-definitive-guide-ch4
輪読会発表資料:4章後半 ※島尻さん
https://speakerdeck.com/rshimajiri/apache-iceberg-the-definitive-guide-lun-du-hui-4zhang-optimizing-the-performance-of-iceberg-tables-hou-ban
Bloom filter (Wikipedia)
https://ja.wikipedia.org/wiki/%E3%83%96%E3%83%AB%E3%83%BC%E3%83%A0%E3%83%95%E3%82%A3%E3%83%AB%E3%82%BF
-
OTF Talk 第12回は、Starburst の 蛯原 裕弥 さんに、OTF(Iceberg, Delta lake)をサポートするTrinoのコネクタについて、概要やその実装方法についてお話をうかがいました。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
Trinoコネクタの役割/Icebergコネクタ/Trino+コネクタの特徴/Delta lakeコネクタ/Delta kernelを使っていない理由
guest: @ebyhr (蛯原 裕弥)
Starburst Engineer / Trino, Apache Polaris committer
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
--------------------
参考文献)
Starburst
https://www.starburst.io/
Apache Polaris
https://polaris.apache.org/
Presto
https://prestodb.github.io/
Trino
https://trino.io/
Write-Audit-Publish (WAP)解説 (Tabular)
https://www.tabular.io/apache-iceberg-cookbook/data-engineering-write-audit-publish/
蛯原さんのWrite-Audit-Publish (WAP)の実装のための活動(pull request)
https://github.com/trinodb/trino/pull/23513
誤った統計情報を読み取った場合の挙動についてのpull request
https://github.com/apache/iceberg/pull/8559
Delta kernel
https://delta.io/blog/delta-kernel/
-
OTF Talk 第11回は、Starburst の 蛯原 裕弥 さんに、OTFのデータをクエリする際によく利用されている分散SQLエンジンであるPresto/Trinoの成り立ちや、Trinoのフェデレーション機能と各種コネクタについてお話をうかがいました。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
PrestoとTrinoの成り立ち/Trinoの特徴/フェデレーション機能とコネクタ/実装はどこが担うのか
guest: @ebyhr (蛯原 裕弥)
Starburst Engineer / Trino, Apache Polaris committer
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
Starburst
https://www.starburst.io/
Apache Polaris
https://polaris.apache.org/
Presto
https://prestodb.github.io/
Trino
https://trino.io/
Write-Audit-Publish (WAP)解説 (Tabular)
https://www.tabular.io/apache-iceberg-cookbook/data-engineering-write-audit-publish/
蛯原さんのWrite-Audit-Publish (WAP)の実装のための活動(pull request)
https://github.com/trinodb/trino/pull/23513
誤った統計情報を読み取った場合の挙動についてのpull request
https://github.com/apache/iceberg/pull/8559
Delta kernel
https://delta.io/blog/delta-kernel/
-
OTF Talk 第10回は、”やっさん”こと、永富安和さんに、Icebergのセキュリティ(暗号化等)の動きや、検討されている機能追加についてお話をうかがいました。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
Icebergとセキュリティ/暗号化/アクセス制御/どこまでスペックにいれるべきか?/その他検討されている機能/OTFSGへの参加お待ちしております
guest: @yassan168 (永富 安和)
マイクロアド シニアエンジニア
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
日本のOTFコミュニティ OTFSG https://otfsg-tokyo.connpass.com/
Rancher ユーザー会 (やっさんが管理者のコミュニティ) https://rancherjp.connpass.com/
Cloudera Evolve 24 Singapopre
https://www.cloudera.com/events/evolve/singapore.html
Cloudera社によるデータカタログと Iceberg REST Catalog 統合のPR https://prtimes.jp/main/html/rd/p/000000014.000124537.html
Apache Porlris (Polaris Catalog)
https://polaris.apache.org/
Polaris のOSS化アナウンス (Snowflake)
https://www.snowflake.com/en/blog/polaris-catalog-open-source/
Polaris の解説 (Alex Merced)
https://www.linkedin.com/pulse/understanding-polaris-iceberg-catalog-its-alex-merced-es6ac/
Apache Polaris と OSS Unity Catalogとの比較 (OSS Insight)
https://ossinsight.io/analyze/apache/polaris?vs=unitycatalog%2Funitycatalog
Rest Comatibikity Kit (RCK) の追加(プルリクエスト) https://github.com/apache/iceberg/pull/10908
HiveにIceberg REST catalogを追加する(プルリクエスト) https://github.com/apache/hive/pull/5145
Iceberg Spec V3 Enctyption https://github.com/orgs/apache/projects/393/views/1
IcebegのRangerサポートのIssue https://github.com/apache/iceberg/issues/3619
OTF Talk #5 Deltaleke UniForm
https://www.otftalk.com/2024/08/ep02.html
IcebergのAES GCM Stream file format extension (Spec) https://iceberg.apache.org/gcm-stream-spec/
Open Policy Agent (OPA) https://www.openpolicyagent.org/
-
OTF Talk 第9回は、”やっさん”こと、永富安和さんに、Icebergのカタログ周りやPolaris Catalogについてお話をうかがいました。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
Icebergにとってのカタログの位置づけ/Polaris Catallog/OSS化の動きと意義/Iceberg REST API 仕様を内包する動き
guest: @yassan168 (永富 安和)
マイクロアド シニアエンジニア
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
日本のOTFコミュニティ OTFSG https://otfsg-tokyo.connpass.com/
Rancher ユーザー会 (やっさんが管理者のコミュニティ) https://rancherjp.connpass.com/
Cloudera Evolve 24 Singapopre
https://www.cloudera.com/events/evolve/singapore.html
Cloudera社によるデータカタログと Iceberg REST Catalog 統合のPR https://prtimes.jp/main/html/rd/p/000000014.000124537.html
Apache Porlris (Polaris Catalog)
https://polaris.apache.org/
Polaris のOSS化アナウンス (Snowflake)
https://www.snowflake.com/en/blog/polaris-catalog-open-source/
Polaris の解説 (Alex Merced)
https://www.linkedin.com/pulse/understanding-polaris-iceberg-catalog-its-alex-merced-es6ac/
Apache Polaris と OSS Unity Catalogとの比較 (OSS Insight)
https://ossinsight.io/analyze/apache/polaris?vs=unitycatalog%2Funitycatalog
Rest Comatibikity Kit (RCK) の追加(プルリクエスト) https://github.com/apache/iceberg/pull/10908
HiveにIceberg REST catalogを追加する(プルリクエスト) https://github.com/apache/hive/pull/5145
Iceberg Spec V3 Enctyption https://github.com/orgs/apache/projects/393/views/1
IcebegのRangerサポートのIssue https://github.com/apache/iceberg/issues/3619
OTF Talk #5 Deltaleke UniForm
https://www.otftalk.com/2024/08/ep02.html
IcebergのAES GCM Stream file format extension (Spec) https://iceberg.apache.org/gcm-stream-spec/
Open Policy Agent (OPA) https://www.openpolicyagent.org/
-
OTF Talk 第8回は、”やっさん”こと、永富安和さんに、日本のOTFコミュニティであるOTFSGや、シンガポールで開催されたIceberg meet-upでの話題についてお話を伺いました。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
日本のコミュニティOTFSG/Cloudera Evolve 2024 Singapore/Iceberg Meetupでの今後の方向性/
guest: @yassan168 (永富 安和)
マイクロアド シニアエンジニア
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
日本のOTFコミュニティ OTFSG https://otfsg-tokyo.connpass.com/
Rancher ユーザー会 (やっさんが管理者のコミュニティ) https://rancherjp.connpass.com/
Cloudera Evolve 24 Singapopre
https://www.cloudera.com/events/evolve/singapore.html
Cloudera社によるデータカタログと Iceberg REST Catalog 統合のPR https://prtimes.jp/main/html/rd/p/000000014.000124537.html
Apache Porlris (Polaris Catalog)
https://polaris.apache.org/
Polaris のOSS化アナウンス (Snowflake)
https://www.snowflake.com/en/blog/polaris-catalog-open-source/
Polaris の解説 (Alex Merced)
https://www.linkedin.com/pulse/understanding-polaris-iceberg-catalog-its-alex-merced-es6ac/
Apache Polaris と OSS Unity Catalogとの比較 (OSS Insight)
https://ossinsight.io/analyze/apache/polaris?vs=unitycatalog%2Funitycatalog
Rest Comatibikity Kit (RCK) の追加(プルリクエスト) https://github.com/apache/iceberg/pull/10908
HiveにIceberg REST catalogを追加する(プルリクエスト) https://github.com/apache/hive/pull/5145
Iceberg Spec V3 Enctyption https://github.com/orgs/apache/projects/393/views/1
IcebegのRangerサポートのIssue https://github.com/apache/iceberg/issues/3619
OTF Talk #5 Deltaleke UniForm
https://www.otftalk.com/2024/08/ep02.html
IcebergのAES GCM Stream file format extension (Spec) https://iceberg.apache.org/gcm-stream-spec/
Open Policy Agent (OPA) https://www.openpolicyagent.org/
-
OTF Talk 第7回は、AWS Glue プロダクトチームの関山 宜孝さんをゲストに、OTFのユースケースである、個人情報保護対応のためのデータ更新・削除についてお話をうかがいました。
※今回は録音環境に問題があったため、ゲストの声が聴きづらくなっています。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
個人情報を消したい・マスクしたいというニーズ/なぜ実現困難だったのか/OTF でどう実現できるのか/削除とトランザクション/本当に消す必要があるのか/事例
guest: @moomindani (関山 宜孝)
AWS Glue product team 所属の Principal Big Data Architect
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
Iceberg のChangelog View解説(べりんぐさんのブログ)
https://bering.hatenadiary.com/entry/2024/03/31/150946
OSSのCDCツール Debezium https://debezium.io/
データベースをCDCでApache Icebergに反映するサンプル構成 (AWS Blog)
https://aws.amazon.com/jp/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/
メダリオンアーキテクチャ (databricks)
https://www.databricks.com/jp/glossary/medallion-architecture
EUの一般データ保護規則(GDPR) https://www.ppc.go.jp/enforcement/infoprovision/EU/
日本の改正個人情報保護法 https://www.ppc.go.jp/news/kaiseihou_feature/
Yahoo! Japan 事例 「Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話」
https://techblog.yahoo.co.jp/entry/2022052530303179/
-
OTF Talk 第6回は、AWS Glue プロダクトチームの関山 宜孝さんをゲストに、OTFのユースケースの1つであるCDC (Change Data Capture)の活用についてお話をうかがいました。
※今回は録音環境に問題があったため、ゲストの声が聴きづらくなっています。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
RDBをリアルタイムにdata lakeに連携したい/CDC (Change Data Capture)/なぜ実現困難だったのか/Upsertとトランザクション/データレイクをデータソースにする
guest: @moomindani (関山 宜孝)
AWS Glue product team 所属の Principal Big Data Architect
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
Iceberg のChangelog View解説(べりんぐさんのブログ)
https://bering.hatenadiary.com/entry/2024/03/31/150946
OSSのCDCツール Debezium https://debezium.io/
データベースをCDCでApache Icebergに反映するサンプル構成 (AWS Blog)
https://aws.amazon.com/jp/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/
メダリオンアーキテクチャ (databricks)
https://www.databricks.com/jp/glossary/medallion-architecture
EUの一般データ保護規則(GDPR) https://www.ppc.go.jp/enforcement/infoprovision/EU/
日本の改正個人情報保護法 https://www.ppc.go.jp/news/kaiseihou_feature/
Yahoo! Japan 事例 「Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話」
https://techblog.yahoo.co.jp/entry/2022052530303179/
-
OTF Talk 第5回は、AWSの田中 智大さんをゲストに Delta Lake UniForm (Universal Format) についてと、カンファレンスに登壇する意義についてお話を伺いました。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
Data + AI Summit で登壇/UniForm (Universal Format)ってなに?/UniFormの仕組みと、活用領域/ カンファレンスに登壇するモチベーション/物理的に会ったあとに何が変わったか
guest:Tomohiro Tanaka (Linkedin https://www.linkedin.com/in/ttomtan/)
AWSのシニア・クラウドサポートエンジニア(Bigdata profile)
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
Apache Iceberg Github https://github.com/apache/iceberg
田中さんの最初のPull Request https://github.com/apache/iceberg/pull/3468
Icebergプロジェクトのコントリビューター https://github.com/apache/iceberg/graphs/contributors
Good first issue https://goodfirstissue.dev/
Apache Iceberg の中でOpenになっているProject https://github.com/apache/iceberg/projects?query=is%3Aopen
Data + AI Summit での田中さん発表
Recording https://www.databricks.com/dataaisummit/session/delivering-portability-open-data-lakes-delta-lake-uniform
YouTube https://www.youtube.com/watch?v=lIOLzX2bVdg
UniForm (Universal Format) の日本語解説 (Databricks) https://www.databricks.com/jp/blog/delta-lake-universal-format-uniform-iceberg-compatibility-now-ga
UniFormドキュメント https://docs.delta.io/latest/delta-uniform.html
-
OTF Talk 第4回は、AWSの田中 智大 (tomtan) さんをゲストに、Apache Iceberg へのコントリビューションの経験や、Icebergコミュニティについてお話を伺いました。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。
Apache Iceberg との出会い/はじめてのコントリビューション/どうすれば貢献できる?/Good first issue/Iceberg コミュニティ
guest:Tomohiro Tanaka (Linkedin https://www.linkedin.com/in/ttomtan/)
AWSのシニア・クラウドサポートエンジニア(Bigdata profile)
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
Apache Iceberg Github https://github.com/apache/iceberg
田中さんの最初のPull Request https://github.com/apache/iceberg/pull/3468
Icebergプロジェクトのコントリビューター https://github.com/apache/iceberg/graphs/contributors
Good first issue https://goodfirstissue.dev/
Apache Iceberg の中でOpenになっているProject https://github.com/apache/iceberg/projects?query=is%3Aopen
Data + AI Summit での田中さん発表
Recording https://www.databricks.com/dataaisummit/session/delivering-portability-open-data-lakes-delta-lake-uniform
YouTube https://www.youtube.com/watch?v=lIOLzX2bVdg
UniForm (Universal Format) の日本語解説 (Databricks) https://www.databricks.com/jp/blog/delta-lake-universal-format-uniform-iceberg-compatibility-now-ga
UniFormドキュメント https://docs.delta.io/latest/delta-uniform.html
-
AWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。第3回は「OTFのこれから」として、OTFに今後期待されていることや、カタログの重要性、データエンジン以外からのアクセスについてお話を伺いました。
OTFに期待されること/相互運用性/カタログの重要性/データエンジン以外からのアクセス
guest: @_Bassari (疋田 宗太郎/べりんぐ)
AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
■全般
べりんぐさんブログでのOTFへの全般的な解説
https://bering.hatenadiary.com/entry/2023/07/17/235246
Iceberg, Hudi, Delta Lakeの比較記事
※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。
https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/
■ Apache Iceberg
ホームページ https://iceberg.apache.org/
べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953
Iceberg: a fast table format for S3
当時Netflix所属のRyan BlueがIcebergをどんなモチベーションで作ったかを語るもの(2018年)
https://www.youtube.com/watch?v=nWwQMlrjhy0
Iceberg Summit 2024動画リスト。様々な企業のIceberg活用事例や技術的トピック多数
https://www.youtube.com/playlist?list=PLkifVhhWtccxBSrKFPXOmjAFFEpeYii5K
■ Apache Hudi
ホームページ https://hudi.apache.org/
Uber Blog: Hudi開発の背景 https://www.uber.com/en-JP/blog/hoodie/
Yahoo! Japan:Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話
データレイク上のデータ削除の必要性と、どのようにしてHudiを活用しているかを解説
https://techblog.yahoo.co.jp/entry/2022052530303179/
■ Delta Lake
ホームページ https://delta.io/
DataBricks社のkitaokaさんによる解説 https://ktksq.hatenablog.com/entry/deltalake
Databricks社による Data+AI Summit 2024 / Data lake house 関連の動画リスト
※Delta Lake はDatabricks社によって開発がリードされていることもあり、Databricks社のイベント "Data + AI Summit"で色々な発表が行われることが多いです。以下はその一部で、Data lake house関連のリストです。
https://www.youtube.com/watch?v=31BQwOiR260&list=PLTPXxbhUt-YW18S6p5wNu1SJxoF24S_UB
-
AWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。第2回は「OTFの今」として、Iceberg, Hudi, Delta Lakeといった3種類のOTF、およびその機能の概要についてお話を伺いました。
Iceberg, Hudi, Delta Lake/OTFの機能/ストレージと処理系の分離/ACIDトランザクション
guest: @_Bassari (疋田 宗太郎/べりんぐ)
AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。
host: @simosako (下佐粉 昭)
AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。
※感想は #OTFTalk でポストいただけると励みになります。
※発言は各個人のものであり、所属組織を代表するものではありません。
参考文献)
■全般
べりんぐさんブログでのOTFへの全般的な解説
https://bering.hatenadiary.com/entry/2023/07/17/235246
Iceberg, Hudi, Delta Lakeの比較記事
※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。
https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/
■ Apache Iceberg
ホームページ https://iceberg.apache.org/
べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953
Iceberg: a fast table format for S3
当時Netflix所属のRyan BlueがIcebergをどんなモチベーションで作ったかを語るもの(2018年)
https://www.youtube.com/watch?v=nWwQMlrjhy0
Iceberg Summit 2024動画リスト。様々な企業のIceberg活用事例や技術的トピック多数
https://www.youtube.com/playlist?list=PLkifVhhWtccxBSrKFPXOmjAFFEpeYii5K
■ Apache Hudi
ホームページ https://hudi.apache.org/
Uber Blog: Hudi開発の背景 https://www.uber.com/en-JP/blog/hoodie/
Yahoo! Japan:Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話
データレイク上のデータ削除の必要性と、どのようにしてHudiを活用しているかを解説
https://techblog.yahoo.co.jp/entry/2022052530303179/
■ Delta Lake
ホームページ https://delta.io/
DataBricks社のkitaokaさんによる解説 https://ktksq.hatenablog.com/entry/deltalake
Databricks社による Data+AI Summit 2024 / Data lake house 関連の動画リスト
※Delta Lake はDatabricks社によって開発がリードされていることもあり、Databricks社のイベント "Data + AI Summit"で色々な発表が行われることが多いです。以下はその一部で、Data lake house関連のリストです。
https://www.youtube.com/watch?v=31BQwOiR260&list=PLTPXxbhUt-YW18S6p5wNu1SJxoF24S_UB
- Показать больше