エピソード

  • OTF Talk 第20回は、joker1007さんに「Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(後編)」についてお話をうかがいました。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    Hudiを選択した背景/検証環境/インデックス設定による変化/結果と考察

    guest:@joker1007

    Repro チーフアーキテクト

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考)

    joker1007さんXアカウント https://x.com/joker1007

    Repro https://repro.io/

    更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて (joker1007さんによるHudi解説)

    https://tech.repro.io/entry/2024/07/26/141233

    本番のトラフィック量でHudiを検証して見えてきた課題 (otfst_tokyo #4 でのjoker1007さん登壇資料)

    https://speakerdeck.com/joker1007/ben-fan-notorahuitukuliang-dehudiwojian-zheng-sitejian-etekitake-ti

    Apache HudiのMerge on Readテーブルのパフォーマンス特性とチューニングについて(上記資料の解説ブログ)

    https://tech.repro.io/entry/2024/10/28/170721

  • OTF Talk 第19回はjoker1007さんに、「Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(前編)」についてお話をうかがいました。

    既存システムとその特性/将来に向けて解消したい課題/OTF(Hudi)に着目した理由

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    guest:@joker1007

    Repro チーフアーキテクト

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考)

    joker1007さんXアカウント https://x.com/joker1007

    Repro https://repro.io/

    更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて (joker1007さんによるHudi解説)

    https://tech.repro.io/entry/2024/07/26/141233

    本番のトラフィック量でHudiを検証して見えてきた課題 (otfst_tokyo #4 でのjoker1007さん登壇資料)

    https://speakerdeck.com/joker1007/ben-fan-notorahuitukuliang-dehudiwojian-zheng-sitejian-etekitake-ti

    Apache HudiのMerge on Readテーブルのパフォーマンス特性とチューニングについて(上記資料の解説ブログ)

    https://tech.repro.io/entry/2024/10/28/170721

  • エピソードを見逃しましたか?

    フィードを更新するにはここをクリックしてください。

  • 第18回:LINEヤフーにおけるHiveからIcebergへの移行(後編)

    OTF Talk 第18回は、奥田さんに「LINEヤフーにおけるHiveからIcebergへの移行(後編)」についてお話をうかがいました。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    Iceberg導入のモチベーション/HiveからIcebergへインプレースでの移行/一部移行した感触/ユーザーコミュニケーションの重要性

    guest:奥田 輔さん @okdtsk

    LINEヤフー データグループ

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    Cloudera Evolve 2024

    https://www.cloudera.com/events/evolve/singapore.html

    LINEのデータプラットフォームが目指すべき未来

    ※2021年の資料ですが、当時の基盤やデータサイズについて触れられています。

    https://speakerdeck.com/line_developers/the-future-of-line-data-platform-we-are-aiming-for

    Protocol Buffers

    https://github.com/protocolbuffers/protobuf

  • OTF Talk 第17回は奥田さんに、「LINEヤフーにおけるHiveからIcebergへの移行(前編)」についてお話をうかがいました。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    Cloudera Evolve 2024での登壇/HDFSで900PB超のデータ基盤/現状の構成と課題/なぜApache Iceberg?

    guest:奥田 輔さん @okdtsk

    LINEヤフー データグループ

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    Cloudera Evolve 2024

    https://www.cloudera.com/events/evolve/singapore.html

    LINEのデータプラットフォームが目指すべき未来

    ※2021年の資料ですが、当時の基盤やデータサイズについて触れられています。

    https://speakerdeck.com/line_developers/the-future-of-line-data-platform-we-are-aiming-for

    Protocol Buffers

    https://github.com/protocolbuffers/protobuf

  • OTF Talk 第16回は、鯵坂さんに「AWS Glueの OTFサポート」についてお話をうかがいました。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    AWS Glue概要/AWS GlueのOTFサポート/開発におけるOTFトピック(Hudi, Iceberg)

    guest:鯵坂 明さん @ajis_ka

    AWS Glue サービスチーム シニアソフトウェアエンジニア / Hadoop PMC

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    Apache PMC (Project Management Committee)

    https://www.apache.org/dev/pmc.html

    Apache Ozone

    https://ozone.apache.org/

    AWS Glue

    https://aws.amazon.com/jp/glue/

    Hudiのログメッセージ改善Pull Request

    https://github.com/apache/hudi/pull/9577

    Icebergのコメント対応Pull Request

    https://github.com/apache/iceberg/pull/10199

  • OTF Talk 第15回は鯵坂さんに、「Apache Hadoopから見たOTF」についてお話をうかがいました。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    鯵坂さんとHadoopとの関わり/OTF環境で利用されるHadoopソフトウェア/OTF実装とHiveカタログ

    guest:鯵坂 明さん @ajis_ka

    AWS Glue サービスチーム シニアソフトウェアエンジニア / Hadoop PMC

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    Apache PMC (Project Management Committee)

    https://www.apache.org/dev/pmc.html

    Apache Ozone

    https://ozone.apache.org/

    AWS Glue

    https://aws.amazon.com/jp/glue/

    Hudiのログメッセージ改善Pull Request

    https://github.com/apache/hudi/pull/9577

    Icebergのコメント対応Pull Request

    https://github.com/apache/iceberg/pull/10199

  • OTF Talk 第14回は、ケビンさんに、Apache Iceberg The Definitive Guide 輪読会と、その輪読会での学習内容であるIceberg概要やIcebergのパフォーマンス最適化についてお話をうかがいます。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    輪読会を運営中/なぜSnowflakeコミュニティがIcebergの勉強会を?/第1章:Icebergとは何か/第4章:パフォーマンス

    guest: @kevinrobot34 (ケビン)

    ナウキャスト データプラットフォームエンジニア

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    SnowflakeのIcebergサポート (Snowflakeドキュメント)

    https://docs.snowflake.com/en/release-notes/2024/other/2024-06-10-iceberg-tables

    Apache Iceberg: The Definitive Guide

    https://www.amazon.co.jp/dp/B0CZ4F2MP3

    輪読会発表資料:1章 前田さん

    https://drive.google.com/file/d/1a7J1OJustb5125KT6s2HkAqtzuifJvNT/view

    輪読会発表資料:4章前半 ※ケビンさん

    https://speakerdeck.com/kevinrobot34/apache-iceberg-the-definitive-guide-ch4

    輪読会発表資料:4章後半 ※島尻さん

    https://speakerdeck.com/rshimajiri/apache-iceberg-the-definitive-guide-lun-du-hui-4zhang-optimizing-the-performance-of-iceberg-tables-hou-ban

    Bloom filter (Wikipedia)

    https://ja.wikipedia.org/wiki/%E3%83%96%E3%83%AB%E3%83%BC%E3%83%A0%E3%83%95%E3%82%A3%E3%83%AB%E3%82%BF

  • OTF Talk 第13回はケビンさんに、DWH利用者からみた、Apache Icebergの魅力についてお話を伺いました。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    SnowflakeのIceberg対応/Icebergの学習を通してDWHの内部を想像する/DWHとIcebergの使いわけ

    guest: @kevinrobot34 (ケビン)

    ナウキャスト データプラットフォームエンジニア

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    SnowflakeのIcebergサポート (Snowflakeドキュメント)

    https://docs.snowflake.com/en/release-notes/2024/other/2024-06-10-iceberg-tables

    Apache Iceberg: The Definitive Guide

    https://www.amazon.co.jp/dp/B0CZ4F2MP3

    輪読会発表資料:1章 前田さん

    https://drive.google.com/file/d/1a7J1OJustb5125KT6s2HkAqtzuifJvNT/view

    輪読会発表資料:4章前半 ※ケビンさん

    https://speakerdeck.com/kevinrobot34/apache-iceberg-the-definitive-guide-ch4

    輪読会発表資料:4章後半 ※島尻さん

    https://speakerdeck.com/rshimajiri/apache-iceberg-the-definitive-guide-lun-du-hui-4zhang-optimizing-the-performance-of-iceberg-tables-hou-ban

    Bloom filter (Wikipedia)

    https://ja.wikipedia.org/wiki/%E3%83%96%E3%83%AB%E3%83%BC%E3%83%A0%E3%83%95%E3%82%A3%E3%83%AB%E3%82%BF

  • OTF Talk 第12回は、Starburst の 蛯原 裕弥 さんに、OTF(Iceberg, Delta lake)をサポートするTrinoのコネクタについて、概要やその実装方法についてお話をうかがいました。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    Trinoコネクタの役割/Icebergコネクタ/Trino+コネクタの特徴/Delta lakeコネクタ/Delta kernelを使っていない理由

    guest: @ebyhr (蛯原 裕弥)

    Starburst Engineer / Trino, Apache Polaris committer

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    --------------------

    参考文献)

    Starburst

    https://www.starburst.io/

    Apache Polaris

    https://polaris.apache.org/

    Presto

    https://prestodb.github.io/

    Trino

    https://trino.io/

    Write-Audit-Publish (WAP)解説 (Tabular)

    https://www.tabular.io/apache-iceberg-cookbook/data-engineering-write-audit-publish/

    蛯原さんのWrite-Audit-Publish (WAP)の実装のための活動(pull request)

    https://github.com/trinodb/trino/pull/23513

    誤った統計情報を読み取った場合の挙動についてのpull request

    https://github.com/apache/iceberg/pull/8559

    Delta kernel

    https://delta.io/blog/delta-kernel/

  • OTF Talk 第11回は、Starburst の 蛯原 裕弥 さんに、OTFのデータをクエリする際によく利用されている分散SQLエンジンであるPresto/Trinoの成り立ちや、Trinoのフェデレーション機能と各種コネクタについてお話をうかがいました。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    PrestoとTrinoの成り立ち/Trinoの特徴/フェデレーション機能とコネクタ/実装はどこが担うのか

    guest: @ebyhr (蛯原 裕弥)

    Starburst Engineer / Trino, Apache Polaris committer

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    Starburst

    https://www.starburst.io/

    Apache Polaris

    https://polaris.apache.org/

    Presto

    https://prestodb.github.io/

    Trino

    https://trino.io/

    Write-Audit-Publish (WAP)解説 (Tabular)

    https://www.tabular.io/apache-iceberg-cookbook/data-engineering-write-audit-publish/

    蛯原さんのWrite-Audit-Publish (WAP)の実装のための活動(pull request)

    https://github.com/trinodb/trino/pull/23513

    誤った統計情報を読み取った場合の挙動についてのpull request

    https://github.com/apache/iceberg/pull/8559

    Delta kernel

    https://delta.io/blog/delta-kernel/

  • OTF Talk 第10回は、”やっさん”こと、永富安和さんに、Icebergのセキュリティ(暗号化等)の動きや、検討されている機能追加についてお話をうかがいました。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    Icebergとセキュリティ/暗号化/アクセス制御/どこまでスペックにいれるべきか?/その他検討されている機能/OTFSGへの参加お待ちしております

    guest: @yassan168 (永富 安和)

    マイクロアド シニアエンジニア

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    日本のOTFコミュニティ OTFSG https://otfsg-tokyo.connpass.com/

    Rancher ユーザー会 (やっさんが管理者のコミュニティ) https://rancherjp.connpass.com/

    Cloudera Evolve 24 Singapopre

    https://www.cloudera.com/events/evolve/singapore.html

    Cloudera社によるデータカタログと Iceberg REST Catalog 統合のPR https://prtimes.jp/main/html/rd/p/000000014.000124537.html

    Apache Porlris (Polaris Catalog)

    https://polaris.apache.org/

    Polaris のOSS化アナウンス (Snowflake)

    https://www.snowflake.com/en/blog/polaris-catalog-open-source/

    Polaris の解説 (Alex Merced)

    https://www.linkedin.com/pulse/understanding-polaris-iceberg-catalog-its-alex-merced-es6ac/

    Apache Polaris と OSS Unity Catalogとの比較 (OSS Insight)

    https://ossinsight.io/analyze/apache/polaris?vs=unitycatalog%2Funitycatalog

    Rest Comatibikity Kit (RCK) の追加(プルリクエスト) https://github.com/apache/iceberg/pull/10908

    HiveにIceberg REST catalogを追加する(プルリクエスト) https://github.com/apache/hive/pull/5145

    Iceberg Spec V3 Enctyption https://github.com/orgs/apache/projects/393/views/1

    IcebegのRangerサポートのIssue https://github.com/apache/iceberg/issues/3619

    OTF Talk #5 Deltaleke UniForm

    https://www.otftalk.com/2024/08/ep02.html

    IcebergのAES GCM Stream file format extension (Spec) https://iceberg.apache.org/gcm-stream-spec/

    Open Policy Agent (OPA) https://www.openpolicyagent.org/

  • OTF Talk 第9回は、”やっさん”こと、永富安和さんに、Icebergのカタログ周りやPolaris Catalogについてお話をうかがいました。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    Icebergにとってのカタログの位置づけ/Polaris Catallog/OSS化の動きと意義/Iceberg REST API 仕様を内包する動き

    guest: @yassan168 (永富 安和)

    マイクロアド シニアエンジニア

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    日本のOTFコミュニティ OTFSG https://otfsg-tokyo.connpass.com/

    Rancher ユーザー会 (やっさんが管理者のコミュニティ) https://rancherjp.connpass.com/

    Cloudera Evolve 24 Singapopre

    https://www.cloudera.com/events/evolve/singapore.html

    Cloudera社によるデータカタログと Iceberg REST Catalog 統合のPR https://prtimes.jp/main/html/rd/p/000000014.000124537.html

    Apache Porlris (Polaris Catalog)

    https://polaris.apache.org/

    Polaris のOSS化アナウンス (Snowflake)

    https://www.snowflake.com/en/blog/polaris-catalog-open-source/

    Polaris の解説 (Alex Merced)

    https://www.linkedin.com/pulse/understanding-polaris-iceberg-catalog-its-alex-merced-es6ac/

    Apache Polaris と OSS Unity Catalogとの比較 (OSS Insight)

    https://ossinsight.io/analyze/apache/polaris?vs=unitycatalog%2Funitycatalog

    Rest Comatibikity Kit (RCK) の追加(プルリクエスト) https://github.com/apache/iceberg/pull/10908

    HiveにIceberg REST catalogを追加する(プルリクエスト) https://github.com/apache/hive/pull/5145

    Iceberg Spec V3 Enctyption https://github.com/orgs/apache/projects/393/views/1

    IcebegのRangerサポートのIssue https://github.com/apache/iceberg/issues/3619

    OTF Talk #5 Deltaleke UniForm

    https://www.otftalk.com/2024/08/ep02.html

    IcebergのAES GCM Stream file format extension (Spec) https://iceberg.apache.org/gcm-stream-spec/

    Open Policy Agent (OPA) https://www.openpolicyagent.org/

  • OTF Talk 第8回は、”やっさん”こと、永富安和さんに、日本のOTFコミュニティであるOTFSGや、シンガポールで開催されたIceberg meet-upでの話題についてお話を伺いました。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    日本のコミュニティOTFSG/Cloudera Evolve 2024 Singapore/Iceberg Meetupでの今後の方向性/

    guest: @yassan168 (永富 安和)

    マイクロアド シニアエンジニア

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    日本のOTFコミュニティ OTFSG https://otfsg-tokyo.connpass.com/

    Rancher ユーザー会 (やっさんが管理者のコミュニティ) https://rancherjp.connpass.com/

    Cloudera Evolve 24 Singapopre

    https://www.cloudera.com/events/evolve/singapore.html

    Cloudera社によるデータカタログと Iceberg REST Catalog 統合のPR https://prtimes.jp/main/html/rd/p/000000014.000124537.html

    Apache Porlris (Polaris Catalog)

    https://polaris.apache.org/

    Polaris のOSS化アナウンス (Snowflake)

    https://www.snowflake.com/en/blog/polaris-catalog-open-source/

    Polaris の解説 (Alex Merced)

    https://www.linkedin.com/pulse/understanding-polaris-iceberg-catalog-its-alex-merced-es6ac/

    Apache Polaris と OSS Unity Catalogとの比較 (OSS Insight)

    https://ossinsight.io/analyze/apache/polaris?vs=unitycatalog%2Funitycatalog

    Rest Comatibikity Kit (RCK) の追加(プルリクエスト) https://github.com/apache/iceberg/pull/10908

    HiveにIceberg REST catalogを追加する(プルリクエスト) https://github.com/apache/hive/pull/5145

    Iceberg Spec V3 Enctyption https://github.com/orgs/apache/projects/393/views/1

    IcebegのRangerサポートのIssue https://github.com/apache/iceberg/issues/3619

    OTF Talk #5 Deltaleke UniForm

    https://www.otftalk.com/2024/08/ep02.html

    IcebergのAES GCM Stream file format extension (Spec) https://iceberg.apache.org/gcm-stream-spec/

    Open Policy Agent (OPA) https://www.openpolicyagent.org/

  • OTF Talk 第7回は、AWS Glue プロダクトチームの関山 宜孝さんをゲストに、OTFのユースケースである、個人情報保護対応のためのデータ更新・削除についてお話をうかがいました。

    ※今回は録音環境に問題があったため、ゲストの声が聴きづらくなっています。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    個人情報を消したい・マスクしたいというニーズ/なぜ実現困難だったのか/OTF でどう実現できるのか/削除とトランザクション/本当に消す必要があるのか/事例

    guest: @moomindani (関山 宜孝)

    AWS Glue product team 所属の Principal Big Data Architect

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    Iceberg のChangelog View解説(べりんぐさんのブログ)

    https://bering.hatenadiary.com/entry/2024/03/31/150946

    OSSのCDCツール Debezium https://debezium.io/

    データベースをCDCでApache Icebergに反映するサンプル構成 (AWS Blog)

    https://aws.amazon.com/jp/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/

    メダリオンアーキテクチャ (databricks)

    https://www.databricks.com/jp/glossary/medallion-architecture

    EUの一般データ保護規則(GDPR) https://www.ppc.go.jp/enforcement/infoprovision/EU/

    日本の改正個人情報保護法 https://www.ppc.go.jp/news/kaiseihou_feature/

    Yahoo! Japan 事例 「Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話」

    https://techblog.yahoo.co.jp/entry/2022052530303179/

  • OTF Talk 第6回は、AWS Glue プロダクトチームの関山 宜孝さんをゲストに、OTFのユースケースの1つであるCDC (Change Data Capture)の活用についてお話をうかがいました。

    ※今回は録音環境に問題があったため、ゲストの声が聴きづらくなっています。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    RDBをリアルタイムにdata lakeに連携したい/CDC (Change Data Capture)/なぜ実現困難だったのか/Upsertとトランザクション/データレイクをデータソースにする

    guest: @moomindani (関山 宜孝)

    AWS Glue product team 所属の Principal Big Data Architect

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    Iceberg のChangelog View解説(べりんぐさんのブログ)

    https://bering.hatenadiary.com/entry/2024/03/31/150946

    OSSのCDCツール Debezium https://debezium.io/

    データベースをCDCでApache Icebergに反映するサンプル構成 (AWS Blog)

    https://aws.amazon.com/jp/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/

    メダリオンアーキテクチャ (databricks)

    https://www.databricks.com/jp/glossary/medallion-architecture

    EUの一般データ保護規則(GDPR) https://www.ppc.go.jp/enforcement/infoprovision/EU/

    日本の改正個人情報保護法 https://www.ppc.go.jp/news/kaiseihou_feature/

    Yahoo! Japan 事例 「Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話」

    https://techblog.yahoo.co.jp/entry/2022052530303179/

  • OTF Talk 第5回は、AWSの田中 智大さんをゲストに Delta Lake UniForm (Universal Format) についてと、カンファレンスに登壇する意義についてお話を伺いました。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    Data + AI Summit で登壇/UniForm (Universal Format)ってなに?/UniFormの仕組みと、活用領域/ カンファレンスに登壇するモチベーション/物理的に会ったあとに何が変わったか

    guest:Tomohiro Tanaka (Linkedin https://www.linkedin.com/in/ttomtan/)

    AWSのシニア・クラウドサポートエンジニア(Bigdata profile)

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    Apache Iceberg Github https://github.com/apache/iceberg

    田中さんの最初のPull Request https://github.com/apache/iceberg/pull/3468

    Icebergプロジェクトのコントリビューター https://github.com/apache/iceberg/graphs/contributors

    Good first issue https://goodfirstissue.dev/

    Apache Iceberg の中でOpenになっているProject https://github.com/apache/iceberg/projects?query=is%3Aopen

    Data + AI Summit での田中さん発表

    Recording https://www.databricks.com/dataaisummit/session/delivering-portability-open-data-lakes-delta-lake-uniform

    YouTube https://www.youtube.com/watch?v=lIOLzX2bVdg

    UniForm (Universal Format) の日本語解説 (Databricks) https://www.databricks.com/jp/blog/delta-lake-universal-format-uniform-iceberg-compatibility-now-ga

    UniFormドキュメント https://docs.delta.io/latest/delta-uniform.html

  • OTF Talk 第4回は、AWSの田中 智大 (tomtan) さんをゲストに、Apache Iceberg へのコントリビューションの経験や、Icebergコミュニティについてお話を伺いました。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    Apache Iceberg との出会い/はじめてのコントリビューション/どうすれば貢献できる?/Good first issue/Iceberg コミュニティ

    guest:Tomohiro Tanaka (Linkedin https://www.linkedin.com/in/ttomtan/)

    AWSのシニア・クラウドサポートエンジニア(Bigdata profile)

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    Apache Iceberg Github https://github.com/apache/iceberg

    田中さんの最初のPull Request https://github.com/apache/iceberg/pull/3468

    Icebergプロジェクトのコントリビューター https://github.com/apache/iceberg/graphs/contributors

    Good first issue https://goodfirstissue.dev/

    Apache Iceberg の中でOpenになっているProject https://github.com/apache/iceberg/projects?query=is%3Aopen

    Data + AI Summit での田中さん発表

    Recording https://www.databricks.com/dataaisummit/session/delivering-portability-open-data-lakes-delta-lake-uniform

    YouTube https://www.youtube.com/watch?v=lIOLzX2bVdg

    UniForm (Universal Format) の日本語解説 (Databricks) https://www.databricks.com/jp/blog/delta-lake-universal-format-uniform-iceberg-compatibility-now-ga

    UniFormドキュメント https://docs.delta.io/latest/delta-uniform.html

  • AWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。第3回は「OTFのこれから」として、OTFに今後期待されていることや、カタログの重要性、データエンジン以外からのアクセスについてお話を伺いました。

    OTFに期待されること/相互運用性/カタログの重要性/データエンジン以外からのアクセス

    guest: @_Bassari (疋田 宗太郎/べりんぐ)

    AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    ■全般

    べりんぐさんブログでのOTFへの全般的な解説

    https://bering.hatenadiary.com/entry/2023/07/17/235246

    Iceberg, Hudi, Delta Lakeの比較記事

    ※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。

    https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/

    ■ Apache Iceberg

    ホームページ https://iceberg.apache.org/

    べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953

    Iceberg: a fast table format for S3

    当時Netflix所属のRyan BlueがIcebergをどんなモチベーションで作ったかを語るもの(2018年)

    https://www.youtube.com/watch?v=nWwQMlrjhy0

    Iceberg Summit 2024動画リスト。様々な企業のIceberg活用事例や技術的トピック多数

    https://www.youtube.com/playlist?list=PLkifVhhWtccxBSrKFPXOmjAFFEpeYii5K

    ■ Apache Hudi

    ホームページ https://hudi.apache.org/

    Uber Blog: Hudi開発の背景 https://www.uber.com/en-JP/blog/hoodie/

    Yahoo! Japan:Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話

    データレイク上のデータ削除の必要性と、どのようにしてHudiを活用しているかを解説

    https://techblog.yahoo.co.jp/entry/2022052530303179/

    ■ Delta Lake

    ホームページ https://delta.io/

    DataBricks社のkitaokaさんによる解説 https://ktksq.hatenablog.com/entry/deltalake

    Databricks社による Data+AI Summit 2024 / Data lake house 関連の動画リスト

    ※Delta Lake はDatabricks社によって開発がリードされていることもあり、Databricks社のイベント "Data + AI Summit"で色々な発表が行われることが多いです。以下はその一部で、Data lake house関連のリストです。

    https://www.youtube.com/watch?v=31BQwOiR260&list=PLTPXxbhUt-YW18S6p5wNu1SJxoF24S_UB

  • AWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。第2回は「OTFの今」として、Iceberg, Hudi, Delta Lakeといった3種類のOTF、およびその機能の概要についてお話を伺いました。

    Iceberg, Hudi, Delta Lake/OTFの機能/ストレージと処理系の分離/ACIDトランザクション

    guest: @_Bassari (疋田 宗太郎/べりんぐ)

    AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    ■全般

    べりんぐさんブログでのOTFへの全般的な解説

    https://bering.hatenadiary.com/entry/2023/07/17/235246

    Iceberg, Hudi, Delta Lakeの比較記事

    ※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。

    https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/

    ■ Apache Iceberg

    ホームページ https://iceberg.apache.org/

    べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953

    Iceberg: a fast table format for S3

    当時Netflix所属のRyan BlueがIcebergをどんなモチベーションで作ったかを語るもの(2018年)

    https://www.youtube.com/watch?v=nWwQMlrjhy0

    Iceberg Summit 2024動画リスト。様々な企業のIceberg活用事例や技術的トピック多数

    https://www.youtube.com/playlist?list=PLkifVhhWtccxBSrKFPXOmjAFFEpeYii5K

    ■ Apache Hudi

    ホームページ https://hudi.apache.org/

    Uber Blog: Hudi開発の背景 https://www.uber.com/en-JP/blog/hoodie/

    Yahoo! Japan:Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話

    データレイク上のデータ削除の必要性と、どのようにしてHudiを活用しているかを解説

    https://techblog.yahoo.co.jp/entry/2022052530303179/

    ■ Delta Lake

    ホームページ https://delta.io/

    DataBricks社のkitaokaさんによる解説 https://ktksq.hatenablog.com/entry/deltalake

    Databricks社による Data+AI Summit 2024 / Data lake house 関連の動画リスト

    ※Delta Lake はDatabricks社によって開発がリードされていることもあり、Databricks社のイベント "Data + AI Summit"で色々な発表が行われることが多いです。以下はその一部で、Data lake house関連のリストです。

    https://www.youtube.com/watch?v=31BQwOiR260&list=PLTPXxbhUt-YW18S6p5wNu1SJxoF24S_UB

  • AWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。第1回は「OTF誕生の背景」として、データレイク上の分析にどういった課題があって、それらを解決するためにOTFが生まれてきた背景を解説していただきました。

    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    データレイクとは/なぜOTFが現れたか/Netflx:60PBのデータレイクでの運用・利用の課題/何が課題だったか、何を解決したのか/Uber: バッチとストリーミングの統合

    guest: @_Bassari (疋田 宗太郎/べりんぐ)

    AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。

    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考文献)

    ■全般

    べりんぐさんブログでのOTFへの全般的な解説

    https://bering.hatenadiary.com/entry/2023/07/17/235246

    Iceberg, Hudi, Delta Lakeの比較記事

    ※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。

    https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/

    ■ Apache Iceberg

    ホームページ https://iceberg.apache.org/

    べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953

    Iceberg: a fast table format for S3

    当時Netflix所属のRyan BlueがIcebergをどんなモチベーションで作ったかを語るもの(2018年)

    https://www.youtube.com/watch?v=nWwQMlrjhy0

    Iceberg Summit 2024動画リスト。様々な企業のIceberg活用事例や技術的トピック多数

    https://www.youtube.com/playlist?list=PLkifVhhWtccxBSrKFPXOmjAFFEpeYii5K

    ■ Apache Hudi

    ホームページ https://hudi.apache.org/

    Uber Blog: Hudi開発の背景 https://www.uber.com/en-JP/blog/hoodie/

    Yahoo! Japan:Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話

    データレイク上のデータ削除の必要性と、どのようにしてHudiを活用しているかを解説

    https://techblog.yahoo.co.jp/entry/2022052530303179/

    ■ Delta Lake

    ホームページ https://delta.io/

    DataBricks社のkitaokaさんによる解説 https://ktksq.hatenablog.com/entry/deltalake

    Databricks社による Data+AI Summit 2024 / Data lake house 関連の動画リスト

    ※Delta Lake はDatabricks社によって開発がリードされていることもあり、Databricks社のイベント "Data + AI Summit"で色々な発表が行われることが多いです。以下はその一部で、Data lake house関連のリストです。

    https://www.youtube.com/watch?v=31BQwOiR260&list=PLTPXxbhUt-YW18S6p5wNu1SJxoF24S_UB