こんにちは、Data Engineer の廣瀬(@satoshihirose)です。 3月14日に、Hadoop / Spark Conference Japan 2019 にて、「Cloud-Nativeなデータ分析基盤におけるPrestoの活用」というタイトルで SmartNews のデータ分析基盤について紹介する発表をさせていただきました。 発表では、これまでの SmartNews のデータ分析基盤の変遷や現在の設計について紹介いたしました。 当日の発表資料は下記です。
キーノート中の 20 分の発表
発表については、午前中のキーノートの中で 20 分の時間をいただきました。 (普通に応募をしたところ、キーノート中の発表をお願いされたので、慌てながらもとても良い機会になりました)
【HSCJ 2019見どころその1】
— HadoopConfJapan (@hadoopconf) March 7, 2019
キーノートでは、開発者によるHadoop/Sparkの未来や、SmartNews/LINEにおけるPresto/Sparkのシンボリックな活用事例が紹介されます。当日はぜひ朝からお越し下さい!https://t.co/DRtmUmaboC
午前発表分でお願いしますって連絡来たから深く考えず良いですよって返答したらキーノートになってた。Hadoop / Spark Conference Japan 2019 Tickets, Thu, Mar 14, 2019 at 10:00 AM | Eventbrite https://t.co/SI4bnNZq9d
— 🐘 (@satoshihirose) February 21, 2019
こちらの日本Hadoopユーザー会の公式サイトでその他の興味深い講演の資料についても掲載がされていますので、是非ご参照ください。 改めて、Hadoop / Spark Conference Japan を開催・運営いただいた日本Hadoopユーザー会や関係者の皆さまに深く感謝いたします。
スマートニュースの Data Engineering
私は、初めての Data Engineer というロールで、八ヶ月前にスマートニュースに入社しました。 従って、発表資料で紹介した仕組みは、基本的にはこれまでの (退職された方を含めて) Software Engineer や SRE の方々の成果です。 スマートニュースには知見を持った経験豊富なエンジニアが多く、これまでその時々のニーズに応じて各エンジニアによってデータ基盤の開発・改善が進められてきました。 一方で、社員が増えデータ分析基盤を利用するユーザーが増えたことで、Software Engineer / SRE の片手間の開発・運用ではなくデータ基盤のオーナーシップを持つエンジニアの必要性を感じ、Data Engineer のポジションを作成したという経緯があります。 ご紹介した仕組みは、あくまで現在の設計であり、Data Science や Machine Learning などの活動のニーズや組織体系の変化に従い、今後も変わっていくものと思います。 変わっていく組織やトレンドに合わせて、データ基盤も合わせて構築・改善を考えていく仕事はチャレンジングで面白いものだと思います。
PR とまとめ
4月16日には、スマートニュースのオフィスを会場に Data Pipeline Casual Talk Vol.2 が開かれ、スマートニュースのエンジニアも発表します。データ基盤で使用しているワークフローエンジン Airflow の活用周りの話があるかと思いますので、是非この機会にオフィスに遊びに来てきてみてください (なお、現在の募集職種一覧はこちらです)。
Hadoop や Airflow を含め、Data Engineering のためのソフトウェアや SaaS 群は日々ブラッシュアップされており、ML のコモディティ化と共にデータ基盤の重要性はますます大きくなっています。そんな中で、データ基盤のブラッシュアップなどにより間接的(もしくは直接的にでも)「世界中の良質な情報を必要な人に送り届ける」というスマートニュースのミッションに貢献できるよう、今後も活動していければと思います。