スマートニュースのデータサイエンス・マシンラーニングチームの中路といいます。 機械学習や自然言語処理を使いながら、ニュース配信のアルゴリズムを開発しています。

私たちは、昨年2014年の10月にSmartNews米国版をリリースし、その後もプロダクトの改善に力を注いできました。その努力の甲斐もあり、翌2015年1月にはアメリカにおけるMonthly Active Userが100万人を超えるなど、日本だけでなくアメリカにおいても、多くの方々にSmartNewsを使って頂けるようになりました。また2015年の2月には、インターナショナル版をリリースし、世界各国の方々にSmartNewsをお使いいただけるようになりました。

とはいえ、まだまだこれから、です。もっと質の高いプロダクトを作り、さらに多くの方々に使い続けていただきたい。そのためには、やはり世界中の強力なメンバー、特に強力なエンジニアが必要です。

私たちが精力を注いでいるアメリカにあって、世界中のエンジニアが集まる、アメリカ西海岸のシリコンバレー。ここでスマートニュースのことをもっと知ってもらうことが重要だと私たちは考えました。

サンフランシスコで勉強会を主催

日本のエンジニアコミュニティにおいて、勉強会は活発に開催されていますが、アメリカ西海岸でも多くの勉強会が開催されています(たとえばMeetup.comを使うと、様々な勉強会をリストアップすることができます)。その中で、機械学習に関しては最大規模の勉強会であるSF Bayarea Machine Learning Meetupを発見! これはSmartNewsのアルゴリズムをアピールするチャンスだということで、私たちのサンフランシスコオフィスで勉強会をホストし、Globally Scalable Web Document Classification Using Word2Vecと題して発表してきました。以下が発表資料です。

[SmartNews] Globally Scalable Web Document Classification Using Word2Vec

資料中にあるように、スマートニュースは、

  1. Internet上のシグナルを大量に集め
  2. 各記事のHTMLの構造を解析し (Structure Analysis)
  3. 各記事の意味的な情報を抽出 (Sementic Analysis)
  4. 世界のトレンド等を加味して、各記事にリアルタイムなスコア付け(Importance Estimation)
  5. 記事リストの多様性を考慮に入れて、配信する記事のリストを決定 (Diversification)
をアルゴリズムによって行うことで、記事を配信しています。

その中で、今回は

  • Structure Analysisの一つの課題である HTMLからの本文抽出
  • Semantic Analysisの一つの課題である カテゴリ分類
に絞ってお話してきました。(Importance Estimationの私たちの取り組み、考え方については当ブログ 高橋の記事の中でご紹介しています。また、これら記事の解析を実現する仕組みについては、TokyoWebminingにおける西岡の資料でご紹介しています。是非ご覧ください。)

質問の飛び交う、活発な議論が展開

サンフランシスコオフィス、勉強会当日。多くのエンジニアにご参加いただいた

実際の発表の内容については資料に譲りますが、1時間の発表の中で数十もの質問をしていただけたのが非常に印象的でした。また、私自身はとても面白い問題にトライしている実感はあるものの、「果たしてシリコンバレーのエンジニアは、私たちが解こうとしている問題を面白いと感じるだろうか?」という不安がありました。しかし発表の場で、あるいはその後の懇親会で、多くの人からSmartNewsのプロダクトそのものに対して熱量を向けていただいて「やっぱり面白い問題だよね、これ!」と再実感することができたのも、非常によい体験でした。

中央で立って話しているのが中路

このエントリーで紹介させて頂いたもの以外にも、多くの面白い問題がスマートニュースにはあり、当社のエンジニアは、それらの問題に日々チャレンジしています。国を問わず、それらの面白い問題を、一緒に解いていけるエンジニアをスマートニュースでは随時募集しています。少しでも興味を持たれた方は、是非careers@smartnews.comにご連絡をいただければと思います!