スマートニュース株式会社の小田秀匡(おだひでまさ)です。 この会社では 4 年間ほどサーバーサイドの開発とデータの分析に携わっています。

2018年 3月12日(月)~ 3月16日(金)の 5 日間にわたり岡山市の岡山コンベンションセンターで 言語処理学会第24回年次大会 (NLP2018) が開催されました。

SmartNews は言語処理学会にはゴールドスポンサーとして参加し、弊社に関心を持ってもらうため、 企業展示で「特定の話題に対するユーザーの感度」というテーマで発表させていただきました。

SmartNews と言語処理

SmartNews は、小さな画面でも快適にニュース記事が閲覧できるよう、記事の解析からタイトルの改行位置の決定まで、サービスの様々な箇所で自然言語処理や機械学習を駆使しています。

例えば、国内外の主要新聞社を含む多くの媒体社から提供されている記事の内容を分析・理解するために言語処理を実施する必要があります。 また、利用者の行動をもとに最適な記事を配信できるよう、統計処理に基づくアルゴリズムの最適化に注力しています。

弊社がこの 5 年間ほど注力してきた事項の 1 つには、良いニュースを定義するためには、どのような目的関数や報酬を設定すれば良いのかということがあります。 また、直近の短期報酬だけでなく、長期の累積報酬を最大化するために、どのようにユーザー単位の時系列データを扱えば良いかについて深く議論してきました。

大域的な情報から局所的な情報へ

SmartNews が初期から着目してきたデータには、「世界で SmartNews を利用してくれているユーザーは何人程度なのか」や「この1年間で最も読まれた記事は何なのか」などといった大域的(マクロ)な数字があります。 その一方で、「この記事はどのような話題を取り扱った記事なのか」や「このユーザーは何を考えてこのように行動したか」などといった局所的(ミクロ)な数字にも常に注意を払ってきました。

SmartNews がプロダクトとして成熟にするに連れて会社の規模も大きくなっています。 優秀なエンジニアが増え、データ技術基盤が整い、社内のデータ分析能力は飛躍的に向上しています。 以前は難しいと感じた分析も現在では少しづつ実施できるようになってきています。

今回の企業展示のテーマである「特定の話題に対するユーザーの感度」は、ユーザーと記事に関する局所的なデータと SmartNews の事業に関する大域的なデータを可視化して、広く世の中の方々に SmartNews の事を知って欲しいという想いから選択したものです。

個々のユーザーがどのような興味を持ち、個々の記事がどのような話題を取り扱っているのか、その局所的な関係性を明らかにすることにより、SmartNews を使ってくださっている多くのユーザーと SmartNews で取り扱われている多くの記事について理解を深めることができます。

データの分析を通した社会への利益の還元

SmartNews は実際に多くのデータを取り扱っています。 例えば、ユーザーの行動・記事コンテンツ・広告の内容・広告の売上金額などに関する大量の情報をミリ秒単位で収集し、社内の多くのメンバーがその分析に取り組んでいます。

このように 、SmartNews はユーザー・媒体社・広告主から情報を集める立場にあります。 したがって、SmartNews には機密性の高いデータを安全に管理する責任があると同時に、集めたデータを正しく活用してデータから得られる利益を社会に還元する義務があります。 例えば、SmartNews というプロダクト(アプリ)は、媒体社から提供された記事データを徹底的に分析して「現在社会で話題になっている価値のある情報」をユーザーに送り届けています。 一方で、ユーザーの行動に基づいた記事閲読傾向は、「現代社会で必要とされている話題に関する情報」として、やはり SmartNews 社内で徹底的に分析されています。 このようにして得られた情報は、フェイクニュース(虚偽の情報)やクリックベイド(タイトルとコンテンツの内容に乖離がある情報)を削減するために利用することができます。

SmartNews のデータ分析による社会への利益還元はプロダクトの製作にとどまりません。 今回の言語処理学会へのスポンサー参加のように、各種学術学会に参加して社内のデータ分析の結果を共有したり、媒体社や広告主に対して適切な形にデータを変換した上で情報を提供することにより、お互いの活動をより良いものにできると考えています。

客観的で定量的な分析の重要性

SmartNews には様々なバックグラウンドを持った人が集まっています。 例えば、編集者としてメディア業界で活躍してきた人もいれば広告業界でマーケティングに携わっていた人もいます。 このような仲間が集まっているおかげで、様々な知識と経験を活用して業務に当たることができます。 しかし、時にはバックグラウンドが違うが故に意見が割れてしまうこともあるでしょう。 このような状況下で大切にしなくてはいけないのが「客観的で定量的な分析」です。

「このような記事を届けることがきっとユーザーを満足させるのではないか」・・・我々は常にそういった仮説とともに仕事を始めます。 しかし、本当にそうだと言い切れるのでしょうか。 ある人はそう思っているかもしれませんが、別のある人は別の考えを持っているかもしれません。 データに対して真摯に向き合うことは、そういった困難に立ち向かう上で重要になります。

今回の言語処理学会の企業展示で明らかにしたかった仮説は「ユーザーによって興味を持っている話題は本当に違うのか」ということです。 直感的には「きっとそうだろう」と感じることであったとしても、正当な手続きを経た分析を実施することにより、「どの程度そうなのか」といった観点も含めて事実に対する理解が深まります。

主成分分析

今回の展示では、分析の手法として主成分分析を選択しました。 これは、分析結果を理解するにあたり特別な数理的な知識を必要とせず、分析結果を可視化しやすいという理由で採用しました。

主成分分析 (Principal Component Analysis) は 20 世紀の初期から研究された古典的な数理的な手法です。 主成分分析で取り扱うデータは、Excel 表のような行列形式であり、各行が 1 個のレコードを、各列がデータの特徴量を表しています。
主成分分析は、データ空間(特徴量が張る線型空間)の基底をアファイン変換して、より数学的取り扱いの良い特徴量の下でデータを表現します。

今回の分析では、2017 年の 12 ヶ月間にわたり毎月欠かさずアプリを利用してくださったユーザーの中から 250 万人を抽出し、2017 年の 10 月から 12 月までの 3 ヶ月間の記事閲読状況に基づき主成分分析を実施しました。 主成分分析を実施するにあたり、スマートニュースで比較的人気のある 12 チャンネルの記事閲読数、新聞社 4 社・スポーツ紙 4 紙・ビジネス誌 2 誌・女性誌 2 誌・気象メディア 2 社の記事閲読数の合計 26 次元の特徴量を利用しました。

各特徴量は対数 $x \mapsto \log(x + 1)$ を取った上で規格化せずに分散共分散行列を用いて主成分分析を実施しました。

主要主成分

26 次元の主成分の内、上位の主成分に関して紹介します。 上段から順に、第 1 ~ 第 5 主成分です。

規格化を実施しない主成分分析では、第 1 主成分はユーザーの集計期間内の記事閲読総数を反映することが期待され、この成分が全体のデータの変動の約 49% を説明します。

第 2 主成分は、記事の難易度(可読性)を一部反映し、全体のデータの変動の約 11% を説明します。 第 2 主成分は、ユーザーの年齢層と強い相関を持ちます。

第 3 主成分は、ユーザーの「政治・経済・国際に対する関心」と「エンタメ・スポーツに対する関心」とを対比させる成分であり、全体のデータの変動の約 9% を説明します。

第 4 主成分は、ユーザーの性別を強く反映し、全体のデータの変動の約 5% を説明します。

第 5 主成分は、登録チャンネル数やチャンネル移動の有無を一部反映し、全体のデータの変動の約 5% を説明します。

特徴量

元々の 26 次元の特徴量を PC2 (第 2 主成分) - PC3 (第 3 主成分) 平面に描写しました。

第 2 主成分の値が比較的大きい元の特徴量は、画像右側に描写されている「まとめ」チャンネル・「話題」チャンネル・「コラム」チャンネルなどになります。 逆に、第 2 主成分の値が比較的小さい元の特徴量は、画像左側に描写されている「トップ」チャンネルなどになります。

第 3 主成分の値が比較的大きい元の特徴量は、画像上側に描写されている「エンタメ」チャンネルなどになります。 逆に、第 3 主成分の値が比較的小さい元の特徴量は、画像下側に描写されている「経済」チャンネル・「国際」チャンネル・「テクノロジー」チャンネル・「政治」チャンネル・「国内」チャンネルなどになります。

スポーツ紙 4 紙と「スポーツ」チャンネルの 5 特徴量は、画像左上の同領域に存在しています。 また、新聞社 4 社・ビジネス誌 2 誌・気象メディア 2 社も比較的に近い領域に存在しています。 女性誌 2 誌は少し離れた位置に描写されましたが、片方は女性コラム誌もう片方は女性ファッション誌であり、取り扱っている話題が多少違います。

性別と年齢

ユーザーの性別・年齢に関する情報を PC2 (第 2 主成分) - PC3 (第 3 主成分) 平面に描写しました。

性別(画像左側)に関しては、青いタイルの箇所が男性の多い領域、赤いタイルの箇所が女性の多い領域になります。 女性の割合が多い領域が、この平面に関して 2 箇所ほど観測される点などが興味深いです。 女性の割合が多い領域は、第 3 主成分と正の相関があり、「グルメ」チャンネルなどとは相性が良く、「テクノロジー」チャンネル・「経済」チャンネル・「政治」チャンネル・「国際」チャンネルなどとは相性が良くない傾向が見受けられます。

一方、年齢(画像右側)に関しては、青いタイルの箇所が 40 歳以上のユーザーが多い領域、赤いタイルの箇所が 40 歳未満のユーザーが多い領域になります。 年齢が低いユーザーが多い領域は、第 2 主成分と正の相関があり、「まとめ」チャンネル・「話題」チャンネル・「コラム」チャンネル・「エンタメ」チャンネル・「テクノロジー」チャンネルなどと相性が良いです。

参考までに、下表に主要主成分とのピアソンの積率相関係数をまとめました。

主要主成分 性別 (男性: 1.0, 女性: 0.0) 年齢
PC1 -0.10 +0.25
PC2 +0.01 -0.40
PC3 -0.26 -0.14
PC4 +0.40 -0.01
PC5 -0.09 +0.01

特定の話題に対するユーザーの感度

特定の話題の記事がユーザーにどのように読まれているかを可視化するために、 PC2 (第 2 主成分) - PC3 (第 3 主成分) 平面に記事の閲読状況を描写しました。

赤いタイルの箇所が記事の閲読が 0 件であったユーザーが多かった領域、 白いタイルの箇所が記事の閲読が 1 件であったユーザーが多かった領域、 青いタイルの箇所が記事の閲読が 2 件以上であったユーザーが多かった領域です。

森友学園問題 (2017 年 2 月)

画像の左上の「森友学園問題」の話題から順番に見ていきましょう。

一部のユーザーが 60 記事近く閲読している一方で、この話題に関して全く記事を閲読していないユーザーもいます。 記事を多く読んでいるのは年齢が比較的高い男性です。 一方で、女性や年齢が低いユーザーからはあまり興味を持たれていません。 この平面上では左下の領域が「政治」と関係が深い領域になっています。

欅坂 46 紅白歌合戦出場 (2017 年 12 月)

画像の右上の「欅坂 46 紅白歌合戦出場」へと話題を移しましょう。

今度は、比較的年齢の低いユーザーや女性のユーザーも記事を閲読している状況が分かります。 先の「森友学園問題」の話題と比較すると、閲読状況が排他的になっている様子も分かります。 この平面上では上辺の領域が「エンタメ」と関係が深い領域になっています。

Nintendo Switch 発売 (2017 年 3 月)

画像の左下の「Nintendo Switch 発売」へと話題を移しましょう。

今度は、比較的男性の多い領域で記事が閲読されている様子が分かります。 年齢が高いユーザーも年齢が低いユーザーも記事を閲読しています。 この平面上では下辺の領域が「テクノロジー」と関係が深い領域になっています。

アリアナ・グランデ コンサート会場爆破事件 (2017 年 5 月)

画像の右下の「アリアナ・グランデ コンサート会場爆破事件」へと話題を移しましょう。

「森友学園問題」の話題と「欅坂 46 紅白歌合戦出場」の話題とでは閲読状況が排他的でしたが、 「アリアナ・グランデ コンサート会場爆破事件」の話題の記事の閲読状況は、 「森友学園問題」の話題の記事の閲読状況と「欅坂 46 紅白歌合戦出場」の話題の記事の閲読状況を丁度足し合わせたような閲読状況になっています。

これは、このコンサート会場爆破事件が「政治」・「国際」の内容を扱っている一方で、この話題が「アリアナ・グランデ」という本来であれば「エンタメ」と関係の深いキーワードも含んでいることに原因があります。 普段であれば「森友学園問題」に関心がある「政治」・「国際」に興味を持っているユーザー(平面左下の領域)と、普段であれば「芸能人・アイドル」に関心を持っているユーザー(平面の上辺の領域)との両方がこの事件に関心を寄せていることが伺えます。

今後の分析に向けて

主成分分析の結果を見て分かるように、ユーザーの特性(年齢・性別・関心)は、主要なチャンネルや主要な媒体社の閲読状況から類推することができます。 この分析結果だけを見て「ユーザーにより興味を持っている話題は異なっている」と断言することは難しいですが、そのように感じた読者の方も多いかと思います。

しかし、より本当に困難な課題は、この分析結果を見てプロダクトやサービスをどのように進化させるべきなのかということなのです。 「ユーザーにより興味・関心が異なっているので、ユーザーの興味・関心に合わせて配信すべき記事を変更すべき」なのでしょうか、それとも「ユーザーにより興味・関心が異なっている状況を是正すべく、社会全体として話題になっている記事を配信すべき」なのでしょうか。 このような問題は非常に複雑であり、会社としてもプロダクトの誕生以来、小田個人としても入社以来、深く考え抜いてきました。

一方で、SmartNews の成長とともに社内でプロダクトに関わるスタッフが増え、また SmartNews と接点を持ってくださっている媒体者様・広告主様の数もおかげさまで増えています。 したがって、プロダクトを利用してくださっているユーザーの皆様の満足度の追求はもちろんのこと、プロダクトの社会的な意義を問い続け、記事を提供してくださっている媒体社様、広告を出稿してくださっている広告主様にとっても価値ある存在であり続けることが大切であると考えています。

このような状況下で、小田個人としては、引き続き

  1. 多角的な視点で課題を捉えながら、良いニュースを定義するためには、どのような目的関数や報酬を設定すれば良いのか
  2. 直近の短期報酬だけでなく、長期の累積報酬を最大化するために、どのように時系列のデータを取り扱えば良いのか

といった課題に挑戦したいと考えています。

これらの困難な問題に立ち向かう唯一の方法は、これからも仮説を作り続け、その仮説を1つずつ科学的な方法で検証していくということです。 非常に泥臭い作業ではありますが、着実に物事を前に進めることができる方法でもあります。

SmartNews では、このような困難な課題に対して、真面目に取り組んでくださる優秀な方を常に求めています。

https://smartnews.workable.com/