スマートニュース株式会社でソフトウェアエンジニアをやっております、西尾と申します。自分はニュースアプリSmartNewsの配信記事を編成し、通知すべき記事を決定するアルゴリズムの開発をしています。ニュース記事の時事性・重要性・注目度などを自動的に評価するアルゴリズムを改良し、より良質な記事が配信されるようにすることが自分の役割です。現状のSmartNewsの記事編成は、専門性を持った人間による記事編成と比較してみるとまだまだ改善すべき点があり、これをいかに人間の結果に近づけ、そして越えていくか、ということに挑戦しています。

弊社ではSmartNews Tech Nightという勉強会を定期的に開催しております。もう2ヶ月以上前となってしまいましたが、2015年8月11日に行われた第三回目の勉強会は、”Data Science for News”というサブタイトルを持たせてメディアとテクノロジーをテーマにして開催されました。僕はアルゴリズム改良のためのヒントを得るために会場の端で聴講していました。この時のメモを元に本イベントの内容をご紹介いたします。

登壇者は以下の方々でした。

  • 朝日新聞 デジタル編集部記者 奥山 晶二郎さん
  • 日本放送協会 技術研究員 小早川 健さん
  • SmartNews エンジニア/データサイエンス・マシンラーニング 高橋 力矢
  • 東北大学 乾 健太郎教授
また司会者は
  • SmartNews エンジニア/データサイエンス・マシンラーニング マネージャー 西岡 悠平
でした。SmartNewsからの登壇者の高橋は同じチームの仲間であり、司会の西岡はチームのボスにあたります。

本イベントについて (西岡のオープニングトークより)

Data ScienceとNews Publishingの融合という分野を確立し発展させたい、と西岡は考えて本イベントを企画するに至りました。海外においては、すでにこの領域の研究は注目を集めています。たとえば、KDDというデータマイニング分野のトップレベル国際会議において2014年にNewsKDDというワークショップが開催されています。日本のニュース技術が世界に引けを取らぬよう、イベントに集まった我々ニュース関係者がレベルを高めるきっかけとなること、これが本イベントの目的です。

朝日新聞 奥山さん「報道がテクノロジーに出会った日」

奥山さんは朝日新聞の記者であり、長くデジタル部門に関わってきた方です。今は朝日新聞のwebメディアwithnewsの担当をされています。

朝日新聞はTwitterのツイートを収集・分析・可視化を行い記事化するというデータジャーナリズムを行っており、ここで得られた知見を発表していただきました。

奥山さんは従来の「街の声」や「世論調査」では、統計量の問題や正直に答えてもらえないなどといった理由で、人々の意見を必ずしも捉えられないという問題意識を感じておられたとのことです。Twitter分析はこれらの弱点を補うことのできる強力な手段だと仰っていました。一方、選挙の予測やスクープの発見ができるとは限らないという難点も認識できたとのことでした。

NHK 小早川さん

小早川さんは自然言語処理の研究者です。領域は機械翻訳、音声認識、評判分析、ポジネガ判定などであるとのことです。そのような背景を持つ小早川さんのNHKのデータジャーナリズムへの取り組みを紹介していただきました。

NHKにはSocial Listening Team (SoLT)というチームがあり、ここではTwitterのモニタリングを行っており、事件事故に繋がりそうなツイートを発見したり、トレンドワードを見出したりしているとのことです。これらの成果は、テレビ番組「ニュース シブ5時」や「データなび」において実際の報道に利用されているとのことです。

小早川さんはデータジャーナリズムに求められる要素を以下のように一覧化していました。

  • どこにどんなデータがあるかを把握し交渉して収集する能力
  • 基本的処理技術
  • 見栄えのする可視化
  • 難しい技術の平易な説明ができる
  • データ入手後、数日以内で見通しが立てられるスピード
技術力だけではなく、交渉力・説明力も要求される領域であると訴えておられました。

スマートニュース 高橋

高橋は僕と同じデータサイエンス・マシンラーニングチームのメンバーです。高橋はスマートニュースにおいて実現したい記事配信アルゴリズムについて語りました。

短期的なページビューの最大化を目的とするアルゴリズムを利用すると、ユーザーに馴染みのあるテーマの記事だけが配信されるという懸念があります。これはスマートニュースが理想とする「良質な記事配信」ではないし、おそらく長期的に持続可能な事業にもなりません。逆に、長期的にユーザーの知識を最大化しようとする”家父長的な”アルゴリズムを利用しても、ユーザーは疲れて去ってしまうのみでしょう。 両者のトレードオフを解消するアルゴリズムを開発することが高橋のテーマであるとし、人間の探索行動を説明する他の社会科学の成果を応用し、いかに人間の心理的探索コストを下げることがカギとなるかという考えを語りました。

東北大学教授 乾さん

乾さんは自然言語処理の研究者です。言語処理に関する純粋な技術の向上に興味があるだけでなく、どのように応用し人々の役に立たせられるかを真剣に考えている方です。その熱意は、周囲の人間にも伝わってきます。報道は言語処理技術の重要な応用分野の一つだと捉えているとのことです。

機械的に賛否、同意、対立、根拠などの意味内容を把握するという研究の成果について紹介いただきました。「コラーゲンが肌に良い」とか、「イソジンが放射能対策になる」などのさまざまな命題に対して、人々がどのような意見をTwitter上で表明しているかの統計を取る技術が確立してきているということです。

「何であれ現場で解決したい問題を、具体例で相談してほしい。それによって技術向上につながる」と呼びかけていました。

パネルディスカッション

各登壇者の発表後、パネルディスカッションが行われました。コーディネーターは西岡が務め、パネラーは、奥山さん、小早川さん、乾さん、そして高橋でした。以下にメモの書き起こしを載せます。

1. もっとリソースがあれば取り組みたいテーマを教えてください

小早川さん 今取り組んでいるのは、個々の問題をいかに素早く単語のカウントをする問題に落とすか、ということ。ポジネガ判定もやりたいと考えていて、技術的にはできそうなテーマだが、今のところできていない。

奥山さん いろんなデータを重ね合わせることで、立体的に物事を見ること。たとえば家計簿データとの組み合わせに興味を持っている。

2. スマートニュース高橋の話についてどう思いますか

乾さん 全世界的に、フィルターバブル(たこつぼ化)は問題視されている。記事の良質さを評価するという問題は言語処理的にも面白いし、現状の言語処理のレベルでも現実的に利用可能なところにある。

3. ユーザーの行動分析についてはどう考えていますか

奥山さん ある記事タイトルをちょっと変更するだけでページビューが激増することがあるなど、意外な発見をすることがある。ユーザーの行動分析によって記事をより流通させる余地があると感じている。

小早川さん 言語処理とは離れるものの、視聴率とツイート数の相関に興味を持っている。

4. みなさんにとって良質な記事とは何ですか

奥山さん「態度変容を起こさせる記事」 小早川さん「何かを発見できるもの」 高橋「頭を殴るようなもの」 乾さん「みなさんの意見に加え、ローカルなニュース記事を流通させられるようにすることも重要」

5.(スポーツメディアの方から)スポーツの試合結果の記事を機械が書くことはできますか

聴衆の方からご回答 そのようなことは海外では実際に行われている。これによって記者は、選手の取材など人間にしかできない仕事に時間をかけられるようになり、仕事の効率化が実現している。このような技術は、医療現場で患者に診断結果を説明したり、ビジネスマンが上司に報告をしたりする場面にも応用可能である。

乾さん 自然言語生成という研究分野は昔から存在し、一定水準の技術はすでに確立している。ところが評価が難しいため新たな研究論文を書きづらく、アカデミックなテーマとしては選ばれにくい。しかし上手く使えばビジネスに利用可能だろうので、そのような領域を見つけてどんどん応用して欲しい。

6. 今後実現したいことを教えてください

奥山さん 記者ではない一般の方、あるいはパートナーがコンテンツを作る、というようなシステムを作りたい。

高橋 何を人間がすべきで、何を機械がすべきなのか。この問いの真の合理的解に近づきたい。

小早川さん Creativeなことを機械でできたら本当にすごい。これは夢のまた夢の物語。では、creativityがないことを判定する機械を作れないだろうか。

乾さん 身近なものに視点をフォーカスして、ローカルなコミュニティーを形成させる技術。または逆に視点を広げて国際情勢を瞬時に分析する技術。 夢としては、言語を理解する。行間を読む。常識という知識を使う。そんな機械を実現したい。現在できるようになりつつあるが、この次のステージを観たい。

最後に

僕は聴講者の一人として素直に聴き入ってしまいました。登壇者の方々の専門が多岐にわたっていて、それぞれの考えを知ることができたすばらしい体験でした。イベントとしてとても上手くいったという手応えを感じており、次回も弊社で企画できればと考えております。

 

関連記事

「身につけた技術は自分を裏切らない」SmartNews、GREE、CyberAgent、DeNAの重鎮が語ったSmartNews Tech Night Vol.2 レポート

シリコンバレーでMeetupを主催し、SmartNewsのアルゴリズムをアピールしてきた!