<?xml version="1.0" encoding="utf-8" standalone="yes" ?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Minhash on SmartNews Engineering Blog</title>
    <link>https://developer.smartnews.com/blog/categories/minhash/</link>
    <description>Recent content in Minhash on SmartNews Engineering Blog</description>
    <generator>Hugo -- gohugo.io</generator>
    <lastBuildDate>Mon, 05 Aug 2013 09:00:25 +0900</lastBuildDate>
    
	<atom:link href="https://developer.smartnews.com/blog/categories/minhash/feed" rel="self" type="application/rss" />
    
    
    <item>
      <title>b-Bit MinHashによる高速かつ省スペースな類似度判定</title>
      <link>https://developer.smartnews.com/blog/2013/08/05/efficient-similarity-estimation-using-b-bit-minhash/</link>
      <pubDate>Mon, 05 Aug 2013 09:00:25 +0900</pubDate>
      
      <guid>https://developer.smartnews.com/blog/2013/08/05/efficient-similarity-estimation-using-b-bit-minhash/</guid>
      <description>&lt;p&gt;&lt;a href=&#34;http://www.gocro.jp/&#34; target=&#34;_blank&#34;&gt;ゴクロ&lt;/a&gt;の浜本です。ネットカフェでコードを書くのが好きです。&lt;/p&gt;

&lt;p&gt;&lt;a href=&#34;http://developer.smartnews.be/blog/2013/07/31/shakeflake-is-a-tool-for-generating-unique-id-numbers/&#34; target=&#34;_blank&#34;&gt;前回のエントリー&lt;/a&gt;でも触れられていますが、&lt;a href=&#34;https://www.smartnews.be/&#34;&gt;SmartNews&lt;/a&gt;はホットな話題をユーザにお届けするために、常時、膨大な数のツイートおよびURLをクロールしています。こうして収集した記事に対し、様々な分析が施されますが、その中でも重要な処理の1つに、記事の類似度判定があります。内容の似通った記事をインデックスから発見し、グループ化する処理です。&lt;/p&gt;

&lt;p&gt;毎秒、大量の新着記事が到着することから、この類似度判定は高速に実行する必要があります。また、インデックスを全てメモリに載せているので、類似度判定を実現する際の空間効率も要求されます。&lt;/p&gt;

&lt;p&gt;今回は、SmartNewsが高速かつ省スペースな類似度判定のために使用しているb-Bit MinHashと呼ばれる手法を紹介します。2年前に、PFIの岡野原さんが&lt;a href=&#34;http://research.preferred.jp/2011/02/minhash/&#34; target=&#34;_blank&#34;&gt;非常に分かりやすい解説記事&lt;/a&gt;を書かれており、本エントリーはこの記事を参考にさせていただきました。&lt;/p&gt;</description>
    </item>
    
  </channel>
</rss>