Pocket Digest: 一款不会信息过载的RSS阅读器
之前给Pocket官方发过邮件,想和他们讨论下这个想法,结果完全没人理,所以就简单记录在这里了,算是对数据产品思路的一点分享吧。
思路也适用于微信公众号。现在微信看一看/一览/轻芒等等背后有一部分应该也是如此。这也算是对两年前的Tech2Pocket的回顾了。本来写的是英文,我直接翻译过来了。


demo: https://productchaseapp.herokuapp.com/pocket_digest
在具体讨论demo前,首先说的是,对于Pocket的vision,我的理解是让文章更容易读,进而帮助人们更好的阅读。
接下来讨论Pocket使用场景中的两个问题,和解决办法(产品机会)。
1. 问题与解决办法
问题 #1
通常来说,博客不太可能每篇内容都值得读。作为一个读者,我只在乎好的内容,而对于一般的内容没啥兴趣。这是以前RSS时代最大的问题——你订阅的源一多,阅读质量就显著下降。内容太多看不过来了,而很多内容质量又一般。
解决办法 #1
不过,有了Pocket的数据,我们能很好的衡量一篇博客相对整体文章的质量[1] (i.e, Peak over theshold 阈值法)。我们可以知道一篇文章是不是这个博客的前40%的好内容。这样一来,使用Pocket来过滤文章,我们能够得到一家博客内容中更好的部分。
这意味着什么呢?我们可以订阅多得多的博客,但是不会有信息过载问题。相反,能读到更多有价值的文章,而且花费更少的时间。
这也就是功能#1: 用户可以用Pocket来follow blogs/topic, 类似一个改进版的RSS reader. 当然实际上完全不会拘泥于RSS了。
问题 #2
大多数时候,使用的Pocket标记的内容是长文章,长文章通常都很难读。可以怎样把长文章变得容易读呢?
解决办法 #2
当人们读文章的时候,他们可以高亮文章(这其实已经在Medium中很好的做到了,Instapaper也刚刚上线相关的功能)。那么,假如我们可以把用户高亮最多的部分展示给大家,那么就能帮助大家更方便的读长文章。
不过简单的抄袭还是太没意思了,可以把这个功能做得更近一步——把Highlight放在文章的顶部。这样子改善阅读的效果就更明显了,其实这就类似我们在Science Direct, Elsevier上读到的论文一样。

这也就是功能#2了: Pocket可以在文章顶部显示Highlight, 帮助人们快速了解一篇文章的大概。我觉得这也更符合Pocket本身的vision, 帮助人们更好的阅读。而不是简单的别人有这个 feature,我也要有。
把这两个功能合在一起,我把这个demo成为Pocket Digest,也就是意味着帮你花更少时间,读更多有价值的内容。
2. 数据产品的思路
通常,我们说产品经理做的事情是画原型图。但是这有点太局限了。
这里,我想讨论的其实是,有的功能,并不是基于交互的。而是基于数据的。当有像Pocket这样极有价值的数据的时候,怎么利用它来创造价值,是一个很有意思的问题。
对于数据的创立和运用,从商业角度上,也具有战略意义。因为功能很容易被抄,但是数据就难抄了。
我这里对于第2个功能点,有更深的想法 —— 给定一篇文章,我们有相应Highlight的数据
那么,有没有可能用监督性学习来做AI呢?—— 自动根据文章内容做出Summary.
这其实就是之前Anrew Ng说的AI产品设计的要点[2]:做出一个Loop出来搜集数据

用户用得多,数据也就多。数据更多,功能也就更强,也就有更多用户用。产品自身就进入良性循环,商业上也更有竞争力
3. 产品的思路
之所以策划Pocket Digest,另一个原因是,希望给Pocket一个和之前相似,但又略有不同的Value proposition.
很简单,因为不同的产品定位,能够带来用户量增长。
一款比较成功的产品,其实做的大部分功能都是针对存量用户了。很多功能只是锦上添花。对于Pocket来说,read later其实已经做得很好了。那么接下来,就是在make content easier to read这上面进一步发展,于是也就有了现在的内容推荐。而Digest也只可以当作一个策略性的试验了。
祝Pocket一切顺利
[1] Peak over threshold method 阈值法说明
Pocket的数据意味着有多少人收藏了这篇文章,准备之后在读。可以看作是一篇文章有多少价值的衡量(否则人们就不会标记它)。就我的观察来说,这个数据比Twitter/Facebook的分享数据要好。可能的原因是,严肃的内容很难像段子那样在社交网络上得到足够多的传播
对文章数据使用阈值法,是基于这两点假设:
1. 作为读者,我并不在乎博客的每篇文章,我只在乎里面有价值的文章
2. 大多数博客,不可能每篇文章都很好。
对于一个博客,其Pocket数据是这样的

也就是这些峰值的文章,可能更有价值。用一种方式来说,文章的价值,遵循的也是2-8法则、或者Power law distribution。我们感兴趣的是尾部、outliers,而不是那些一般的内容。

当然,这里给的只是一个很粗糙的模型,可以拿常用的推荐系统算法来做混合。另外,如果要比较不同来源的帖子,计算分位数就行了。否则浏览量大的博客的数据依然会占据主导。