车队休息室

学生竞赛的最佳实践和团队合作

MATLAB,机器学习和电影..​​....完美结合

人们常说不要以貌取人,但没人说过电影,对吧?在今天的帖子中,我很高兴地欢迎“最具创意使用MATLAB”奖的获奖者TAMU Datathon 2020。TAMU Datathon是世界上第一个也是唯一大联盟黑客(MLH)数据科学黑客马拉松,旨在连接顶部数据科学/机器学习的天赋与顶级公司。我们的客人博客一天 -Vaishnavi DuraisamyAdhithiyaraj Sankaranarayanan大师Sarath Thangamani普里Karuppuch萨米将与我们的客座博主讨论他们基于海报的电影推荐技巧…

灵感

TAMU Datathon 2020是我们的第一个黑客马拉松,问题声明是通用的,我们对如何开始感到困惑!当被要求提出一个问题陈述时,经过一段时间的思考,所有帮助我们的是前一天的电影之夜。我们发现挑选一部电影很难,希望有一种方法可以根据我们的个人兴趣得到电影推荐,尤里卡!我们对电影的认知很大程度上受到电影海报的影响,这一事实给了我们灵感!我们刚刚找到了黑客马拉松的点子!这启发了我们设计和开发一个应用程序,可以根据我们输入的海报推荐类似的电影。考虑到这些事实,基于海报的推荐似乎是一个合理的想法。不是吗? ?

分解问题

为了根据输入海报图像识别类似的电影,我们必须选择一种机器学习算法,该算法可以捕获输入海报的重要图像特征,并检索具有类似特征的海报,并在处理图像输入时实现降维。因此,主成分分析(PCA)、t分布随机邻居嵌入(t-SNE)、均匀流形近似和投影(UMAP)和自动编码器成为我们的潜在候选。我们决定选择自动编码器作为我们的实现,因为自动编码器可以更好地捕捉非线性特性,并以其在有损图像压缩任务中的性能而闻名。自动编码器是试图复制输入的网络。网络被设计成输入层和输出层大小相同。直到中间层,网络变得更小,然后再向输出方向增长。通过这种方式,它试图仅捕获在中间层重新创建输入所需的重要特性,同时也提供了一种实现降维的方法。

我们是如何实现的呢?

该编码器由多个2D卷积层以捕获输入图像的空间特征,输出滤波器的最后一个卷积的映射,然后变平,并提供给多个致密层以生成所述输入图像的编码矢量。通过这种方式,在训练集所有图像都映射到10D潜在空间。所述解码器被在训练过程中用于减少自动编码器的重建的损失。

在建议中,输入图像(电影的海报)由用户给出,该算法检索基于10D潜在空间和输出映射到欧几里德距离最接近的图像,作为推荐的电影。

结果

我们在黑客马拉松的最终目标是有一个简单的,验证的概念应用而开发的。由于我们使用MATLAB对我们的机器学习模型,我们决定使用相同的开发我们的GUI。我们所有人都非常熟悉这些工具,我们提出了在有限的时间,我们必须上传我们的投入海报图像一个窗口与其他窗口的建议,给出一个非常简单的用户界面。

推荐的电影就像用户输入的一样。两者都属于同一类型——恐怖!从上面的例子可以明显看出,该算法检索具有相似特征的海报。

前面的例子一样,上面的例子也建议采取类似的电影。无论是电影都是喜剧戏曲流派。

我们为什么选择MATLAB?

这是我们的第一次数据马拉松,我们的重点是按时完成交付。在MATLAB中的机器学习算法是没有麻烦的,涉及的计算时间是相当低的,即使没有使用gpu。MATLAB的深度学习工具箱帮助我们快速解决问题,而不必担心编码语言的复杂性,让我们专注于解决问题,而不是在意大利面条式的代码中循环。由于我们的代码涉及到自动编码器的使用,处理维度和超参数是相当关键的,MATLAB有清晰和阐明的文档,帮助我们在非常有限的时间内高效地构建算法。最后,开发一个应用程序是在MATLAB中的“几次点击”过程。因此,考虑到这些事实,我们一致选择MATLAB作为我们的推荐系统的工具。

未来的范围

尽管这些建议结果很好,但对这项工作进行推断仍有很大的范围。目前,系统会根据我们输入的海报推荐一部电影。可以增加推荐电影的数量,让用户有更多的选择。到目前为止,我们认为海报的像素值是机器学习算法的唯一特征,这可以结合其他特征,如审查(NLP技术),评级,流派,长度,语言,以提供更好的推荐。除了改善模型性能之外,还有一个主要因素是找到一种具体的方法来衡量性能,因为“喜欢电影”不是一个可衡量的量,创新的性能指标可能是有利的。最后,全球各地不同人群的标记数据可以提供更好的推荐系统

关键的外卖

没有更多的时间浪费在上周末决定看什么电影。我们必须用于此目的的“走”的应用程序,最好的部分是,这个想法获取我们的一等奖在TAMU Datathon 2020年最有创意的利用MATLAB。这是在一天内完成项目的一个很好的经验。我们尽兴使得这款机器学习应用程序的过程。我们的代码可以在Github,随意尝试一下,让我们知道您的想法!

|

评论

要发表评论,请点击在这里在您的帐户MathWorks公司签署或创建一个新的。