Student Lounge

Sharing technical and real - life examples of how students can use MATLAB an金宝appd Simulink in their everyday projects # studentsuccess

MATLAB,机器学习&电影…完美结合

They say don 't judge a book by its cover, but no one said anything about movies, right??In today's post, I am pleased to welcome the winners of the "Most creative use of the MATLAB" Award atTAMU Datathon 2020。TAMU Datathon是世界上第一个也是唯一的大联盟黑客(MLH)数据科学这家网站,旨在连接数据科学/机器学习顶级人才和顶尖公司。我们的客人——博客Vaishnavi Duraisamy,Adhithiyaraj Sankaranarayanan领导,大师Sarath Thangamani,要不是Karuppuch萨米将讨论基于他们的海报电影推荐攻击,到我们的客人博客…

灵感

TAMU Datathon 2020是我们第一次单独和问题陈述是通用的,我们很困惑如何开始!当被要求提出一个问题的陈述,思考一段时间后,帮助我们是电影之夜,我们前一天。我们发现很难选择一个电影和电影希望有办法建议基于我们的个人利益和尤里卡!事实上,我们对电影的看法明显受到他们的海报给了我们一个火花!我们发现我们的想法马拉松!这启发我们设计和开发一个应用程序,该应用程序会推荐类似的电影基于我们输入的海报。考虑到这些事实,建议根据海报似乎是一个公平的想法。不是吗? ?

分解问题

识别类似的电影海报根据输入图像,我们必须选择一个机器学习算法,它可以捕获的重要的图像特征输入和检索海报海报具有类似特性以及实现降维,我们正在与输入图像。因此,主成分分析(PCA), t-Distributed随机邻居嵌入(t-SNE),统一歧管近似和投影(UMAP)和Autoencoders成为我们的潜在候选人。我们决定为我们的实现选择autoencoders, autoencoders能更好地捕捉非线性特性,在有损图像压缩任务中的表现而闻名。Autoencoders是尝试复制输入的网络。网络设计的输入和输出层相同的大小。网络越来越小直到中间层然后再生长在大小对输出。这种方式只试图捕捉重现输入所需的重要特性在中间层提供一种方式来实现降维。

我们如何实现它?

编码器由多个二维卷积层捕获输入图像的空间特性,输出滤波器的地图最后卷积是然后被夷为平地,给多个致密层生成输入图像的编码向量。通过这种方式,所有训练数据集的图像映射到一个10 d潜在空间。在培训过程中使用译码器来减少重建autoencoder的损失。

在推荐,一个输入图像(一个电影的海报)由用户,给出算法检索基于欧几里得距离最近的图像映射在10 d潜在空间和输出,作为推荐的电影。

The Results

马拉松的最后我们的目标是有一个简单,概念验证应用程序开发。因为我们的机器学习模型,使用MATLAB我们决定使用相同的开发我们的GUI。我们都很新工具,我们提出了一个非常简单的用户界面在有限的时间内,我们必须上传我们的输入海报图片在一个窗口推荐给在另一个窗口。

The it movie is like The user input. Both are of The same genre - horror!It is evident from the above example that the algorithm retrieves posters with similar features.

前面的例子一样,上面的例子还建议类似的电影。的电影都是喜剧风格。

为什么我们选择MATLAB ?

这是我们的第一个Datathon,我们的重点是让我们的交付时间。原型机器学习算法在MATLAB的一站式服务,涉及的计算时间很低甚至没有使用gpu。MATLAB的深度学习工具帮助我们尽快解决这个问题,而不必担心复杂的编码语言,让我们专注于解决问题而不是意大利面条的循环代码。因为涉及Autoencoders的使用我们的代码,处理维度和hyperparameters相当关键,MATLAB和well-elucidated文档清晰帮助我们建立我们的算法有效地在一个非常有限的时间。最后,开发一个应用程序是一个过程,在MATLAB几个点击。因此,考虑到这些事实,我们一致选择了MATLAB作为我们的工具来构建推荐系统。

未来的范围

尽管有了好的建议,有一个巨大的范围推断这个工作。到目前为止,系统推荐一个电影基于我们输入的海报。推荐电影的数量可以增加,给用户一个期权池。到目前为止,我们已经考虑了海报的像素值是唯一特性的机器学习算法,它可以结合其他特性,比如审查(NLP技巧),评级,类型,长度,语言给更好的建议。除了改善模型性能的一个主要因素是得到一个具体的方法来测量性能,因为喜欢电影的不是一个可测量的量,可以有利创新的性能指标。最后,带安全标签的数据在全球范围内人口多元化能给一个更好的推荐系统

关键的外卖

不再浪费时间在周末决定看什么电影。我们有一个去申请这个目的和最好的部分是,这个想法拿来我们第一TAMU Datathon 2020年最具创意奖使用MATLAB。这是一个伟大的经验在一天之内完成这个项目。我们充分享受做这个机器学习应用程序的过程。我们的代码可以在Github上,请试一下,让我们知道你的想法!

|

评论

要发表评论,请点击此处登录到您的MathWorks帐户或创建一个新帐户。