Machinio

为工业机械公司开发综合搜索引擎

2012 年,Dan Pinto 和 Dmitriy Rokhfeld 创建了一个可自动收集二手工业机械和重型设备出售信息的聚合器。

当 Dan 接到一项在互联网上搜索印刷机的工作任务时,他便产生了创建这项服务的想法。 结果发现这项任务比预期的要困难很多。 你无法在 Ebay 上购买这样的机器,而且比较众多网站上的价格表也要花费大量时间。 因此,Dan 开发了一种技术:从网站上自动收集信息,并将数据整合到一个地方。 后来,他联系了他的儿时好友 Dmitriy,他们成立了一家初创公司,创建了一个带有数据解析的电子商务网站,简化了寻找和整理可用设备和机器信息的过程。

创建一个产品目录后,就不需要去梳理不同网站上的海量优惠信息来寻找合适的选项。 于是,Dan 和 Dmitriy 开发了一个产品目录,利用工具提取网站和应用中的数据,进而解析信息。 Machinio 是一个电子商务搜索引擎,可以自动将来自不同列表的数据收集和整理到一个地方,供买卖双方讨论交易细节。

挑战

该服务的第一个版本是 Dan 自己编写的。 随着 Machinio 团队继续开发二手机械市场,该团队的销售经理数量随之增加,并与设备销售商签订了越来越多的常规合同。 最后,很明显,一个人不可能既经营公司又管理项目代码。 Machinio 需要更多的开发人员,但那时,他们不想花时间去聘请和适应内部开发人员,从而减缓他们前进的势头。 他们决定,最好的选择是聘请一家咨询公司,该公司可以立即为他们提供经验丰富的开发人员,不会打乱他们继续前进的节奏。

于是,Machinio 找到了 Evrone 来强化他们的团队,帮助他们开发一个销售二手设备的产品搜索平台。 Evrone 负责后端的开发,这也是这家初创公司的核心所在。 我们的任务是利用我们的专业知识来支撑 Machinio 原有的内部开发流程。

machinio screens

从数千个网站收集和整理列表的过程

Machinio 使用网页抓取工具自动从卖家网站收集信息,通过网络爬虫对页面进行分类并将必要的数据保存到数据库中。 期间使用了 Ferrum,这是在 Evrone 的支持下创建的一种开源解决方案,是用 Ruby 编写的用于控制 Chrome 的高级 API。 它可以帮助聚合器从使用 React 或 Vue.js 等编写的网站上收集信息。

更大的问题是产品信息可能不完整。 例如,某些规格可能已丢失或照片可能与型号名称不匹配。 网络爬虫只会解析带有商品描述的目录,因为它们已经呈现在原网站上,因此第二步是对接收到的数据进行自动验证和确认。

该项目使用机器学习对接收信息的列表进行分类。 该模型会使用部分列表进行训练,当为它提供新列表后,它会分析文本并对其进行分类。;

这种系统化并非总是必需,因为有时会出现不同寻常的批次无法添加到现有类别中。 有一次,一家拥有价值几百万美元设备的工厂挂牌出售。 当然,这类列表需要使用单独的特征,仅仅使用机器学习是不够的。

machinio illustration

跟踪数据更改

有时,如果标记或技术数据发生了变化,客户的网站可能会停止工作。 针对这些情况,我们开发了数据验证系统。 如果卖方有部分内容停止了正常工作,则他们会收到通知,以便进行补救。 信息每天都会上传,但并非实时。 买卖重型设备的过程相当缓慢,而且市场上经常更新目录的大公司并不多,因此实时更新并不重要。

技术栈

Machinio 能够创建最全面的二手设备数据库,为此需要具有超大容量。 现在他们大约有 10-12 台服务器,当该容量不够用时,将自动连接备用服务器。

我们的工作是使用 Ruby on Rails 开发整个系统。 后来,Machinio 团队决定使用 TensorFlow 进行机器学习,使用 Headless Chrome 进行网络爬虫,使用 Apache Solr 进行搜索。 系统中的所有内容均已设置完毕,用户既可以根据特定模型的名称进行搜索,也可以根据随机请求和特征进行搜索。 该产品采用微服务架构,有一个单独的团队负责网络爬虫工作。

成功的衡量标准

根据 SimilarWeb 服务的数据,2020 年 2 月,Machinio 网站的平均月流量为 67 万用户,其中 71.79% 来自搜索引擎。

machinio graphs

市场上也有类似的服务,但 Machinio 的下列特性有助于吸引更多的用户:

  • 该服务针对搜索引擎进行了优化,因此很容易被找到
  • 目录中包含来自 190 多个国家/地区的报价信息,可以帮助用户找到最合适的产品
  • 在处理买方意向之前会对买方进行审查,筛掉虚假请求

Machinio 这家初创公司通过聚合器改变了设备销售业务的基本规则,并筹集了超过 404 万美元的资金。 2015 年,Dan Pinto 和 Dmitriy Rokhfeld 入选了《福布斯》“30 位 30 岁以下精英”榜单。 2017 年,该公司在柏林开设了第二个办事处。2018 年 7 月,创始人将 Machinio 出售给 Liquidity Services,后者目前负责管理该公司的资产。

Machinio 享有很高的国际知名度,福布斯、Inc.com、TechCrunch 等多家国际知名媒体公司都曾撰稿对其进行特别报道。

Evrone 很自豪能够帮助这样一家与众不同的初创企业实现飞速发展。 借助于我们的专业知识,Machinio 的功能性已经达到了用户所需的水平, 并且实现了卓越指标和财务目标。

来自 Clutch.co 的评论
Evrone 的开发人员很资深,并编写了高质量的代码。 他们比一般的开发人员强很多。 相较于我们支付的报酬,他们的经验比我预期的还要丰富。 就当时而言,性价比很高。 在美国,我们要花费三倍的价格才能请到同样水平的开发人员。
Dan Pinto
前首席技术官,Machinio.com — 机械行业搜索引擎
联系我们
已有项目构想?
我们一起来实现它吧
添加附件
文件必须小于 8 MB
允许的文件类型:jpg jpeg png txt rtf pdf doc docx ppt pptx
本网站受 reCAPTCHA 保护,并适用 Google 隐私政策服务条款