北科瑞声刘轶:人工智能与金融证券大数据融合-深度商务调查系统

发布时间:2018-09-21 16:14:15 | 来源:中国网 | 作者:刘轶 | 责任编辑:肖寒

8月17日,由深圳市科技专家委员会主办、深圳市千人专家联合会承办的“深圳科技展望系列活动——金融科技领域人工智能技术专家沙龙”在深圳举行。国家“千人计划”特聘专家、深圳市北科瑞声科技股份有限公司董事长刘轶在演讲中介绍了人工智能的发展历程,同时介绍了金融科技领域我们应该如何通过人工智能技术来实现“深度挖掘企业信息与价值”的商务调查,对金融科技领域的人工智能技术做了深入探讨。

以下内容整理自刘轶演讲实录:

各位朋友下午好,我是刘轶,今天非常高兴有机会能跟大家分享一下人工智能在金融证券领域的一些应用,我将从以下几个方面来跟大家交流。第一个是行业背景,实际上,从2016年2017年开始一直到现在,人工智能的技术发展是非常快的,特别是随着深度学习技术的广泛应用,应该来说给我们整个的生活以及我们的产业带来了非常大的一个变化。实际上我们在深圳作为全国的创新创业示范城市,我想大家也都非常深刻地感到人工智能对我们整个生活学习工作带来的重大变化。在这里我跟大家回顾一下人工智能发展的整个历程,可能比较专业,就是人工智能整个发展的历程,实际上也就60多年,从1956年达特茅斯会议开始确定,人工智能一直到现在,大家也可以看到人工智能的发展它不是一帆风顺的,是一个波峰波谷的情况,特别是在我博士毕业后,后来当老师带学生的时候,当时在2000年左右的时候,应该说是人工智能的一个低谷,当时我的学生还包括我的同事在全球找工作都不是很容易的,但是现在大家可以看到是不一样的,为什么会出现这个情况?我想是几个方面,第一个是我们硬件技术的发展,特别是GPU的广泛应用,使我们大数据的这种快速计算得到了可行。第二个就是算法,近几年深度学习以及神经网络算法的实现,使得我们整个数理统计的概念和应用发生了变化。

blob.png

在这里面的话也给大家报告一下,人工智能基本上是三个阶段,分别是弱人工智能、强人工智能和超人工智能,我们现在是在哪个阶段?实际上现在我们还是在第一个阶段,大家在平时使用人工智能的产品也都能够感觉到,实际上在目前这个阶段,我们往往都说机器人、人工智能等等,但是我的理解是这样:人工智能包括机器人,但它不能够完全取代人,所以我也是经常说,机器人并不是一个完全自动的东西,完全具有智能的,它是机器+人。人工智能它的优势体现在哪?而不是说我们人类拥有的这些思维也好,理解也好,人工智能都能够做到。实际上人工智能最大的优势,在目前来说只是代替我们人类进行重复的可编写的比较统一的大量的工作。而对于一些推理认知,甚至感知这些,人工智能应该还有很长的路要走。预期到强人工智能这个阶段,按照比较乐观的方式计算的话,起码是需要20年的时间。一个根本的原因,实际上现在不管是从计算机科学也好,还有生物信息也好,以及类人感知以及人脑的分析也好,就是我们对人类究竟是怎么样理解一个事物或者是学习一个事物,这种完全的机理还没有搞清楚。所以说在这一块还是有很多的工作要做。然后另外的话就是人工智能发展的三大基础,第一个是算法,第二个是数据,第三个是计算能力,集中计算能力是跟平台密切相关的。

刚才算法我已经提到了很多次,实际上还有更多的一点的话是数据。我们现在都是在大数据的反应下,这个数据并不是说非结构化杂乱无章的这些数据都有用。我的理解是这样,这些数据必须是需要一些结构化才可以应用起来,运用到系统当中,机器能够识别或者学习的这些数据。为什么这么说?换一句话说,实际上现在在人工智能领域在各个方面这些创新也好,创业也好,这些公司很多,但是,大家可以发现泡沫当然是有的,在这里面真正能够解决核心问题,或者说成为一个伟大公司的一个雏形公司,实际上并不是特别多, 最关键的一个问题就是在数据,这里面必须是要有长期的积累才能够得到的,这些数据后面我们还会详细给大家报告。

人工智能发展的六大核心技术,从机器学习自然语言处理等等一直开始。然后就是人工智能的市场规模,实际上随着人工智能的发展,这块还是算比较保守一些的,包括从全球甚至我们国家,广东省前两天刚刚发布的广东省人工智能的规划,在规划里面可以看到,金融领域的人工智能的结合,是广东省重点发展的一个方向。

然后再给大家说一下行业应用,人工智能它概括的来说,它是代表一种技术,一个技术的应用必须要落地,落地就必须要跟行业跟方向结合起来。在金融科技领域,我们总结可能有以下几个方面产业化应用会比较快一些。第一个的话就是量化投资,这个实际上现在在美国价值投资,包含量化投资,70%以上都是机器人在做。

但是我们中国有中国的情况,比如说像我们A股大部分的话都是散户,跟美国或者跟香港还是不太一样的,所以说在这种量化投资或者高频交易的话,这个里面应该70%多都是机器人在做。第二块的话就是智能投顾,智能投顾实际上是相当于人工智能机器学习以及边界条件这种结合,形成一种决策,这么一种机制,在金融科技领域,它就会把很多的边界条件多少维的数据结合起来,然后计算出来一个概率一个模型,然后根据这个模型再根据你很多的其他条件,然后作为一个类似理财顾问。

目前来说在我们国家所有的银行,包括国家的四大行以及股份制银行都已经开展这方面的工作,特别是在我们深圳这几家,包括招行和平安在这一块的话是走的比较前列的。实际上它最大的一个目的是,根据每个人的这种理解或者说应用来说,它是有不同的目标,比如说有的人就是要保守,有的人就会比较进取,有的人他就是一个价值投资实现财富的增值,所以说在这个里面实际上挑战还是比较大。

blob.png

还有一个就是商务调查,主要是几个方面,第一个方面就是风控风险控制。我想大家如果去贷款、去买房等等,就是你贷款的银行都会对你自然人进行一个背景调查。对于一个公司要融资,要并购等等,这里面也都会进行一些商务调查的工作,等等这些场景就会牵涉到很多的和人工智能相关的这些核心技术。举一个最简单的例子,就比如说你的公司或者说你的上下游企业,你的客户跟你的自然人跟你的实际控制人,他们之间究竟是怎么关联的?在上百维的这种信息里面,怎么能够挖掘出来你有用的价值,跟你风险控制结合起来?在这里面就是人工智能是一个非常好的落地的形式。

所以说上面介绍完了背景以后的话,也就是这个机会跟大家分享一下,我这个题目里面说的就是商务调查:深度商务调查系统。为什么用“深度”两个字,这里面可能就更多是我们如何将人工智能的技术怎么能够结合起来,让我们的商务调查更全更广,可信度更高。这里面就是企业大数据的平台,大家可以看到,这个系统要做的一些事情,基本上来说是相当于对于法人系统,主要是针对于客户商务和法人,做一个全新化项目,精准化项目的系统。

实际上我这里面总结了几个六个字,一个是挖掘,一个是整理,还有一个是汇集。信息实际上是公开存在的,但是这些信息究竟有没有用,怎么用?它是不是一个公平的这种信息能够公平地反映出他的这种态度,所以说在这里面就是公平,还有公开,对于你一个公司也好,对于一个人物的也好,他的这种公平信息是不是能够达到公开,包括像我们政府,各个方面现在都会要求,然后整理关系在梳理,这个也很容易理解,包括我们人这种社会网络关系也是一样,它有的时候它是很错综复杂的。但是我们怎么能够用机器学习的办法能够把这些关系内在的观点能够把它画像画出来,怎么能够整理出来这个就是人工智能核心应用的一个点。

blob.png

还有一个数据连接,这就是挖掘。现在的话我想这个数据是海量,图文视频,文本的就不用说了,包括图像的,包括语音的,包括音频的海量数据是非常多的。但是大家可以发现大量的数据实际上是没有什么价值。比如说你在百度上面去搜一个你想要的信息,往往这个信息都是在几页甚至十几页之后才能够获取一点。这个关键是在哪?这些数据它没有形成一个结构化的数据,没有形成一个有连接关系的关联数据,所以就造成大部分信息都是没有用的,所以说我们这个系统,我是把它定义为“深度”的一个调查系统。

刚才也给大家报告了,商务调查对于一个人也好,对一个公司也好,它存在着三个重要的挑战。比如说大家去找工作,或者说你去找朋友,你去合作等等,现在你都会很自然的,你就会上网看一看,或者是利用一些第三方的工具,你会去查一下,这里面就会牵涉到一个问题,你用的第三方的工具也好等等,他提供的这些信息是不是权威,是不是可信?是不是关联的?或者说最简单的是不是正确的,这可能就需要我们用一些核心技术,把多维的信息能够整合起来,提供给你做辅助决策。这个就是我们基本的一个模块,比如说一些企业的基本信息,这个里面大家可能会觉得用天眼查、企查查等等的话也都能够可以看到。实际上因为我们这个平台的话,后台是接入了1.2亿家这种所有公司,包括实体的这种信息,而且我们大家也可以看到都做了一些结构化关联的处理,所以你看起来的话就会非常直接非常精准。

第二个就是上市企业的信息上市的上会的等等,因为我们这个系统是跟证券信息公司合作的,他是我们国家上市公司法定评估机构之一,所以说在这里面我们的信息是最及时最权威的。另外企业人物的信息,这里面相当于董监高以及你关注的这些人物,他的简历、投资、任职、毕业院校、出行等等一个完整的信息。这里面大家可能会觉得似乎也没有什么多大的挑战,只要公开披露的就可以,但是我想一个就是所有的上市公司也好,上会公司也好,它披露的这些董监高的这些信息的话,都基本上都是格式化的这种信息,比如说在PDF文件里面,PDF文件一旦转换成纯文本文件以后,所有的格式化信息全部都会丢失,就只是一个纯文本,我们这里面实际上是运用了自然语言处理里面的词向量以及自学习的技术,能够还原出来它的这种结构信息,这个应该是一个独有的技术。另外是企业族谱,在这里面,我们可以把一个企业跟它的人物、关联企业以及它的上下游等,我们可以有六层关系,能够全部画出来,都来展示出来。实际上做背景调查也好,做尽调也好,以及做监管也好,我们能够直接追溯到六层以上的关系,这个就是多关系查询,我们这里面支持50家关系你可以放在一起,它们之间是怎么关联的?

举一个数字的例子,大家可能就会更有体会一些,我们现在的企业库里面是有1.2亿家企业,它又衍生出来每一家企业有数千条的这种特征。这里面大家可以想象,搜索空间是非常大的。我们在这个里面任意的两家到50家人物和公司之间如何关联,我们可以很快的实时化出来和学习出来。这个里面的话就可以规避很多关联交易,比如说关联交易的查询,投融资的这些都可以查到这些信息。

另外这个也是我们一个特点,就是单个企业的这种舆情的信息。 我想大家如果平常地去看一个企业也好,或者看一个事件也好,你可能就是去百度上面去搜索,它这里面很多的信息都没有任何的关联,我们这个系统可以把这些你想要关注的公司也好,想要关注的人物也好,从它的时间点开始,整个的全部信息能够精准地对接起来,就是根据你的时间把这些舆情信息跟你的公司能够深刻关联起来。

在这里面有一块,我们就是跟中山大学管理学院在合作,有很多信息的话,大家看起来可能对股票或者说对这个价值不敏感,但是对于他们来说就会比较敏感,企业风险的提示,这个就是我们对一个企业可以完整生成一个尽调报告,然后对于它的风险,我们可以进行一个机器的自动的提示,就是人工智能来进行分析,它的风险究竟在哪里?这个就是最后一个尽调报告自动生成,对人物也好,对一个企业也好,按照我们上面说的这些核心的内容等等,我们可以一键生成一个尽调报告

大家可以看到,边上那些黑格都是我们的结构,就是相当于对他整个公司一个完整的一个画像。最后就是大概总结一下有哪些特点,这里面实际上是把人是叫自然人,实体是法人,然后还有信息,以及跟我们金融证券里面的价值信息,能够结合起来。 还有一个就是和你这个公司在产业链上面,上游、下游还是中游,以及你是在前期、中期、后期不同阶段的这些信息能够进行融合,并且采用人工智能的技术深度挖掘里面的核心价值。

这个就是我们合作的一个应用,相当于是专业知识库,主要是财务信息,以及我们人工智能抽取出来的大概有将近200多维的信息,对我们国家目前A股所有的上市公司进行一个机器估值,就是它的实际价值究竟应该是多少?在这里可以举一个例子,我们这里面包含了有哪些信息?比如说大家现在看股票看中国,当然中国有一些特点,它的一些政策是你可能更关注的K线多少天的这些均值走动等等,还有一些行业的一些研报等等。

实际上对于一个股票它的价值,我们叫价值投资来说的话,它是远远不够的。比如说像我们这个系统里面,我们就融合了像汇率,还有欧洲股市的价格、道琼斯纳斯达克以及期货黄金等等,还有它历年来这种变化等等,然后这里面的话大概是有将近200维的信息,我们把它建模,然后根据它的财务信息来进行一个统一的一个模型的计算,然后来给出一个机器的估值。这个项目我们是实盘操作,目前来说的话投资回报还是不错的,应该是远远超过于人。在这里面实际上是一个价值投资的过程,而不是说大家今天买的股票,然后一个星期或者几天以后就把它抛掉,这个我们会从3500多只A股的里面,我们会选出,我们觉得机器他会选出觉得价值投资的这么一些股份,然后我们会设定一定的期限,比如说三个月半年达到我们的Margin(利润、盈余)以后,我们买空或者是卖来这样做。

blob.png

最后就说一下我们这个系统的应用场景,实际上刚才跟大家报告,大家也可以充分的理解到,我们可以应用在以下几个方面,包括证券公司,包括专业的银行等等,甚至包括像我们大型企业都可以来应用到投资的企业或者合作的伙伴,需要监管这些下属的子公司等等,都可以全部定制化的做到。还有就是律所进行这种完整的竞标,理财平台,二级机构等等,目前来说我们这个系统还没有对C端的开放,主要是针对B端用户。刚才给大家报告的我说的数据,实际上你一个系统它究竟可信度有多高,或者说应用价值准确率有多高,这个数据是很大的一个方面。实际上我们这个系统合作是跟证券信息公司我们合作了有7-8年,而且也是全国独家代理的一个授权的机构,这里面有50亿多条的数据。

发改委的对我们宏观经济预测,以及新兴产业项目的协同处理,以及申报项目的一些监管和服务等等。系统的优势实际上也就是结合刚才人工智能在金融证券领域应用的几点优势,第一个是数据,第二个是算法,第三个是平台,实际上在算法的话,我们相对于其他传统的这种尽调也好,或者说调查系统也好,因为我们这些背景的话很多都是做语音识别的,大家都会知道现在很多风投也好,或者说投资量化投资机构也好,这里面的核心技术人员很多都是我们做语音识别的,因为语音识别里面的很多算法实际上是在金融证券领域应用都是非常合适的。举个简单的例子,像我们语音识别基本上是用过去的信息来预测现在的将来。 想想大家做价值投资做风控也好,实际上也基本的核心的理念是这样。而且我们语音识别会考虑很多的边界情况和环境条件,比如说噪声、口音等等来提高它的准确率。我们做价值投资也是一样的,有很多的外部的环境,你像政策汇率等等,你也是要把它量化来提高你的准确率,所以说在这里面我们在这一块是有一些很独有的这些技术,能够可靠地达到这种智能控制,商业估计等等。

给大家举个例子,比如说像现在很热的像黄晓明18亿割韭菜这个答案,我们这个系统,我们上次试设了是可以把他所有48家的关联,甚至是隐藏在后面关联,我们都能够给它挖出来,挖出来以后的话,我们在用我们的关系图能够把这个关系图直接就把它画出来,这样非常的清晰。传统的市面上的系统可能做不到这一点。实际上隐藏的很深的关系图,我们都需要花好几层你才能够关联起来,还有的是通过有限合伙,有的是通过他投资的等等,有的是甚至是通过她的朋友,你像我们里面校友关系等等全部都能够管理。另外的就是这个里面我刚才说到数据的问题,现在市面上比较流行的这两个系统去查的话,它这个数据实际上是不够完全,可以跟我们对比一下,大概只有我们的三分之一到一半。首先数据不安全,你出来的这些东西的话,它往往它就有很多的瑕疵,也很容易引起这种用户的投诉或者争议。这个就是四点优势总结一下。

也用这个机会给大家介绍一下我们这个公司:北科瑞声,我们是做语音起家,然后现在是应用到人工智能的几个领域,包括智能语音识别、大数据挖掘和智能信息处理。在深圳,我们这个团队还是非常有特色,拥有自主核心的一个知识产权。我们公司的一些资质和荣誉,去年也是人工智能全国200强的代表企业。

最后就是给大家做一个趋势展望,因为今天的主题是人工智能和金融科技,我就把这个再扩大一点。我想大家可能有的关注其他的领域,在这一块从现阶段,比如我们说看十年,我们国家都是十年一个规划,从大数据感知理解到机器人,甚至到现在比较热的自动驾驶,大家可以看一下,实际上这里面挑战还是非常大。是特别是在某一个阶段到达一定瓶颈以后,再往上,可能到时候就不是说是投入或者产出的问题,那时候可能就需要乔布斯这样的人物来出现,才能够带领我们,比如说我们深度学习,为什么能够发展这么快,那就是因为出现了两三个很牛的人对算法进行了改进和提升。

在AI +金融领域。我总结了一下这个趋势,科技金融到底是一个什么样的形态。这里我想应该是一个互补,或者说一个充分利用的形态,这样在某些领域可能是需要颠覆我们的认知,形成一个人工智能的专家和金融科技的专家深入的融合。

(本文由深圳市千人专家联合会供稿 中国网·中国物联网频道整理发布)