logo
关于我们

智媒体实验室由南都•智媒云图和北京大学计算机科学技术研究所于2016年底联合成立,对机器写作、文本实体识别、智能摘要、立场分析、智能服务等方面进行研究和实践,致力于搭建人工智能创新平台,通过海量的数据和高效的算法,探索人工智能进行媒体内容理解与生产,最终实现多领域的自然语言智能理解和自动生成。

智媒体实验室由北大计算机所语言计算与互联网挖掘研究室负责人万小军和资深媒体人黄治军担任联合主任,由智媒云图首席架构师王新林担任首席技术官,实验室除了AI工程师、数据工程师、前端后端研发人员以外,还配备数据分析师、产品经理以及编辑人员。

一是文本深层语义分析,这是自然语言理解的核心技术,将自然语言文本解析成深层语义图(甚至逻辑表达式),为上层应用服务;二是文本摘要与生成,基于文本自动摘要与文本自动生成技术,实现对包括新闻、综述、学术文献等在内的各类稿件的自动撰写,研制机器写稿系统;三是情感分析与社交媒体挖掘,通过跨语言情感分析技术,实现对世界范围内多语言文本的情感与立场分析,并构建自有的社交媒体数据平台;四是其他新型技术探索,例如深度学习技术、人机对话技术、针对复杂问题的智能问答技术等等。

2017年1月18日,智媒体实验室第一个作品——写稿机器人“小南”正式上岗,并推出第一篇共300余字的春运报道。小南最初定位为聚焦于民生报道的机器人,随着自然语言处理技术的不断进步,机器学习的不断深入,语料素材的不断累积以及知识库的逐步建立,小南的写作能力更强,领域更广泛,文体更复杂。目前小南的写作平台开通了消费、路况、天气、赛事、财经、春运和AI简报等频道。

机器人小南写稿主要有两种方式:原创和二次创作。 原创主要通过从数据生成稿件,抓取数据、分类和标注,然后通过模板进行写作。例如路况播报、车票信息、天气预报、空气质量、股市行情报道、物价信息、赛事简讯、办事大厅客流播报、产品说明书、医疗检测报告等都是基于这种写稿模式。 二次创作即对已有的相关报道进行加工,改写成为新的稿件。例如赛事综述,是基于体育直播文字进行体育新闻自动撰写,利用排序学习和点行列式过程对直播文字语句进行筛选与融合,组成成最终的体育赛事报道。再如新闻摘要或会议简报,运用文本摘要技术自动分析给定的文档或文档集,摘取其中的要点信息,最终输出一篇短小的摘要,该摘要中的句子可直接出自原文,也可重新撰写所得。

目前日均写稿量大约在500篇左右。为什么是“大约”?因为某些领域的写作需要设定一个“阈值”来触发机器人写稿。比如股市动态,我们会设定如果某一只股票的涨跌幅或者换手率超过一定的数值,就会触发机器人写稿,当日股市波动很大的话写稿量就会很大。

文本自动生成是自然语言处理领域的一个重要研究方向,实现文本自动生成也是人工智能走向成熟的一个重要标志。文本自动生成可包括文本到文本的生成、意义到文本的生成、数据到文本的生成以及图像到文本的生成等。文本自动生成技术可以应用于智能问答与对话、机器翻译等系统,实现更加智能和自然的人机交互;也可以通过文本自动生成系统替代编辑实现新闻的自动撰写与发布,最终将有可能颠覆新闻出版行业;该项技术甚至可以用来帮助学者进行学术论文撰写,进而改变科研创作模式。 (详见万小军《文本自动生成研究进展与趋势》

语言是文明的标志,是人类思维和情感的载体,自然语言处理(NLP)正是人工智能的最高境界,被誉为人工智能“皇冠上的明珠”。1997年,IBM的深蓝超级计算机已经能够打败国际象棋世界冠军卡斯帕罗夫,甚至连号称“人类智力最后一道防线”的围棋也被人工智能攻破。但机器写作、机器翻译、机器问答等自然语言领域,仍然没有大的突破!最根本的原因是,围棋的胜负机器很好判断,所以学习目标很明确。但写稿不一样,写一篇稿件,写的好还是不好,满意不满意,没有标准的判断方式。 在某个比较窄的领域,经过大量的训练的机器人,有可能写出相当棒的文章,但让机器拥有“自主意识”,具有思维与情感、学会推理和归纳,目前看来还只是一种幻想,或者说人类危机意识的体现。

一个是写作领域还比较窄,写稿机器人实际上是一款利用编程语言实现的智能写稿软件,多数专注于财经、体育等领域,因为这两个领域具有一定规则和数据可循,实现起来相对容易。一个是语言表达的丰富性问题,以“小南”举例,在小南写稿过程中,遇到的一个难点就是可供学习的样本不够丰富,训练语料较为缺乏。而且,因为缺乏情感表达和思维能力,它写出的作品大多平铺直叙,不够生动。如果仅看几篇没有太大问题,看多了难免会感觉单调、枯燥。

美联社自 2014 年 7 月开始已采用新闻写作软件自动撰写新闻稿件来报道公司业绩,这大大减少了记者的工作量。美国洛杉矶时报也有一种用来撰写突发新闻的应用软件。美国“自动洞察力”公司(Automated Insights)已采用“语言专家”软件撰写了 3 亿篇报道,包括橄榄球、财经报道。这些进展标志着文本自动生成不再属于纸上谈兵的技术,而是已经对人类工作和生活产生了重大影响。路透社推出Lynx Insight的人工智能工具,将编辑工作中机器所擅长的领域分摊给机器(如机器可以对数据进行挖掘,以及识别数据规律),将编辑人员所擅长的工作内容交予人类(例如设置提问、赋予任务以权重,对上下文进行理解等等)。

目前写稿机器人仅能做到将一个基本的新闻事实描述清楚,深度、调查类报道还必须依赖记者完成。创作型人工智能的优势是执行一些简单、重复性的创作输出,人类可以集中精力聚焦一些更富创造性的智力劳动,构建一种和谐的分工协作关系。

introduction

智媒体实验室大事记


2018年5月

机器人小南解锁行业写稿,推出AI行业简报。


2018年4月

智媒体实验室联合珠海国家税务局推出“智税助手”产品。


2017年6月

机器人小南开通写稿平台,陆续开通交通、天气、体育、消费、财经领域写稿。


2017年1月

写稿机器人“小南”正式上岗,并推出第一篇共300余字的春运报道。


2016年12月

南都•智媒云图和北大计算机所签订战略合作,智媒体实验室在广州成立。


【联系我们】imlabs@nandu.com