数据库

首页 » 常识 » 预防 » 四大榜单第一名首个中文预训练表格模型开
TUhjnbcbe - 2025/1/17 19:52:00
<

原创Synced机器之心

机器之心专栏

作者:李永彬

在过去两年时间里,阿里达摩院对话智能团队(ConversationalAI)围绕TableQA做了一系列探索,先后在四大国际权威榜单上取得第一名,并且开源了首个中文预训练表格模型。同时,把TableQA技术落地为产品,在阿里云智能客服中开始规模化推广,成为具备差异化竞争力的新产品。本文将对达摩院在TableQA技术方向的系列探索创新和业务落地做系统的梳理介绍。

图1:达摩院TableQA先后取得四大榜单第一

在日常工作中,Excel表格随处可见;在APP或网页中,表格是清晰友好的信息传递方式;在企业中,关系型数据库无所不在。由于表格数据结构清晰、易于维护,并且对人类理解和机器理解都比较友好,表格/关系型数据库是各行各业应用最普遍的结构化知识存储形式。

但在表格知识的查询交互中,门槛却不低:对话系统或搜索引擎,并不能很好地将表格知识作为答案查询出来,而关系型数据库的查询更需要专业技术人员撰写查询语句(如SQL语句)来完成,对大多数用户来讲门槛更高。表格问答技术(TableQA)通过将自然语言转换为SQL查询语言,允许用户使用自然语言与表格知识直接交互,为表格知识的大规模交互使用铺平了道路。

1.什么是TableQA

什么是表格问答(TableQA)呢,我们通过一个例子来引入。如下图班级学生信息的Table,用户可能会问:“告诉我3班最高的男生有多高?”。要想解决这个问题,需要先把自然语言转换成一个SQL语句,然后利用该SQL查询表格,最终得到答案。整个TableQA的基础问题就是如何解析自然语言:把自然语言文本转变为一个SQL语句。

如果进一步考虑到多轮的情况,用户可能会接着上文问:“那最矮的呢?”,这个时候就需要利用上下文进行对话管理。除此之外,表格中的内容一般比较简练,经常是以实体词的方法呈现,比如身高值可能就是“”,如果只把这个数字返回给用户,可读性非常不友好。优雅的方式是结合上下文回复“三班最高的男生有1米86”,这就需要一个忠实且流畅的自然语言生成能力。

图2:TableQA技术框架图

由于表格内容复杂多样,涉及各行各业的专业知识,SQL的标注难度大且成本高昂,模型迁移能力差,TableQA一直是自然语言处理领域的难题。

2.TableQA的发展及难点

TableQA最早于年[1]在数据库领域被提出,但在很长的时间里发展缓慢。但从年开始[2],随着深度学习的蓬勃发展,该方向重新获得研究人员的

1
查看完整版本: 四大榜单第一名首个中文预训练表格模型开