智慧税务如此之能,那是否偷逃骗税、发票虚开就此销声匿迹了?
当然不是。因为利益驱使,全球范围内税收逃逸与反逃逸的斗争是长期的,涉税犯罪智能化程度也在提高,而智慧税务要道高一丈,技术环境上亦有许多现实之难,人工智能通用大模型所固有的缺陷和风险,行业垂直大模型也依然存在。
一、外部技术环境与风险挑战
大数据分析是模型认知、推理和生成决策的基础,智慧税务系统作为一个智能体(Agent),自然也离不开大数据及其技术运行环境的优化。
一是数据集成难。涉税数据属于半公共产品,实践中数据开放的约束很多,智慧税务系统作为专业平台,要集成所有相关大数据难度很大。首先,纳税人资产和收入数据涉及商业秘密或个人隐私,大多数企业不愿直接开放自用平台API接口,只能由企业在自身ERP、SAP平台取数,再通过税企端侧平台对接调用。而横向平台数据,无论是基础数据、经济数据、社会数据还是司法数据,也因涉及保密和安全责任,大多数部门都按“最小权限”原则谨慎输出,跨境涉税信息也只能通过CRS系统对等合作获取,不是一个部门就可以集成的。目前能集成的还只是纵向申报、发票数据和少部分横向数据,当然,就专业系统而言,集成数据也非越大越好,否则反而会成为烫手山芋。
二是数据清洗挖掘难。数字化有两个痛点,其一就是数据杂乱挖掘成本高。未经清洗脱敏的数据难以集成共享,而数据的清洗、挖掘和加工,要有先进算法和充足算力,耗费不菲的成本,公共部门有限的财力要生产高增值数据产品难度很大。目前国内大模型研发能力以大数字企业为强,市场化清洗和挖掘公共数据,因为专业部门数据安全和数据价值不确定性因素,条件也不成熟。现行智慧税务系统各算法模型所投喂的数据,多为系统内垂直集成的发票原生数据和体外清洗过的申报数据,只能依靠现有算力,最大限度地挖掘数据价值,去实现“精确、精准、精细”治理效果。
三是法理与机理兼容难。大数据技术算法可靠、判断客观,其一致性标准所产生结果可避免人为主观干扰,实现同问同答、同案同判和同罪同责的效果。但在现行责任体系下,结果公平绝对化会使人产生机器依赖而放弃主观判断。如对涉税违法案件处罚标准的裁量,税法有一个0.5~5倍的幅度区间,由执法主体根据案件情节自由裁量,而情节很难作为模型参数量化,大数据结论也是类似案件处罚倍率均值或众数N,但对执法主体而言,N会自然成了同案同判的标准答案,由于从众意味着不会被追责,于是,放弃主观判断、服从一致性就成为其最优选择,但这显然不是法律设定自有裁量权的本意。
况且,由于人工智能训练数据的质量缺陷和不完整性,机生结论也会有数据偏见、错误预测和不公平歧视性问题,过度信任系统的准确性和可靠性,长期依赖系统决策,会忽视人类自身的专业知识和判断力,而使错误行为得不到纠正。
大数据集成共享和一致性标准,有利于关联穿透和联合惩戒,但集成共享信息越广,多重负面信息被关联后,又容易形成连累和牵连,出现纵向追溯期过长、横向多重处罚、累及牵连面太广等问题。法网恢恢、疏而不漏,多重累及,不仅法律本身难以负载,也不符合党的二十届三中全会要求建立轻微犯罪记录封存制度的精神。
四是算法歧视甄别排除难。源于技术本身的信息幻觉因素,大数据模型容易形成一种对某些特定要素的算法歧视,这种歧视一旦形成,某些特定区域、特定人群或特定物品的被针对性很容易固化。反映在税收风险防控上,如历史上某些虚假出口和骗税高发地区、敏感产品和敏感人群,一旦留痕,即使其线下实体信用已修复,但风险疑点指向仍可能在系统中提示。
由于监控大模型技术上要界定和排除算法歧视因素难度也很大,而且人工智能逻辑算法可解释性不强,输出结果清晰但过程不透明,人工干预则需要基层执法人员的认知能力及权限、责任和风险抉择的勇气,聪明的选择均会依赖机器决策保持一致性,但这些曾经敏感的地区、产品和人群因为算法歧视受到不公正待遇且长期得不到纠正,则可能会成为不稳定因素。
同样,系统在纳税信用等级评定和发票授信额度确定中,也可能会因为纳税人历史信用等因素而自动排除某些特征的群体,需要人工干预修正。
五是人机责任界定难。系统对税收执法的运行监控,很多是在人机交互场景下实现的。大模型时代,机器理解专业语言已没有障碍,传统的图灵测试也不能区分人与机器的作用痕迹,人机作用边界和责任边界因融合而模糊。这又带来新的问题,因为人工智能也会出错,如经纳税人确认的AI预填纳税申报表,或者人际交互过程中涉密税项被泄露,一旦出现法律责任引发诉讼,很难清晰界定是人的责任还是机器的责任。
如系统预填的数据质量,很大程度上取决于模型训练和标注阶段所投喂的申报数据质量,反过来也会影响纳税人预期和纳税遵从度,没有距离、过从密切的服务,反而会使服务对象产生“又爱又怕”的感觉。这也是人工智能融合性特征与边界治理清晰性要求的长期矛盾,安全可靠、值得信赖的人工智能,除了鼓励创新和竞争公平,还应担当起维护公民权利平等的责任。
六是技术运行环境难。智慧税务系统实行“技术产品国产化、算法标准国际化”的软硬融合技术架构,在国产云平台基础上运行的Web服务器、Oracle数据库和Linux操作系统,均是基于国际上开源软件技术研发的。由于可用于商用和推广的开源技术本身相对落后,发展中国家借鉴开源技术开发的套壳拼装大模型,原创性不足,而训练大模型需要先进算法、高端芯片和充足算力,我国的高端芯片国际依存度高,在美国对AI/Ml技术“小院高墙”政策封锁下,模型运行和技术升级面临的“卡脖子”瓶颈很多。
而国际上,基于神经网络Transfomer大模型的预训练算法架构和GPT系列的超级语言模型的出现,以其逼真的自然语言交互、多场景内容生成能力、多模态理解能力和强大的推理能力,实现了大数据、大算力、大算法的紧密融合。这对基于CPU和NLP文本理解语言的国产侧端模型和税企交互模式而言,其交互能力和技术运行环境都是很现实的压力。而且,Transfomer是一种基于注意力机制、可高效并行处理序列数据的深度神经网络,其不以效用函数最大化、不分类、无需标签标注的机器学习理念和范式,大大降低了数据采集、标注、训练和运算成本,系统性提高了运行效率,对标签化、要素化的算法模型也是新的挑战。
此外,税企、税银和部门平台之间,因为数据标准和技术环境兼容性问题,目前也只能以信息传输方式对接或交换数据,技术上无法实现数据集成。这一问题也是世界性的,2023年欧盟委员会就要求,欧盟各国之间增值税发票系统和电子申报系统应相互兼容,但实现成本和难度均很高。
七是“三算”融合难。实现算力、算量、算法的三算融合,也是智慧税务的技术环境目标,其中算力稀缺是现阶段困扰数字经济发展的瓶颈。人工智能有个“不可能三角”,即算力稀缺条件下,来自不同数据源和传感器的信息难以快速融合,人机交互要同时实现通问通答、同问同答、答案准确是不可能的。
我国算力总规模占全球31%,世界第二,但分布结构不平衡。算量集聚在头部企业多、网络节点集中的东部地区,算力则主要分布在电力资源丰富的西部地区,智慧税务系统的算量分布与数字经济分布结构一致。为此,国家实施了“东数西算”战略,利用西部算力资源承接东部数据处理业务,以降低运算成本。但因传输距离远,“热数据”难以西算,融合效率还需要提高。而在算法上,国际上性能和能耗完全碾压CPU的GPU和LPU的出现,也给系统的算法升级平添了压力,实现三算融合任重道远。
八是新的风险应对难。电子税务局和数字发票平台服务范围扩大到自然人和移动端后,系统的风险接触面明显扩大,数以十亿级自然人群体的发票监管风险也明显加大。原系统交互软件和发票数据只在B端的一般纳税人层面流动,而新系统直接面向C端自然人,而且人机交互更频繁、纳税服务更精细后,业务需求和应用场景更为复杂,系统外购或外包开发软件、调用外部开源软件需求增多,对软件供应链的依存度也会提高,系统的外源性风险加大。而人工智能环境下的新一代黑客可用机器学习算法和自适应系统识别和利用专业系统模型的弱点和信息,恶意生成似是而非的可退税虚假信息,营造信息茧房,以削弱纳税人对涉税行为的认知和判断能力,从中谋取非法利益。
按照确认增值税发票虚开的一般规则,要稽核交易发生的货物流、资金流和发票流,只有“三流一致”的货物贸易才符合抵扣条件。但数字支付的普及,使这一规则很难有效落实。我国银行业电子渠道分流率已达97.0%,年线上业务交易量4500多亿笔,移动端的数字支付笔数更是达到数百万亿级。在现有“三算”约束条件下,金融监管部门也只能实时监管较大金额的账户资金往来,即使银行有意向税务开放数据接口,智慧税务系统要实时在线监控纳税人的每一笔资金流水,既不可能,也没必要。
因此,就原先高发的虚开发票风险而言,智慧税务系统有效解决了发票载体的虚假、伪造和变造问题,但仍然无力消除真票虚开、变票(内容)问题。如不法分子设立空壳企业多环节循环开票、变票、暴力虚开发票的旋转木马欺诈行为,涉及电商和数字支付的发票虚开现象,仍不能及时发现和有效遏制。
二、在技术环境优化中逐步迈进算法治理新境界
从专管员治税到征管查三分离,从算盘计算器到计算机网络,从平台治理、流程驱动到数据驱动、算法治理,随着税收征管改革和税收治理模式的一次次演进,智慧税务之路筚路蓝缕、久久为功。面对第四次技术革命的到来,党的二十届三中全会要求继续深化税收征管改革,智慧税务系统技术环境优化还有很长的路要走。
一是要抓住新一轮财税体制改革新机遇,在税制优化中完善升级智慧税务系统。数字经济作为数字化时代的新质生产力,其虚拟、融合、体现价值存在的新质特征,已使现行工商税制以现实世界、清晰边界和物理存在为目标的实质课税原则难以适配。为此,党的二十届三中全会提出,要研究与新业态相适应的税收制度。新一轮财税改革的目标之一,就是要探索架构与数字经济盈利模式相匹配的新间接税制,以税目税率的融合适应征税对象的要素融合,为新质生产力营造更加适配的规则体系和税收环境。智慧税务系统作为落实税制运行的技术平台,自然要围绕新的税制要素、设定新的参数而优化升级。
二是要抓住数字化技术革命新机遇,在自主创新基础上,吸收运用国际最先进数字技术成果,使智慧税务系统更加智能化。目前,我国在芯片、软件和大模型技术上与国际最先进水平还有一定差距,三算融合之路也还很长,智慧税务系统作为国产云平台基础上融合创新的税收治理新平台,也要顺应全球税收征管数字化趋势,扬其新、尽其能、破其难,显其功。在持续的数字化升级和智能化改造中自我革新,税收治理能力和治理水平现代化才能方显其成。
三是目标导向与问题导向相结合,以开放的心态逐步优化系统技术环境。智慧税务系统作为行业垂直智能体(Agent),目前所面临的技术环境问题,大多是人工智能通用模型同样面对的共性问题,需要依靠更高层级或借外力统筹解决。而专业模型所面临的数据集成量不足、质量不高,缺乏数据清洗挖掘能力和财力问题,也只能主动面对,盯着问题各个击破,以开放心态加强横向协作,以真诚守信寻求纳税人涉税数据遵从,提升系统数据的质与量。
四是紧盯提升算法治理能力目标,实现税收治理体系和治理能力现代化。体现数字经济治理能力和水平的,技术上有三个阶段,即平台治理、数据治理和算法治理,平台治理是初级阶段,这种有形治理模式以边界治理为核心,界内放任、越界严处,轻则罚款、重则关停。作为应急处置手段,简单有效,但容易陷入“一管就死、一放就乱”的螺旋。
智慧税务系统已将税收治理带入数据治理阶段,以大数据分析结论驱动业务监管流程,治未病、防未然。但由于数据集成、数字技术本身的局限,税收的数据治理尚处在探索阶段。新目标是上升到算法治理阶段,从算法的高度实现税收有形治理到无形治理转变,以算法的合理性、先进性和经济性,引导纳税人的合规性和自觉性,这不仅需要智慧税务系统技术环境的不断优化,也需要税务系统人才结构的优化和治理能力的与时俱进。
(作者严才明为上海财经大学公共政策治理研究院研究员,经济学博士)