网址:https://esg.epmap.org/dig
也可以从ESG报告数据库网站跳转:https://esg.epmap.org/reports
背景:
2022年A股及H股有2135份ESG报告披露碳排放数据,A股仅307,还有些是A+H
之前青悦曾经对全量A股及H股报告进行过温室气体排放数据的AI辅助提取,但当时还是用的费用比较高的国外AI大模型,提取一次成本偏高,随着国内大模型的迅速降价,各类AI开源项目的迅速涌现,更高效的提取五花八门的ESG报告中的数据成为了可能。
青悦在学习、实验、集成LLM及各类AI项目的基础上,在各类项目中实验了如何从大规模的ESG报告中提取相应定量和定性数据的方法,并逐步成熟,效果可以接受。
适用场景:
对百、千、万级别的ESG报告及年报进行专项数据原文提取,适用于ESG评级、ESG投资、ESG同行对标等。
此工具主要提取出原文中的原始数据及所在页码供复核,一般还需要进一步加工才能实际应用(具体可参见后面的文件格式)。
可以类比此工具的主要价值为从铁矿石中提炼出生铁出来,但下一步还需要自己继续提纯才能炼成钢,以及进一步加工做成具体的钢勺,钢叉等。
如果只是对几篇或者几十篇ESG报告的某类数据进行摘录分析对比,人工也是可以接受的,但如果要对百篇以上的报告的多种数据进行提取分析,人工的效率、正确度、责任心、耐心等都会是很大的挑战,青悦在之前的上市公司ESG评价中就发现了这个问题,无法规模化。
在之前青悦合作的项目中,有些是对某个行业,比如环保行业几百家企业的ESG报告进行解析提取。
同时,也有很多ESG分析领域需要扫描整个A股、H股的所有上市公司的表现,比如想知道“化学品管理”议题目前所有上市公司表现如何,目前所有A股、H股的8千左右的上市公司的年报加ESG报告达到了1.3万多篇,如何进行人工的提取与分析?
这种量级的报告分析与数据提取,必须要有AI的辅助,至少要把最原始的原文数据能提取出来,极大的缩小目标范围,在有限的数据上进行进一步的分析。
同时,有些行业有个性化的数据,比如钢铁行业的“废钢比”,比如要看哪些公司公开了碳配额,之前只有电力行业或者可以人工搜索,如果后面钢铁,水泥、有色等都纳入了全国碳交易市场,又该怎么获取?因此也存在从大量ESG报告中获取个性化数据的需求。
根据自身的业务需求及接收到的各类其他需求,青悦开发了可对外公开提供服务的AI辅助提取ESG报告数据的工具。
工具特点:
- 集成度高
基于青悦ESG报告数据库的5万余份ESG报告,包括A股京沪深、H股、新加坡股市交易所上市公司ESG报告、年报,央国企ESG报告。对于少量扫描版或者图片版报告也已处理。 - 基于AI并已经部分验证
已经青悦内部测试及部分实际项目验证的AI辅助ESG报告定量数据与定性信息提取。 - 灵活度高除了可以根据交易所来筛选企业,也可以根据中证行业分类,申万行业分类来进行跨交易所筛选企业。可以上传当前还没有的ESG报告或其他需要分析的文档进行分析。可以自由选择提取定性信息还是定量数据。
- 检索方式多样系统支持4种检索方式:
全文检索:适用于需要严格精准提取某个比较确定的信息,不需要AI辅助理解各类可能性,比如需要提取“吨二氧化碳当量”。语义检索:适用于需要提取需要AI辅助发散理解该信息各种可能的情况,比如不同企业对于温室气体排放有不同的称呼,比如二氧化碳排放量。混合检索:同时进行全文检索和语义检索,完全根据两者各自命中的次数排序送入AI进行提取。混合检索重排:根据以上全文检索和语义检索的命中次数,以语义检索60%和全文检索40%的权重进行重新排序后送入AI进行提取。这里非常重要的是提取的“关键字”的选择,应该选择命中率最高的维度。如果要返回所有的温室气体相关数据,最合适的关键字不是“温室气体排放”+语义检索,而是“吨二氧化碳”,或者“tCO2e”+全文检索。因为很多公司披露的表格中,二级指标前面并没有“温室气体排放”关键字,但每个披露的量化指标的单位中,都包含“吨二氧化碳”,或者“tCO2e”。但如果你想要提取的是”温室气体排放范围二”,则以上关键字会返回很多的多余字段,需要再过滤;但如果用”温室气体排放范围二”,可能会遗漏;如果是H股,可能还要用”温室气体排放范畴二”。同时,大模型已经自动解决中英文翻译的问题,因此scope2之类的也可以由“范围2”解析出来。
因为当前企业ESG报告披露格式的多样性与复杂性,没有哪种算法能对大规模的报告进行全部无一遗漏且非常准确的提取,只能在成本与效果之间进行取舍。未来只有XBRL数字化报告普及,才有可能根本上相对来说解决这一问题,之所以说相对,是因为XBRL中也允许企业自定义扩展。也是因为这个原因,我们文末的流程中,也是建议由2篇报告-->5-10篇报告-->大规模提取,逐步摸索完善关键字的选择,甚至要由多个关键字来补充的方式以获得最优效果。
4种检索方式各有合适的应用场景,可以根据需要选择。对于要求完整度特别高的,可以考虑全文检索一遍+语义检索一遍,应该就很少有遗漏了。 - 返回结果全面可复核回溯便于后续分析
结果下载文件中,除了关键的提取数据及原文,还包含了原始pdf链接及该数据所在页码,便于复核,包含了行业名称,便于后续按行业进行分析。
- 系统界面如下
青悦建议的使用流程:
也可参见:https://www.epmap.org/archives/2358
步骤 | 具体流程及注意事项 |
1 | 确定需要选择的ESG报告范围,所需要提取的数据及关键字。比如A股与H股的“化学品管理”,或者钢铁企业的“吨钢能耗”。 |
2 | 对所选择的ESG领域与议题进行熟悉,找到至少2篇典型的ESG报告(比如1个A股,一个H股),分析所需要提取的量化数据或者定性描述的位置与特点,比如是比较统一的术语(适合全文检索),还是实际表现会有所分散(适合语义检索)。 |
3 | 利用2篇已经熟悉的典型ESG报告,测试所选择的关键字及检索方式的效果,主要查看有无遗漏,错误、多余,根据实际情况对关键字或者检索方式进行调整。 |
4 | 如果效果符合预期,再适当扩大测试集到5-10个,按上一步的方式进行测试调整。 |
5 | 如果效果符合预期,再扩大到百或者千级别目标报告集进行批量提取。 |
6 | 对上一步的大规模提取数据结果进行抽查复核,看有没有大的问题;如果发现有部分数据没有提取到,可以考虑采用更加窄和精准的关键字进行进一步提取补充。 |
7 | 对数据集利用excel或者其他工具进行进一步的分析利用。 |
欢迎大家试用并提出宝贵意见,工具界面右下角有微信客服反馈渠道。
延伸阅读: