【未来虫教育】把文件夹下所有word表格转化为同名Excel表格

  组合系列     |      2024-08-06 05:25

  平时,我们经常在word中对齐一些语料,然后把它放在Excel表中,再导入到CAT工具中就可以作为记忆库来用了。如果是一二个word文件还可以应对,但是如果几十个或者上百个文件怎么办?每个word文件中有几百行,如何实现快速把Word中的表格转化为Excel中呢。我曾尝试网上的一些网站来转化,但这种转化速度快,而且容易造成语料的泄露。此时,我们可以考虑使用Python来解决这个问题。

  经过探索,我们用python-docx包来读取Word文件中的表格,然后存入字典,把字典转化pd.Series(),然后转化为DataFrame再存为Excel。 代码如下:

  和记官网