Shell脚本-将xml拆分为多个文件

我不会用getline。（我什至在AWK书中读到，不建议使用它。）我认为，使用全局变量进行状态处理甚至更简单。（带有全局变量的表达式也可以在模式中使用。）

该脚本可能如下所示：

test-split-xml.awk：

/<fileItem>/ {
  collect = 1 ; buffer = "" ; file = "fileItem_"count".xml"
  ++count
}

collect > 0 {
  if (buffer != "") buffer = buffer"\n"
  buffer = buffer $0
}

collect > 0 && /<name>.+<\/name>/ {
  # cut "...<name>"
  i = index($0, "<name>") ; file = substr($0, i + 6)
  # cut "</name>..."
  i = index(file, "</name>") ; file = substr(file, 1, i - 1)
  file = file".xml"
}

/<\/fileItem>/ {
  collect = 0;
  print file
  print "<?xml version=\"1.0\" encoding=\"UTF-8\"?>" >file
  print buffer >file
}

我准备了一些样本数据进行小型测试：

test-split-xml.xml：

<?xml version=\"1.0\" encoding=\"UTF-8\"?>
<top>
  <some>
    <fileItem>
      <id>1</id>
      <name>X1</name>
    </fileItem>
  </some>
  <fileItem>
    <id>2</id>
    <name>X2</name>
  </fileItem>
  <fileItem>
    <id>2</id>
    <!--name>X2</name-->
  </fileItem>
  <any> other input </any>
</top>

…并获得以下输出：

$ awk -f test-split-xml.awk test-split-xml.xml
X1.xml
X2.xml
fileItem_2.xml

$ more X1.xml 
<?xml version="1.0" encoding="UTF-8"?>
    <fileItem>
      <id>1</id>
      <name>X1</name>
    </fileItem>

$ more X2.xml
<?xml version="1.0" encoding="UTF-8"?>
  <fileItem>
    <id>2</id>
    <name>X2</name>
  </fileItem>

$ more fileItem_2.xml 
<?xml version="1.0" encoding="UTF-8"?>
  <fileItem>
    <id>2</id>
    <!--name>X2</name-->
  </fileItem>

$

Tripleee的评论是合理的。因此，这种处理应限于个人使用，因为XML文件的不同（和合法）格式可能会导致此脚本处理中的错误。

您会注意到，next整个脚本中没有任何内容。这是故意的。

其他 2022/1/1 18:19:22 有571人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

ng-if和ng-show / ng-hide有什么区别

ng-if和ng-show / ng-hide有什么区别

其他 2022-01-01 978
我可以在php中的SESSION数组上使用array_push吗？

我可以在php中的SESSION数组上使用array_push吗？

php 2022-01-01 1170
java.lang.NoClassDefFoundError：javax / persistence / SharedCacheMode

java.lang.NoClassDefFoundError：javax / persistence / SharedCacheMode

java 2022-01-01 1191
使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

其他 2022-01-01 1242
Lodash-.extend（）/ .assign（）和.merge（）之间的区别

Lodash-.extend（）/ .assign（）和.merge（）之间的区别

其他 2022-01-01 869
如何在不跳文档的情况下更新window.location.hash？

如何在不跳文档的情况下更新window.location.hash？

其他 2022-01-01 939
jquery.show和WebDriverException之后的元素：未知错误：无法聚焦元素

jquery.show和WebDriverException之后的元素：未知错误：无法聚焦元素

JS 2022-01-01 853
Bash：从文件读取stdin并将stdout写入文件

Bash：从文件读取stdin并将stdout写入文件

其他 2022-01-01 876
Jenkins Pipeline sh显示名称/标签

Jenkins Pipeline sh显示名称/标签

其他 2022-01-01 875
“ -sh：executable_path：未找到”是什么意思

“ -sh：executable_path：未找到”是什么意思

其他 2022-01-01 916
无法使用Runtime.exec（）在Android Java代码中执行shell命令“ echo”

无法使用Runtime.exec（）在Android Java代码中执行shell命令“ echo”

java 2022-01-01 1080
Flutter SharedPreference不持久

Flutter SharedPreference不持久

其他 2022-01-01 790
如何将文件从SSH远程主机复制到Jenkins服务器

如何将文件从SSH远程主机复制到Jenkins服务器

其他 2022-01-01 837
Django Shell没有名为设置的模块

Django Shell没有名为设置的模块

Go 2022-01-01 986
使用logstash将CSV地理数据作为geo_point类型输入到elasticsearch中

使用logstash将CSV地理数据作为geo_point类型输入到elasticsearch中

其他 2022-01-01 965
array_push（）与$ array [] =…哪一个最快？[重复]

array_push（）与$ array [] =…哪一个最快？[重复]

其他 2022-01-01 821
Beanshell Sampler JMeter中用于解析RegularExpressionExtractor的错误

Beanshell Sampler JMeter中用于解析RegularExpressionExtractor的错误

其他 2022-01-01 823
角ng-if和ng-show组合

角ng-if和ng-show组合

其他 2022-01-01 647
如何在bash中将数组元素初始化为0？

如何在bash中将数组元素初始化为0？

其他 2022-01-01 735
在bash脚本中模拟ENTER键

在bash脚本中模拟ENTER键

其他 2022-01-01 786

Shell脚本-将xml拆分为多个文件

撰写回答

推荐问题

ng-if和ng-show / ng-hide有什么区别

我可以在php中的SESSION数组上使用array_push吗？

java.lang.NoClassDefFoundError：javax / persistence / SharedCacheMode

使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

Lodash-.extend（）/ .assign（）和.merge（）之间的区别

如何在不跳文档的情况下更新window.location.hash？

jquery.show和WebDriverException之后的元素：未知错误：无法聚焦元素

Bash：从文件读取stdin并将stdout写入文件

Jenkins Pipeline sh显示名称/标签

“ -sh：executable_path：未找到”是什么意思

无法使用Runtime.exec（）在Android Java代码中执行shell命令“ echo”

Flutter SharedPreference不持久

如何将文件从SSH远程主机复制到Jenkins服务器

Django Shell没有名为设置的模块

使用logstash将CSV地理数据作为geo_point类型输入到elasticsearch中

array_push（）与$ array [] =…哪一个最快？[重复]

Beanshell Sampler JMeter中用于解析RegularExpressionExtractor的错误

角ng-if和ng-show组合

如何在bash中将数组元素初始化为0？

在bash脚本中模拟ENTER键

分类汇总

您的鼓励是对我最大的支持