免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 16180 | 回复: 5
打印 上一主题 下一主题

[文本处理] jq处理文本合并json数据 [复制链接]

论坛徽章:
1
2015年亚洲杯之巴林
日期:2015-04-02 09:32:18
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2023-08-31 23:16 |只看该作者 |倒序浏览
不好意思各位大神,做一次伸手党
从数据库中导出了如下文本数据 1.txt 的内容

{"分类A": {"url": "1310222208d125e4b54e0fe2e2.jpg", "link": "123.html", "title": "题目a"}}
{"分类A": {"url": "1310222208ce4207dfc9be676d.jpg", "link": "454.html", "title": "题目b"}}
{"分类B": {"url": "13102222083e5d22e5f198bb64.jpg", "link": "333.html", "title": "题目c"}}
{"分类B": {"url": "1603222322b21be8b598485481.jpg", "link": "653.html", "title": "题目d"}}
{"分类C": {"url": "16032223224da681cbeb817221.jpg", "link": "778.html", "title": "题目e"}}
{"分类C": {"url": "16032223221e21022ca3390f04.jpg", "link": "999.html", "title": "题目f"}}



可以看到1.txt本身不符合json规范标准,但是每一条数据都是符合json规范的,想把“分类X”这个key进行去重复,它的值合并为数组,用[]包起来,想得到如下符合json规范标准的数据:


{
    "分类A": [{
            "url": "1310222208d125e4b54e0fe2e2.jpg",
            "link": "123.html",
            "title": "题目a"
        },
        {
            "url": "1310222208ce4207dfc9be676d.jpg",
            "link": "454.html",
            "title": "题目b"
        }
    ],
    "分类B": [{
            "url": "13102222083e5d22e5f198bb64.jpg",
            "link": "333.html",
            "title": "题目c"
        },
        {
            "url": "1603222322b21be8b598485481.jpg",
            "link": "653.html",
            "title": "题目d"
        }
    ],
    "分类C": [{
            "url": "16032223224da681cbeb817221.jpg",
            "link": "778.html",
            "title": "题目e"
        },
        {
            "url": "16032223221e21022ca3390f04.jpg",
            "link": "999.html",
            "title": "题目f"
        }
    ]
}



用shell或者jq都可以

论坛徽章:
25
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之上海
日期:2018-12-11 09:45:3219周年集字徽章-年
日期:2020-04-18 23:54:5215-16赛季CBA联赛之深圳
日期:2020-04-19 21:40:19黑曼巴
日期:2022-04-03 17:55:1315-16赛季CBA联赛之八一
日期:2018-07-03 16:56:46
2 [报告]
发表于 2023-09-02 16:29 |只看该作者
本帖最后由 wh7211 于 2023-09-06 12:49 编辑

回复 1# opiopuiopoi


  1. awk -F"[{}]" 'BEGIN{a4="    ";a8="        ";a11="           "}!b[$2]++{if(c){e=c"["d"],";f=f?f"\n"e:e;c=d=""}}{c=a4""$2;d=d?d",{ "$3"}":"{ "$3"}"}END{if(c){e=c"["d"]";f=f?f"\n"e:e;f=gensub(/({|",)/,"\\1\n"a11"","g",f);f=gensub(/(},)/,"\n"a8"\\1\n"a8"","g",f);f=gensub(/(}](,|))/,"\n"a8"\\1","g",f);f=gensub(/(](,|))/,"\n"a4"\\1","g",f);print "{\n"f"\n}"}}' 1
复制代码

  1. awk -F"[{ }]+" 'BEGIN{a4="    ";a8="        ";a12="            ";print "{"}!b[$2]++{if(d){print d" ["e"\n"a4"],";d=e=""}}{for(i=3;i<NF;i++){if(i%2==1){$i="\n"a12""$i" "}else if(i==NF-1){$i=$i"\n"a8};c=c?c""$i:$i};d=a4""$2;e=e?e",\n"a8"{"c"}":"{"c"}";c=""}END{if(d){print d" ["e"\n"a4"]\n}"}}' 1
复制代码

  1. awk 'BEGIN{print "{"}{match($0,"^{([^{]+)({[^}]+})}$",a);if(!b[a[1]]++&&c){print c"["d"],";c=d=""};c=a[1];d=d?d","a[2]:a[2]}END{if(c){print c"["d"]}"}}' 1|jq '.'
复制代码

论坛徽章:
0
3 [报告]
发表于 2023-09-04 19:08 来自手机 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
4 [报告]
发表于 2023-09-04 19:10 来自手机 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
5
白羊座
日期:2014-10-28 11:23:27水瓶座
日期:2015-01-20 10:19:022015亚冠之柏斯波利斯
日期:2015-07-11 18:17:2015-16赛季CBA联赛之同曦
日期:2015-12-23 12:38:582016猴年福章徽章
日期:2016-02-18 15:30:34
5 [报告]
发表于 2023-09-19 10:28 |只看该作者
  1. [root@4893971a45c8 ~]# cat 1.rb
  2. #!/usr/bin/ruby
  3. require 'json'
  4. rs = {}
  5. IO.foreach("1.txt") do |line|
  6.     t = JSON.parse(line)
  7.     t.each do |k,v|
  8.         rs[k] ||= []
  9.         rs[k] << v
  10.     end
  11. end
  12. puts rs.to_json(:indent => "  ", :array_nl => "\n", :object_nl => "\n")
  13. [root@4893971a45c8 ~]# ./1.rb
  14. {
  15.   "分类A":[
  16.     {
  17.       "url":"1310222208d125e4b54e0fe2e2.jpg",
  18.       "link":"123.html",
  19.       "title":"题目a"
  20.     },
  21.     {
  22.       "url":"1310222208ce4207dfc9be676d.jpg",
  23.       "link":"454.html",
  24.       "title":"题目b"
  25.     }
  26.   ],
  27.   "分类B":[
  28.     {
  29.       "url":"13102222083e5d22e5f198bb64.jpg",
  30.       "link":"333.html",
  31.       "title":"题目c"
  32.     },
  33.     {
  34.       "url":"1603222322b21be8b598485481.jpg",
  35.       "link":"653.html",
  36.       "title":"题目d"
  37.     }
  38.   ],
  39.   "分类C":[
  40.     {
  41.       "url":"16032223224da681cbeb817221.jpg",
  42.       "link":"778.html",
  43.       "title":"题目e"
  44.     },
  45.     {
  46.       "url":"16032223221e21022ca3390f04.jpg",
  47.       "link":"999.html",
  48.       "title":"题目f"
  49.     }
  50.   ]
  51. }
复制代码

论坛徽章:
0
6 [报告]
发表于 2023-10-22 19:10 |只看该作者
本帖最后由 csccyab 于 2023-10-22 19:15 编辑

用 python 写了这个:
import json
from collections import defaultdict

new_dict = defaultdict(list)

f = open("1.txt", "r")
for line in f:
  first_key = list(json.loads(line).keys())[0]
  new_dict[first_key].append(json.loads(line)[first_key])
print(json.dumps(new_dict, indent=4, ensure_ascii=False))




Output:
$ python3 jsonify.py
{
    "分类A": [
        {
            "url": "1310222208d125e4b54e0fe2e2.jpg",
            "link": "123.html",
            "title": "题目a"
        },
        {
            "url": "1310222208ce4207dfc9be676d.jpg",
            "link": "454.html",
            "title": "题目b"
        }
    ],
    "分类B": [
        {
            "url": "13102222083e5d22e5f198bb64.jpg",
            "link": "333.html",
            "title": "题目c"
        },
        {
            "url": "1603222322b21be8b598485481.jpg",
            "link": "653.html",
            "title": "题目d"
        }
    ],
    "分类C": [
        {
            "url": "16032223224da681cbeb817221.jpg",
            "link": "778.html",
            "title": "题目e"
        },
        {
            "url": "16032223221e21022ca3390f04.jpg",
            "link": "999.html",
            "title": "题目f"
        }
    ]
}

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP