免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2199 | 回复: 7
打印 上一主题 下一主题

[文本处理] 1906778行数据取标题内容为2个汉字以上的 [复制链接]

论坛徽章:
5
IT运维版块每日发帖之星
日期:2015-11-10 06:20:00IT运维版块每日发帖之星
日期:2016-07-19 06:20:00JAVA
日期:2016-10-25 16:03:37PHP
日期:2016-10-25 16:03:37Python
日期:2016-10-25 16:03:37
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-08-20 13:51 |只看该作者 |倒序浏览
文本内容大致如下:
0J42P62Z
0J42PT6N
0J4400X4
0J4424D2
0J44HT8B
Bimget
bimh0swp
╭⌒輕描淡寫的歲
╭⌒人生若只如初
╭⌒如此d!調 c随性,
C兮、
℃张小贱ゞ
d
d a y ⑩
D Y
bimuyu7521
BIM专业学习
huf2cmzr597
huf2cok6638
huf2cozd428
huf2cpyi309
huf2cqjs469
huf2cr7n257
huf2crzv961
huf2cscw977
晓岩
晓颜
晓彦
晓艳_仙Goo
ゞ自己。╮
ゞ自欺欺人
ゞ自行浪漫ヅ
ヾ纵欲c
ゞ?脸ノ
ゞ?螢焱蟲≯
ゞ?_?ゞ鋇
ゞ?ō?ミ
ゞ?ō?ミ貓
ゞヽ
ヽゞ Zんaǒ
ヾヾ半┈┾透明
ゞゞ等一个ゝ晴天
ゞー個亼ル挺
々ゞ開心ご
ゝゞ女人、别那么
ゞヽ无 柰╰→
々々々
々々々々
々々々々々々々

大致就是以上内容,挺乱的,现在想提取出,含有2个汉字以上的内容,请各位大神各显神通!

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
2 [报告]
发表于 2014-08-20 14:25 |只看该作者
本帖最后由 ly5066113 于 2014-08-20 14:35 编辑

回复 1# mgunix


try:
  1. perl -ne 'print if /[^\000-\177].+[^\000-\177]/' file
复制代码

论坛徽章:
2
水瓶座
日期:2014-08-20 14:38:50辰龙
日期:2014-09-15 15:49:06
3 [报告]
发表于 2014-08-20 14:25 |只看该作者
你能发个UTF8编码的文件吗!

论坛徽章:
5
IT运维版块每日发帖之星
日期:2015-11-10 06:20:00IT运维版块每日发帖之星
日期:2016-07-19 06:20:00JAVA
日期:2016-10-25 16:03:37PHP
日期:2016-10-25 16:03:37Python
日期:2016-10-25 16:03:37
4 [报告]
发表于 2014-08-20 14:40 |只看该作者
本帖最后由 mgunix 于 2014-08-20 14:48 编辑

回复 2# ly5066113



–ゝ  宝 、

''''''''
——
———
————
—————
——————
———————
———————'
————————
— —
――
――――
―       ―
——
————
――
  ——
  ——————
   -- 
    - -
    ——
     ——
         ——   
          ———
           ——
            ——
      ゜
     ゛
  ゛
゛゛゛゛゛゛
感谢你的回复,我试了一下,这些内容没有过滤

论坛徽章:
9
2015亚冠之阿尔纳斯尔
日期:2015-09-10 16:21:162015亚冠之塔什干火车头
日期:2015-07-01 16:23:022015年亚洲杯之巴勒斯坦
日期:2015-04-20 17:19:46子鼠
日期:2014-11-13 09:51:26未羊
日期:2014-08-28 18:13:36技术图书徽章
日期:2014-02-21 09:30:15酉鸡
日期:2014-01-14 11:12:49天蝎座
日期:2013-12-09 17:56:53平安夜徽章
日期:2015-12-26 00:06:30
5 [报告]
发表于 2014-08-20 14:44 |只看该作者
  1. grep -P "[\xe4-\xe9][\x80-\xbf][\x80-\xbf].*[\xe4-\xe9][\x80-\xbf][\x80-\xbf]" urfile
复制代码

论坛徽章:
5
IT运维版块每日发帖之星
日期:2015-11-10 06:20:00IT运维版块每日发帖之星
日期:2016-07-19 06:20:00JAVA
日期:2016-10-25 16:03:37PHP
日期:2016-10-25 16:03:37Python
日期:2016-10-25 16:03:37
6 [报告]
发表于 2014-08-20 14:47 |只看该作者
回复 5# HH106


    谢谢,这个过滤后,只有四百多行,肯定不止,还有,像下面这样的,还会出现:
..?.?.
宀″ェ
涓..?
.?ヤ.?
?..?..璇
...濡....
ㄨОㄨО
シュ ショウ イ
おうようずいゆき
きょう・D・らく~
ぎょくしょう

论坛徽章:
2
水瓶座
日期:2014-08-20 14:38:50辰龙
日期:2014-09-15 15:49:06
7 [报告]
发表于 2014-08-20 14:56 |只看该作者
grep -P -r "[\x80-\xFF]" filename

1.png (61.89 KB, 下载次数: 27)

1.png

论坛徽章:
5
IT运维版块每日发帖之星
日期:2015-11-10 06:20:00IT运维版块每日发帖之星
日期:2016-07-19 06:20:00JAVA
日期:2016-10-25 16:03:37PHP
日期:2016-10-25 16:03:37Python
日期:2016-10-25 16:03:37
8 [报告]
发表于 2014-08-20 15:45 |只看该作者
回复 5# HH106


    感谢这位大神,以及参与回复的各位,我刚刚把文件转换成utf8格式的,可实现!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP