论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2015-09-29 11:24 |只看该作者 |倒序浏览

本帖最后由 baiguihuajl 于 2015-09-30 12:27 编辑

如何用perl,按照每个文件第一列的名字将很多个txt文件合并，并且每一项都保留，存在的就打印出来，不存在的就用0表示
如：将1.txt 2.txt 3.txt 4.txt 四个文件合并：
1.txt:
a 1
b 2
c 2
d 4
e 1
f 3
g 1
s 2
h 1
2.txt:
a 1
c 1
d 2
e 3
f 1
g 2
h 2
i 2
j 1
3.txt:
b 1
c 2
d 1
e 2
f 2
g 2
h 1
4.txt:
a 2
b 1
c 2
d 3
e 4
f 5
g 1
h 3
合并以后变成这样的效果（可以没有顺序输出）：
d 4 2 1 3
c 2 1 2 2
i 0 2 0 0
h 1 2 1 3
e 1 3 2 4
f 3 1 2 5
b 2 0 1 1
g 1 2 2 1
j 0 1 0 0
s 2 0 0 0
a 1 1 0 2

文库|博客

baiguihuajl

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2015-09-29 11:26 |只看该作者

本帖最后由 baiguihuajl 于 2015-09-29 11:27 编辑

我的程序是：

for($i=1;$i<=4;$i++){
open(F1,"$i.txt");
while(<F1>){
chomp;
@a=split(/\t/,$_);
foreach($a[0]){
next if exists $lines{$_};
$lines{$_}=1;
}
}
close(F1);
}
for($i=1;$i<=4;$i++){
open(F2,"$i.txt");
while(<F2>){
chomp;
@b=split(/\t/,$_);
foreach($b[0]){
if(exists $lines{$b[0]}){
$lines{$b[0]}.="\t".$b[1];
}else{
$lines{$_}.="\t"."0";
}
}
}
close(F2);
}
open out,">>out.txt";
foreach (keys %lines){
print out "$_\t$lines{$_}\n";
}

复制代码

结果是：
a 1 1 2
h 1 1 2 1 3
b 1 2 1 1
c 1 2 1 2 2
s 1 2
d 1 4 2 1 3
f 1 3 1 2 5
a 1 1 1 2
g 1 1 2 2 1
e 1 1 3 2 4
j 1 1
i 1 2

有谁可以帮我改一下，谢谢~~~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Okelani

稍有积蓄

论坛徽章:: 0

3楼 [报告]

发表于 2015-09-29 13:52 |只看该作者

回复 1# baiguihuajl

#!/usr/bin/perl
@_ = qw[1.txt 2.txt 3.txt 4.txt];
for my $i ( 0 .. $#_ ) {
@ARGV = $_[$i];
while (<>) {
      ( $a, $b ) = split;
      $_{$a} ||= [ (0) x @_ ];
      $_{$a}[$i] = $b;
}
}

while ( ( $a, $b ) = each %_ ) {
print join( "\t", $a, @$b ), "\n";
}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

baiguihuajl

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2015-09-29 13:58 |只看该作者

能帮我改一下代码吗？而且如果我要合并很多的文件的话，应该怎样？谢谢~~~
回复 3# Okelani

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Okelani

稍有积蓄

论坛徽章:: 0

5楼 [报告]

发表于 2015-09-29 14:00 |只看该作者

回复 4# baiguihuajl

@_ = qw[1.txt 2.txt 3.txt 4.txt 5.txt 6.txt 7.txt 8.txt];

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

baiguihuajl

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2015-09-29 14:04 |只看该作者

1000个的话怎么写？==谢谢
回复 5# Okelani

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Okelani

稍有积蓄

论坛徽章:: 0

7楼 [报告]

发表于 2015-09-29 14:27 |只看该作者

回复 6# baiguihuajl

@_ = map { $_ . '.txt' } 1 .. 1000;

复制代码

或

my $looo = 1000;
for my $i ( 0 .. $looo - 1 ) {
@ARGV = ( $i + 1 ) . '.txt';
...
$_{$a} ||= [ (0) x $looo ];
....

10000个的话怎么写

my $loooo = 10000;
for my $i ( 0 .. $loooo - 1 ) {
...

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jason680

富可敌国

论坛徽章:: 145

8楼 [报告]

发表于 2015-09-29 15:53 |只看该作者

本帖最后由 jason680 于 2015-09-29 20:43 编辑

回复 4# baiguihuajl

>> ...合并以后变成这样的效果（可以没有顺序输出）：
>> ...合并很多的文件的话...

$ perl keys.pl *.txt
a       1       1       0       2
b       2       0       1       1
c       2       1       2       2
d       4       2       1       3
e       1       3       2       4
f       3       1       2       5
g       1       2       2       1
h       1       2       1       3
i       0       2       0       0
j       0       1       0       0
s       2       0       0       0

$ cat keys.pl
use strict;
use warnings;

my(%hKey, %hVal);

my @aFile = @ARGV;
while(<>){
  chomp;
  my($sKey, $sVal) = split;
  $hVal{$sKey}{$ARGV} = $sVal;
}

foreach my $sKey(sort keys %hVal){
  my $sVal = "";
  foreach(@aFile){
$hVal{$sKey}{$_} = 0 if(!exists $hVal{$sKey}{$_});
$sVal .= "\t$hVal{$sKey}{$_}";
  }
  print "$sKey$sVal\n";
}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunzhiguolu

巨富豪门

论坛徽章:: 307

9楼 [报告]

发表于 2015-09-29 15:55 |只看该作者

本帖最后由 sunzhiguolu 于 2015-09-29 15:57 编辑

回复 1# baiguihuajl
您好, 看了您的代码. 发现您的问题属于代码逻辑问题:
问题代码范围: 19~25 行位置.

for($i=1;$i<=4;$i++){
      open(F2,"$i.txt");
      while(<F2>){
            chomp;
            @b=split(/\t/,$_);
            foreach($b[0]){
                     if(exists $lines{$b[0]}){ #逻辑错误的地方
                              $lines{$b[0]}.="\t".$b[1];
                     }else{
                              $lines{$_}.="\t"."0";
                     }
            }
      }
      close(F2);
}