论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2014-01-08 18:02 |只看该作者 |倒序浏览

比如说['/home/tmp2','/home', '/home/tmp1', '/usr', '/usr/bin'] 变成 ['/home', '/usr']
这个列表里面的目录是随机排列的，我如何保留最顶层涵盖范围最大的那几个目录，并且把所有子目录都丢弃?
没有思路，该怎么做？

文库|博客

timespace

大富大贵

论坛徽章:: 11

2楼 [报告]

发表于 2014-01-08 19:40 |只看该作者

如果可以排序：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
def main():
uniq = []
def comdir(x, y):
if x and y.startswith(x):
return x
else:
uniq.append(y)
return y
dirs = ['/var/log', '/var/lib',
'/home/tmp2','/home', '/home/tmp1',
'/usr', '/usr/bin'
]
dirs.sort()
# 排序后的目录名称符合如下规则：如果一组目录能合并为一个目录，
# 那么该组目录必定连续出现，且该组第一个元素就是那个公共的目录。
reduce(comdir, dirs, '')
# 预期结果：['/home', '/usr', '/var/lib', '/var/log']
print uniq
if __name__ == '__main__':
main()

复制代码

回复 1# liaozd

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

修杰_JIANG

白手起家

论坛徽章:: 1

3楼 [报告]

发表于 2014-01-08 20:24 |只看该作者

>>>
>>> import re
>>> a = ['/home/tmp2', '/home', '/home/tmp1', '/usr', '/usr/bin']
>>> for i in a:
... b.append(re.findall('/*\w+', i)[0])
...
>>> list(set(b))
['/usr', '/home']

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

icymirror

小富即安

论坛徽章:: 4

4楼 [报告]

发表于 2014-01-09 09:45 |只看该作者

本帖最后由 icymirror 于 2014-01-09 14:05 编辑

回复 1# liaozd

思路：
1. 把路径头找出来

rawdata = ['/home/tmp2','/home', '/home/tmp1', '/usr', '/usr/bin'] # 原始数据
newdata = [item[:item.find('/', 1) if item.find('/', 1) > 0 else len(item)] for item in rawdata] # 取出各个原始数据(路径的开头)

复制代码

2. 根据出现的频率来确定是否保留 (不确定需要的 bar ,所以，只统计频率)

import collections
freqdict = collections.defaultdict(int) # 确保如果找不到 key，返回一个整数，0
for item in newdata:
freqdict[item] += 1

复制代码

3. 频率排序，结果自己过滤

result = [(value, key) for key, value in freqdict.iteritems()] # 构造一个由元组 (频率, 路径) 组成的列表
result.sort(reverse=True) # 列表排序，从大到小，方便从开头开始取结果

复制代码

Sorry，之前没有改完就回复了，现在是完成之后的内容。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pitonas

家境小康

论坛徽章:: 5

5楼 [报告]

发表于 2014-01-09 12:55 |只看该作者

也还是看不懂。
{:2_170:}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

liaozd

稍有积蓄

论坛徽章:: 0

6楼 [报告]

发表于 2014-01-09 14:36 |只看该作者

回复 2# timespace

谢谢，不过考虑这种情况'/home' 和 '/homeland/'

python是否有判断两个目录是否是互为子目录的模块函数？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

李营长

腰缠万贯

论坛徽章:: 0

7楼 [报告]

发表于 2014-01-09 16:03 |只看该作者

回复 1# liaozd

def getroot(d):
ds = d.split("/")
#print(ds)
return ds[1]
if __name__ == "__main__":
dirlist = ['/var/log', '/var/lib',
'/home/tmp2','/home', '/home/tmp1',
'/usr', '/usr/bin' ]
dirdict = dict()
for d in dirlist:
rootn = getroot(d)
dirdict[rootn] = dirdict.get(rootn, 0) + 1
keys = dirdict.keys()
for x in keys:
print(x)

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

liaozd

稍有积蓄

论坛徽章:: 0

8楼 [报告]

发表于 2014-01-09 16:45 |只看该作者

本帖最后由 liaozd 于 2014-01-09 16:51 编辑

回复 2# timespace

修改了一下，不知道是不是还有不完备的地方

#!/usr/bin/env python
uniq = []
def comDir(x,y):
# 所有目录的结尾都加‘/’
if x is not '' and not x.endswith('/'):
x += '/'
if not y.endswith('/'):
y += '/'
print x, y
if x and y.startswith(x):
return x
else:
uniq.append(y)
return y
dirs = ['/var/log', '/var/lib',
'/home/tmp1','/home', '/home/tmp1/tmp2', ‘/homeland’
]
dirs.sort()
reduce(comDir, dirs, '')
print uniq

复制代码

输出
['/home/', '/homeland/', '/var/lib/', '/var/log/']

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

timespace

大富大贵

论坛徽章:: 11

9楼 [报告]

发表于 2014-01-09 17:05 |只看该作者

本帖最后由 timespace 于 2014-01-09 17:15 编辑

回复 8# liaozd
哦，明白你意思了，是要让路径名规范化，然后才能准确的用startswith ？

推荐用：

>>> from os.path import normpath
>>> dir1 = ['/usr/lib/', 'usr/../lib', '/usr//lib']
>>> dir2 = [normpath(e) for e in dir1]
>>> dir2
['/usr/lib', 'lib', '/usr/lib']

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ssfjhh

富足长乐

论坛徽章:: 4

10楼 [报告]

发表于 2014-01-09 18:15 |只看该作者

本帖最后由 ssfjhh 于 2014-01-09 18:18 编辑

一行搞定。

In [1]: a = ['/home/tmp2','/home', '/home/tmp1', '/usr', '/usr/bin']
In [2]: [i for i in a if i.rpartition('/')[0] not in a]
Out[2]: ['/home', '/usr']

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Python › 一堆目录名组成的list，如何保留覆盖范围最大的那几个目 ...

一堆目录名组成的list，如何保留覆盖范围最大的那几个目录 [复制链接]