能够获取excel文件的页面),jacob/jawin生成的是excel的biff格式

总结:

原先必要把excel表格文件转变为csv文件时,都以一贯把excel文件另存为csv文件,最终再管理格式,

事实上转变为html文件更便利管理局地。

3.
劳动器端中转方式:将html的table或是拼接的csv传到服务器端,服务器端再依据Content-Type:application/vnd.ms-excel再次来到,浏览器就能够按excel方式管理。与劳动器端拼接比较,少了二遍取数操作。
(all)

需求:

获取http://123.57.212.98/html/tm/29/38/68/68.html网站的历届詹天佑奖的excel名单,并且把excel格式转换为csv格式。

第一步
首先获得到此页面全部的excel表个文本的连年,并且下载到本地,思路是用贰个行列来放符合须要的具有链接,从队头抽取链接,依据这一个链接获得贰个新的页面page,再剖析此page,把此页面包车型大巴富有有用的链接归入如队列。直到队列为空。(这里有用的链接是能够到达能够获取excel文件的页面)

require "yomu"
require "mechanize"
require "open-uri"

$queue=[]
$queueFile=[]
$queue.push({"zhantianyou" => 'http://123.57.212.98/html/tm/29/38/68/68.html'})
=begin 
    下载所有文件的思路:
    有一个入口的URl,和一个队列,队列中最开始只有一个此入口url,
    根据这个url,获取此页面的所有链接,把链接放到队列中,同时过滤出来 需要的表格url,把表格url保存下来。

=end


    # queue对列中放的是一个 {网页标题 => 网页url } 的散列
while !$queue.empty?
    url=""
    $queue.shift.each_value do |value|
        url=value
    end
   begin
    page=Mechanize.new.get(url)
   rescue 
       puts "---------------------->>>>  #{url} 不能访问"
   end

    page.links.each do |link|
        if link.text.include?('.xls')# 将有用的表格url存起来
            puts link.text
            $queueFile.push({link.text => link.href})
        elsif link.text.include?('詹天佑奖获奖工程及获奖单位名单') || link.text.include?('下一页')# 有用的链接放到队列中,便于下一次访问
            #puts link.text
            $queue.push({link.text=>link.href})
        end
    end
end

# 根据 url 下载到本地
while !$queueFile.empty?
    url=$queueFile.shift
    url.each do |key,value|
        puts key
        File.open('./'+key,"w") do |io|
            io.puts(open(value).read)
        end
    end
end

第二步
excel文件能够一向另存为csv文件,可是格式不是太好,而且会莫名美妙的少一些数码,后来开掘还足以把excel文件另存为html
文件,那样试了试,开采转成的html文件的格式很好,数据也从不不当,非常符合提取有用的音讯。看上面的代码

require "yomu"
require "nokogiri"
def getContent(page,dir,io)
    puts dir
    # 得到历届詹天佑奖的时间
    dir =~ /第.+?届/
    title = $&
    dir =~ /[0-9][0-9][0-9][0-9]年度/
    title1=$&
    if title1==nil
        title1=""
    end

    title+=title1
    line=[]
    temp=""
    i=0
    # 获取含符合规范的td,  下面xpath的意思: 匹配含有rowspan 属性的td,或者 不含rowspan 以及 不含colspan 属性的td
    # 为了展现xpath not 的用法,下面的语句有些多余
    page.xpath("//td[ @rowspan or not(@rowspan or @colspan) ]").each do |td|
        # 去掉一些不需要的内容,如表头,
        if td.content =~ /[0-9]$/ || !td.to_s.include?('x:str') || td.content =~ /序号|工程名称|参建单位|编号/
            next
        end
        if td.to_s.include?('rowspan')# 代表着一行开始了
            temp.slice!(-1)# 删除最后一个顿号
            temp.gsub!(/[0-9]-/,"")# 剔除多余的字符
            i+=1
            if i>1# i==1 代表着此表的第一行,由于同一列分布在多行,只有处理到下一行的开始部分才把这一行的数据写入文件,所以i==1时,第一行的数据还没有结束,不能写入文件
                io.puts(temp+","+title.to_s)# 将此行写入文件
                puts "#{i}   #{temp},#{title.to_s}"
            end
            temp=""
            temp <<td.content+","
        else
            temp<<td.content+"、"# 把分布在多行的列连接成一行
        end
    end
    # 处理最后一行数据
    temp.slice!(-1)
    temp.gsub!(/[0-9]-/,"")
    io.puts(temp+","+title.to_s)# 把最后一行的数据写入文件
    puts "#{i+1}   #{temp},#{title.to_s}"
end

io=File.open("./詹天佑奖.csv","w+")# 准备写入数据的文件
io.puts("工程名称,参建单位,时间")# th
Dir.open("./詹天佑/詹天佑html/").each do |dir|# 遍历此文件夹下的所有文件
    if dir=="."||dir==".."# 过滤本目录和上级目录
        next
    end
    f=File.open('./詹天佑/詹天佑html/'+dir)
    page=Nokogiri::HTML(f)
    getContent(page,dir,io)
    f.close
end
io.close

poi/jxl,
jacob/jawin生成的是excel的biff格式。html/csv的是文本格式,不另存为excel文件,非常多excel功用是用持续的。jacob/jawin要求服务器端是windows系统,且安装了excel三千之上版本。poi/jxl和html/csv方式的话,服务器端能够跨平台。

ruby获取网页链接,下载excel文件

浏览器端生成excel文件还尚未特意完善的方案,那是因为js不可能管理二进制。大约有以下多少个方案,各有利弊。

浏览器端独有首先种方案导出的是实在的biff格式的excel文件,其余形式都以文本格式。activex情势只好在windows平台的ie浏览器采取,并且须求减弱ie的安全性,所以利用相比较有限。复杂的excel文件,照旧在服务器端用poi/jxl生成excel比较好。要是浏览器固定位ie6,浏览器端情势2是最佳的方案。假使要下跌服务器端cpu的猜度压力,客商端方案3可行,并且跨平台(比poi/jxl格局少了取数和浮动二进制文件)。假使是非ie浏览器,方案4也不失为一种好点子。

1.
activex方式:使用js/vbs调用excel对象,http://setting.iteye.com/blog/219302,有个extjs的gridpanel导出为excel的例子。
(ie+excel)

总的来讲,二种方法:服务器端生成和浏览器端生成。

  1. data左券章程:对于扶持data合同的浏览器,能够将html或是csv先用js
    base64管理,然后前缀data:application/vnd.ms-excel;base64,,就能够使浏览器将当中的多寡当作excel来处理,浏览器将唤起下载或打开excel文件,缺憾的是ie不扶植。extjs的官方网站有二个grid的plugin,完成导出xhtml格式的伪excel文件,正是那样做的。
    (except IE)

 

2.
ie命令方法:将html或是csv输出到open的window,然后使用execCommand的saveas命令,存为csv或xls。
(ie6 only)

服务器端生成正是:根据客户央浼,获取相应的数据,使用poi/jxl,
jacob/jawin+excel,或是用数据拼html的table或是cvs纯文本的数量格式等。然后按.xls或是.cvs格式的文本的款式再次来到给客户,钦定Content-Type:application/vnd.ms-excel
,浏览器就能够唤醒要下载的文件是excel文件。

ps: 还应该有二个方案,正是让安装了ie和excel的客户在网页上右键,点击“导出到
Microsoft
Excel”,然后能够选用要导出的table区域,点“导入”开关,完结导入。