プログラム 技術

PowerShellでファイル読み込み(PDF)

PDFファイルを読み込んでみる

読み込むファイルの種類

今回、紹介するファイル読み込みは以下の拡張子が対象です
・PDFファイル(.pdf)

前提条件

PDFファイルを今回は「itextsharp」というライブラリを使用して読み込んでいます

実際に読み込む

PDFファイルを開く

対象となるPDFファイルを読み込む

$reader = New-Object iTextSharp.text.pdf.PdfReader("PDFファイルパス")

PDFファイル内を読み込む

PDFファイルの最大ページ数を取得し、1ページずつテキストを読み込んでいます

$pages = $reader.NumberOfPages
for($page = 1; $page -le $pages; $page++){
    $text = [iTextSharp.text.pdf.parser.PdfTextExtractor]::GetTextFromPage($reader, $page)
    $lines = $text -split "\n"
    foreach($line in $lines){
        Write-Host $line
    }
}

開いたPDFを閉じる

開いたPDFファイルを閉じています

$reader.Close()
$reader.Dispose()

最後に

今回はPDF内テキスト読み込みをしてみました
全体のコードはGitHubにアップしているので参考になれば

サンプル
BlogSampleCodeProjects/PowerShell_FileLoad/PdfFileLoad.ps1 at main · nasuton/BlogSampleCodeProjects · GitHub
BlogSampleCodeProjects/PowerShell_FileLoad/PdfFileLoad.ps1 at main · nasuton/BlogSampleCodeProjects · GitHub

Project for sample code used in the blog.(Blogで記載しているサンプルコード ...

続きを読む

-プログラム, 技術
-,