プリンターの上部のカバーを上に開くとA4サイズほどのガラス板が見える機種にはスキャナー機能が付いています。そのガラス板(原稿台)の上に本や書類などを置いてスキャンし、文字データを取り出すことができます。この機能はOCR(Optical Character Reader)と呼ばれます。
新聞に連載される記事を読み込んで、取り出した文字データをワードに取り込み一続きの読み物に編集したり、雑誌の記事の必要な部分の文字データだけを、別にスキャンした画像とともにワードに取り込み、必要な情報を書き加えたりして分かりやすい資料に仕立てたり、することができます。
スマホのカメラで印刷物を読み取り、GoogleドライブへアップロードしてパソコンでGoogleドキュメントで開くと文字読み取りできます。スマホで撮影した画像をGoogle Keepへ送り文字を抽出できます。
キャノンのMG5530プリンターを使って、新聞記事から文字データを抜き出してみましょう。
(1)準備
まず、スキャナー用のアプリがインストールされているかを確認しましょう。スタートボタンをクリックしてCanon Utilitiesフォルダーを探し、その中にIJ Scan Utilityというアプリがあることを確認します。
図1 「すべてのアプリ」から IJ Scan Utilityを探す
次に、スキャンした画像から文字データを取り出すための「読取革命Lite」というアプリも必要です。「すべてのアプリ」の「よ」のところにあることを確認しておきましょう。
図2 「すべてのアプリ」から読取革命Liteを探す
もし、IJ Scan Utilityがないときはプリンターに付属していたDVDか インターネットからダウンロードしてインストールしてください。読取革命Liteはプリンターに付属していたDVDからインストールしてください。
(2)スキャン設定
Canon Utilitiesフォルダーをクリックして、その中のIJ Scan Utilityをクリックすると次の画面が開きます。
図3 IJ Scan Utilityを立ち上げる
「スキャン設定」をクリックすると次の画面が表示されます。
図4 スキャン設定画面
次のように設定します。
(1)左ペインで「ScanGear」をクリック
(2)「データ形式」を「JPEG/Exif」に設定
(3)「アプリケーション設定」の「OCRを開始する」をクリック
(4)読取革命Liteが設定されていることを確認する
(5)「OK」をクリック
(注)読み取り部分を選択したいので、文書ボタンではなくScanGearを選択します。
(3)ScanGear
図3のScanGearボタンをクリックすると下の画面が表示されます。
図5 ScanGear画面
「①原稿を選択する」で読み取る書類の種類を 写真/雑誌/文書(カラー)/文書(グレー)から選んで設定します。新聞の場合、「雑誌」に設定してみました。
「②試しの画像を表示する」の「プレビュー」をクリックすると試しのスキャンで画像を読み取り、左ペインに表示します。
「用紙を選択する」では、「OCR」を設定します。
左ペインの周囲に点線で取込み範囲が示されています。点線上にマウスを移動してマウスカーソルが左右あるいは上下の矢印に変わったところでドラッグして取込み範囲を選択します。極力、画像部分は除き取り込みたい文字部分を選択します。矩形で選択するため、どうしても画像が含まれることがありますが、取り込みたくない部分は後で消去します。(画像部分を含んでいてもよいのですが、文字と認識できる部分は認識の対象領域に扱われ、不要な領域を削除する手間がかかります。)
「③スキャン」をクリックすると本番のスキャンが始まり、画像が取り込まれると読取革命Liteが立ち上がります。
(4)読取革命Lite
次のような画面が表示されます。
図6 読取革命Liteが立ち上がる
(1)不要部分を消す
編集メニューから「消しゴムモード」を選び、不要な画像などの上でマウスをドラッグして消します。
(2)文字データを取り出す領域を選ぶ(レイアウト)
「レイアウト」ボタンをクリックして領域を表示させます。
図7 データを取り出す領域を表示
赤枠で、データを取り出す領域が表示されます。赤枠の上でクリックすると枠が濃く表示され、枠をドラッグして領域を微調整できます。読取不要な領域を選択してDeleteキーを押せば領域を消すことができます。(図7の最初の段落と“ルールを踏まえて...”の部分は枠を消してあります)。
図7は「領域」メニューをクリックし「読取り順序変更」をクリックした状態であり、読み取り順が領域の左上隅に表示されています。希望する読み取り順にクリックして順序を変更できます。
(3)文字データを取り出す(認識)
「認識」ボタンをクリックすると文字認識が動作して文字データを生成します。確認のために次のような画面が表示されます。左がスキャンした画像、右が文字認識したデータです。右ペインで変換がおかしい部分の文字をクリックすると、そこに対応する画像部分が黒く表示され原稿の汚れなどが見つかることがあります。
図8 文字認識結果
上の図に示す「Word」ボタンをクリックすると読取結果をワードに転送します。「Text」ボタンをクリックするとメモ帳に転送します。いずれも、ファイルメニューから「名前を付けて保存」でファイルを保存します。
(注)読取結果を見ると、原稿の改行位置に改行コードが入っています。読取革命の正規版では領域内でダブルクリックして「改行」を「なし」に設定して文をつなぐことができるようです。プリンターに付属している読取革命Liteでは手作業で改行コードを削除するのは致し方ないようです。