尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
最近,我已經構建了一個Web應用程序來管理用戶的個人開支,其主要功能是掃描購物收據並提取數據以供進一步處理。Google Vision API是一款從照片中獲取文字的絕佳工具,在本文中,我將使用Python指導完成開發過程。
從未聽說過Google Cloud Vision?
它是一種API,允許開發人員通過提取的數據分析圖像的內容。為此,Google利用在大型圖像數據集上訓練的機器學習模型,所有這些都可以通過單個API請求獲得,API背後的引擎對圖像進行分類,檢測對象,人臉,並識別圖像中的列印文字。
舉個例子,讓我們來介紹一下國外很受歡迎的Giphy。他們採用了API從GIF中提取字幕數據,從而顯著改善了用戶體驗。
如何開始使用Google Cloud
首先註冊Google Cloud,目前中國可以使用郵箱註冊,然後根據提示獲取秘鑰。但是如果要更好體驗需要代理服務器,之後就可以使用豐富的API功能。
如何將GOOGLE CLOUD VISION與PYTHON結合使用
首先,讓我們從庫中導入類。
from google.cloud import vision
from google.cloud.vision import types
如果需要處理,現在需要一個客戶端實例,將使用文本識別功能。
client = vision.ImageAnnotatorClient()
如果不將憑據存儲在環境變量中,則可以在此階段將其直接添加到客戶端。
client = vision.ImageAnnotatorClient.from_service_account_file(‘/path/to/apikey.json’)
假設將要處理的圖像存儲在項目目錄中的文件夾「images」中,讓我們打開其中一個。
image_to_open = ‘images/receipt.jpg’ with open(image_to_open, ‘rb’) as image_file:content = image_file.read()
下一步是創建一個Vision對象,它允許您發送請求以繼續進行文本識別。
image = vision.types.Image(content=content)text_response = client.text_detection(image=image)
基本步驟就差不多,看起來很複雜,但是真正上手之後就會發現功能強大且使用簡單。
可以從Google Cloud Vision獲得什麼?
正如上面提到的,Google Cloud Vision不僅可以識別文本,還可以讓發現人臉,地標,圖像屬性和網路連接。其實Google Cloud Vision還可以讓我們找出關於圖像的Web關聯的內容。
應用Google Cloud Vision服務是無窮無盡。使用Python庫,可以在任何基於語言的項目中使用它,無論是Web應用程序還是科學項目,它當然可以幫助我們對機器學習技術產生更深的興趣。
Google文檔提供了一些有關如何在實踐中應用Vision API功能的好主意,並讓我們可以了解有關機器學習的更多信息。特別建議查看有關如何構建高級圖像搜尋應用程序的指南。