亚洲,欧美,中文字幕,小婕子伦流澡到高潮视频,无码成人aaaaa毛片,性少妇japanesexxxx,山外人精品影院

8 個(gè)支持內(nèi)置機(jī)器學(xué)習(xí)的數(shù)據(jù)庫

  • 來源:計(jì)算機(jī)世界
  • 關(guān)鍵字:機(jī)器,學(xué)習(xí),數(shù)據(jù)庫
  • 發(fā)布時(shí)間:2021-06-02 18:54

  在我2020 年8 月份發(fā)表的文章《如何選擇云機(jī)器學(xué)習(xí)平臺》中,我認(rèn)為選擇平臺的首要原則是“靠近數(shù)據(jù)”。讓代碼靠近數(shù)據(jù)是保持低延遲的必要條件。

  機(jī)器學(xué)習(xí), 特別是深度學(xué)習(xí)往往會多次遍歷所有數(shù)據(jù)(遍歷一次被稱為一個(gè) epoch)。對于非常大的數(shù)據(jù)集來說,理想的情況是在存儲數(shù)據(jù)的地方建立模型,這樣就不需要大量的數(shù)據(jù)傳輸。目前已經(jīng)有部分?jǐn)?shù)據(jù)庫在一定程度上支持這種功能。我們會很自然地問到一個(gè)問題,即哪些數(shù)據(jù)庫支持內(nèi)部機(jī)器學(xué)習(xí),它們又是如何做到的?下面我將對這些數(shù)據(jù)庫進(jìn)行探討。

  Amazon Redshift

  Amazon Redshift 為托管的PB 級數(shù)據(jù)倉庫服務(wù),旨在讓使用現(xiàn)有商業(yè)智能工具對數(shù)據(jù)進(jìn)行分析的工作變得更加簡單且經(jīng)濟(jì)高效。其專門針對數(shù)據(jù)集進(jìn)行了優(yōu)化,成本合算下來每年每TB 不到1000 美元。

  Amazon Redshift ML 可讓SQL 用戶能夠更加輕松地使用SQL 命令創(chuàng)建、訓(xùn)練和部署機(jī)器學(xué)習(xí)模型。 Redshift SQL 中的CREATE MODEL 命令可定義用于訓(xùn)練和目標(biāo)列的數(shù)據(jù), 然后通過同一區(qū)域中加密的 Amazon S3 bucket 將數(shù)據(jù)傳輸給Amazon SageMaker Autopilot 以用于訓(xùn)練。

  在AutoML 訓(xùn)練之后, Redshift ML 將編譯最佳模型并將其注冊為Redshift 集群中的預(yù)測函數(shù)。隨后,用戶可以通過在SELECT 語句中調(diào)用預(yù)測函數(shù)的方式調(diào)用模型進(jìn)行推測。

  總結(jié): 通過SQL 語句,Redshift ML 可使用 SageMaker Autopilot 利用指定數(shù)據(jù)自動(dòng)創(chuàng)建預(yù)測模型。在這過程中,SQL 語句會被提取到S3 bucket 中。最佳的預(yù)測函數(shù)會被注冊在 Redshift 集群中。

  BlazingSQL

  BlazingSQL 是一個(gè)建立在RAPIDS 生態(tài)系統(tǒng)頂層上的由GPU 加速的SQL 引擎,雖然是開源項(xiàng)目,但是提供付費(fèi)服務(wù)。RAPIDS 為一套得到了Nvidia 支持的開源軟件庫和API,其使用了 CUDA 并且采用了Apache Arrow 列式內(nèi)存格式。作為 RAPIDS 的一部分,cuDF 為一個(gè)類似于Pandas 的GPU 數(shù)據(jù)幀庫,主要用途是對數(shù)據(jù)進(jìn)行加載、連接、聚合、過濾等操作。

  開源工具Dask 可將Python 套件擴(kuò)展到多臺機(jī)器上。此外,Dask 還可在同一系統(tǒng)或多節(jié)點(diǎn)集群中通過多個(gè)GPU 分發(fā)數(shù)據(jù)和計(jì)算。整合了RAPIDS cuDF、 XGBoost 和RAPIDS cuML 的Dask 可用于GPU 加速的數(shù)據(jù)分析和機(jī)器學(xué)習(xí)當(dāng)中。總結(jié):BlazingSQL 可以在Amazon S3 的數(shù)據(jù)湖上運(yùn)行 GPU 加速的查詢,然后將生成的數(shù)據(jù)幀傳輸給cuDF 進(jìn)行數(shù)據(jù)操作,最后再使用RAPIDS XGBoost 和cuML 執(zhí)行機(jī)器學(xué)習(xí),或是使用PyTorch 和TensorFlow 執(zhí)行深度學(xué)習(xí)。

  谷歌Cloud BigQuery

  BigQuery 是谷歌Cloud 托管理的PB 級數(shù)據(jù)倉庫。用戶可以通過BigQuery 對大量數(shù)據(jù)進(jìn)行近實(shí)時(shí)分析。 BigQuery ML 允許用戶使用 SQL 查詢在BigQuery 中創(chuàng)建和執(zhí)行機(jī)器學(xué)習(xí)模型。

  BigQueryML 支持用于預(yù)測的線性回歸、用于分類的二元多類邏輯回歸、用于數(shù)據(jù)分割的K- 均值聚類、用于創(chuàng)建產(chǎn)品推薦系統(tǒng)的矩陣分解、用于執(zhí)行時(shí)間序列預(yù)測的時(shí)間序列、XGBoost 分類和回歸模型、分類和回歸模型專用的基于 TensorFlow的深度神經(jīng)網(wǎng)絡(luò)、 AutoML Tables、TensorFlow 模型導(dǎo)入。用戶可以使用來自多個(gè)BigQuery 數(shù)據(jù)集的數(shù)據(jù)模型進(jìn)行訓(xùn)練和預(yù)測。雖然 BigQuery ML 不會從數(shù)據(jù)倉庫中提取數(shù)據(jù),但是用戶可以使用CREATE MODEL 語句中的TRANSFORM 子句,通過 BigQuery ML 執(zhí)行特征工程。

  總結(jié): BigQuery ML 通過SQL 語法將谷歌Cloud 機(jī)器學(xué)習(xí)引入到了BigQuery 數(shù)據(jù)倉庫,從而不從數(shù)據(jù)倉庫中提取數(shù)據(jù)。

  IBM Db2 Warehouse

  雖然I B M D b 2 Warehouse 一個(gè)托管的公有云服務(wù),但是用戶可以在本地或在私有云中部署它們。作為一個(gè)數(shù)據(jù)倉庫,IBM Db2 Warehouse 包含有內(nèi)存數(shù)據(jù)處理和用于在線分析處理的列式表格等功能。其Netezza 技術(shù)提供了強(qiáng)大的分析功能,可高效查詢數(shù)據(jù)。此外,IBM Db2 Warehouse 的大量的庫和函數(shù)可以幫助用戶獲得所需的精確洞察力。

  Db2 Warehouse 支持 Python、R 和SQL 中的數(shù)據(jù)庫機(jī)器學(xué)習(xí)。IDAX 模塊中有分析存儲程序,包括方差分析、關(guān)聯(lián)規(guī)則、數(shù)據(jù)轉(zhuǎn)換、決策樹、診斷、K 均值聚類、K 近鄰、線性回歸、元數(shù)據(jù)管理、 naïve 貝葉斯分類、主要素分析、概率分布、隨機(jī)抽樣、回歸樹、序列模式與規(guī)則,以及參數(shù)和非參數(shù)統(tǒng)計(jì)等等。

  總結(jié): I B M D b 2 Warehouse 包含一系列數(shù)據(jù)庫內(nèi)SQL 分析,例如一些基本的機(jī)器學(xué)習(xí)功能。此外, IBM Db2 Warehouse 對R 和 Python也提供數(shù)據(jù)庫內(nèi)支持。

  Kinetica

  Kinetica 流數(shù)據(jù)倉庫(S t r e a m i n g D a t a Warehouse)將以往的流數(shù)據(jù)分析與本地的智能和人工智能整合在了一個(gè)單一的平臺上,所有這些都可以通過API 和SQL 進(jìn)行訪問。Kinetica 為GPU 加速數(shù)據(jù)庫不僅具有快速、分布式、柱狀和內(nèi)存優(yōu)先等特點(diǎn),還整合了過濾、可視化和聚合等功能。

  為了實(shí)現(xiàn)大規(guī)模的實(shí)時(shí)預(yù)測分析,Kinetica 將機(jī)器學(xué)習(xí)模型和算法與用戶的數(shù)據(jù)集成在一起,并且允許用戶對數(shù)據(jù)管道,分析、機(jī)器學(xué)習(xí)模型和數(shù)據(jù)工程的生命周期,以及流計(jì)算功能進(jìn)行優(yōu)化。Kinetica 為GPU 加速的機(jī)器學(xué)習(xí)提供了一個(gè)全生命周期解決方案,包括管理Jupyter 筆記本, 通過 RAPIDS 進(jìn)行模型訓(xùn)練, 以及Kinetica 平臺中的自動(dòng)模型部署和推理。

  總結(jié):Kinetica 為GPU 加速的機(jī)器學(xué)習(xí)提供了一個(gè)完整的數(shù)據(jù)庫生命周期解決方案,并且可以利用流數(shù)據(jù)進(jìn)行預(yù)測。

  微軟SQL Serve

  微軟SQL Server 機(jī)器學(xué)習(xí)服務(wù)在SQL Server RDBMS 中支持R、Python、 Java、PREDICT T-SQL 命令和rx_Predict 存儲程序,在SQL Server Big Data Clusters 中支持SparkML。在R 和Python 語言中, 微軟提供了多個(gè)用于機(jī)器學(xué)習(xí)的套件和庫。用戶可以將經(jīng)過訓(xùn)練的模型存儲在數(shù)據(jù)庫中或是數(shù)據(jù)庫外部。Azure SQL Managed Instance 支持 Python 和R 專用的Machine Learning Services進(jìn)行預(yù)覽。

  R 語言可以處理來自磁盤和內(nèi)存中的數(shù)據(jù)。SQL Server 提供了一個(gè)擴(kuò)展框架,以便 R、Python 和Java 代碼可以使用SQL Server 數(shù)據(jù)和函數(shù)。 SQL Server Big Data Clusters 可在Kubernetes 中運(yùn)行SQLServer、Spark 和HDFS。當(dāng) SQL Server 調(diào)用Python 代碼時(shí),Azure 機(jī)器學(xué)習(xí)也可以被調(diào)用,生成的模型將被保存在數(shù)據(jù)庫中以用于預(yù)測。

  總結(jié):當(dāng)前版本的SQL Server 可使用多種編程語言訓(xùn)練和推斷機(jī)器學(xué)習(xí)模型。

  甲骨文數(shù)據(jù)庫

  甲骨文云基礎(chǔ)設(shè)施(OCI) Data Science 是一款托管無服務(wù)器平臺, 可供數(shù)據(jù)科學(xué)團(tuán)隊(duì)使用包括Oracle Autonomous Database 和 Oracle Autonomous Data Warehouse 在內(nèi)的OCI 構(gòu)建、訓(xùn)練和管理機(jī)器學(xué)習(xí)模型。該平臺包含有由開放源碼社區(qū)和Oracle Accelerated Data Science (ADS) Library 開發(fā)的以Python 為中心的工具、庫和套件,支持預(yù)測模型端到端的生命周期:

  ·數(shù)據(jù)采集、分析、準(zhǔn)備和可視化

  ·特征工程

  · 模型訓(xùn)練( 包括 Oracle AutoML)

  ·模型評估、解釋和說明(包括Oracle MLX)

  ·Oracle Functions 中的模型部署

  OCI Data Science 還與包括Functions、Data Flow、Autonomous Data Warehouse 和對象存儲等 OCI 堆棧進(jìn)行了整合。

  目前支持的模型包括:

  ·Oracle AutoML

  ·Keras

  ·Scikit-learn 機(jī)器學(xué)習(xí)庫

  ·XGBoost

  ·ADSTuner ( 超參數(shù)優(yōu)化)

  此外,ADS 還支持MLX (機(jī)器學(xué)習(xí)可解釋性)。

  總結(jié):甲骨文云基礎(chǔ)設(shè)施(OCI)可以托管與其數(shù)據(jù)倉庫、對象存儲和函數(shù)集成的數(shù)據(jù)科學(xué)資源,從而實(shí)現(xiàn)完整的模型開發(fā)生命周期。

  Vertica

  Vertica 分析平臺為可擴(kuò)展的列式存儲數(shù)據(jù)倉庫,其有兩種運(yùn)行模式:Enterprise 和EON,前一種模式將數(shù)據(jù)存儲在本地組成數(shù)據(jù)庫的節(jié)點(diǎn)內(nèi)的文件系統(tǒng)中,后一種模式將數(shù)據(jù)存儲在公共的計(jì)算節(jié)點(diǎn)上。

  Vertica 使用大規(guī)模并行運(yùn)算處理PB 級數(shù)據(jù),并通過數(shù)據(jù)并行進(jìn)行內(nèi)部機(jī)器學(xué)習(xí)。該產(chǎn)品有8 個(gè)用于數(shù)據(jù)準(zhǔn)備的內(nèi)置算法、3 個(gè)回歸算法、 4 個(gè)分類算法、2 個(gè)聚類算法以及多個(gè)模型管理函數(shù),并具備將已訓(xùn)練的TensorFlow 和PMML 模型導(dǎo)入至其他地方的功能。在導(dǎo)入了模型之后,用戶就可以使用它們進(jìn)行預(yù)測。Vertica 還允許用戶使用由C++、Java、Python 或 R 等語言編譯的自定義擴(kuò)展程序。此外,用戶還可以使用 SQL 語法進(jìn)行訓(xùn)練和推理。

  總結(jié):Vertica 內(nèi)置了一套優(yōu)秀的機(jī)器學(xué)習(xí)算法,并且可以導(dǎo)入TensorFlow 和 PMML 模型。用戶既可以使用導(dǎo)入的模型進(jìn)行預(yù)測,也可以使用自己訓(xùn)練的模型進(jìn)行預(yù)測。

  MindsDB

  如果用戶的數(shù)據(jù)庫不支持內(nèi)置機(jī)器學(xué)習(xí),那么他們可以使用MindsDB。該款產(chǎn)品集成了6 個(gè)數(shù)據(jù)庫和5 個(gè)商業(yè)智能工具,支持的數(shù)據(jù)庫包括MariaDB、MySQL、 PostgreSQL、ClickHouse、微軟SQL Server 和Snowflake。目前MindsDB 還正在努力與 MongoDB 整合,2021 年晚些時(shí)候還將會與流數(shù)據(jù)庫實(shí)現(xiàn)集成。MindsDB 支持的商業(yè)智能工具包括SAS、Qlik Sense、微軟Power BI、Looker 和 Domo。

  MindsDB 的功能還包括 AutoML、AI 表和可解釋的人工智能(XAI)。用戶可以從MindsDB Studio、SQLINSERT 語句或Python API 調(diào)用中調(diào)用AutoML 訓(xùn)練。用戶可以選擇使用GPU 進(jìn)行訓(xùn)練,也可以選擇創(chuàng)建時(shí)間序列模型。

  越來越多的數(shù)據(jù)庫開始在內(nèi)部支持機(jī)器學(xué)習(xí)。雖然機(jī)制各不相同,但是有些機(jī)制確實(shí)性能更加出眾。如果擁有大量數(shù)據(jù),且需要為采樣子集選擇適當(dāng)?shù)哪P?,那么上面所列? 個(gè)數(shù)據(jù)庫,以及支持MindsDB 的其他數(shù)據(jù)庫都可以幫助用戶為完整的數(shù)據(jù)集構(gòu)建模型,并且不需要擔(dān)心因數(shù)據(jù)導(dǎo)出導(dǎo)致費(fèi)用嚴(yán)重超支。

  用戶可以將模型另存為數(shù)據(jù)庫表,然后從已保存模型專用的SQL SELECT 語句、MindsDB Studio 或 Python API 調(diào)用中調(diào)用它們。此外,用戶還可以通過 MindsDB Studio 對模型質(zhì)量實(shí)現(xiàn)評估、解釋和可視化。

  與此同時(shí),用戶還可以將MindsDB Studio 和 Python API 與本地和遠(yuǎn)程數(shù)據(jù)源聯(lián)接在一起。MindsDB 還額外提供了一個(gè)可在PyTorch 上運(yùn)行的簡化版深度學(xué)習(xí)框架 Lightwood。

  總結(jié):MindsDB 為許多不支持內(nèi)置機(jī)器學(xué)習(xí)的數(shù)據(jù)庫帶來了機(jī)器學(xué)習(xí)功能。

  本文作者M(jìn)artin Heller 目前為InfoWorld 網(wǎng)站的特約編輯兼評論員,此前其曾擔(dān)任Web 和Windows 編程顧問。從1986 年至2010 年, Heller 一直從事數(shù)據(jù)庫、軟件和網(wǎng)站的開發(fā)工作。近期,Heller 還出任了Alpha Software 的技術(shù)兼訓(xùn)練副總裁和Tubifi 的董事長兼首席執(zhí)行官。

  原文網(wǎng)址 https://www.infoworld. c o m / a r t i c l e / 3 6 0 7 7 6 2 / 8 - databases-supporting-indatabase- machine-learning. html

關(guān)注讀覽天下微信, 100萬篇深度好文, 等你來看……