TF-IDFでデータベース内の類似テキストを検索する Part 4 (MADlib svec編)
TF-IDF 感動巨編3部作は前回のエントリで完結したわけですが、今回はその番外編、スピンオフとして「MADlib svec編」をお送りします。MADlib には、sparse(疎)な配列、つまり多くの要素がゼロであるような配列を扱うデータ型として svec というデータ型があります。MADlib: Sparse Vectors...
View Article【翻訳】 On Uber’s Choice of Databases (データベースにおけるUberの選択について)
数日前、Uberのブログで「Why Uber Engineering Switched from Postgres to MySQL」というエントリが公開されました。Why Uber Engineering Switched from Postgres to MySQL - Uber Engineering Blog...
View Article9月10日(土)に第8回PostgreSQLアンカンファレンスを開催します
開催まであと1週間を切りましたが、9/10にPostgreSQLアンカンファレンスを開催します。多分、8回目くらいだと思います。第8回 PostgreSQLアンカンファレンス@東京(2016/9/10) -...
View Article巡回セールスマン問題における最短経路をpgRoutingで探索する
先日、PostgreSQLアンカンファレンスを開催した際、「pgRoutingを使って巡回セールスマン問題を解く」という発表を国府田さんがされていました。第8回 PostgreSQLアンカンファレンス@東京(2016/9/10) - connpass http://pgunconf.connpass.com/event/37285/第8回 PostgreSQLアンカンファレンス ツイートまとめ -...
View ArticleMADlib 1.9.1 Release (GA)がリリースされました
このブログでも何度か紹介しているPostgreSQLのデータベース内で機械学習の処理を行えるApache MADlibですが、1.9.1 GAがリリースされました。Apache MADlib (incubating): Big Data Machine Learning in SQL...
View ArticlePostgreSQL 9.5日本語マニュアルの検索システムをリリースしました
PostgreSQL 9.5の日本語マニュアルの検索システムをリリースしたので、ご紹介します。PostgreSQL 9.5 マニュアル検索...
View ArticleJupyter NotebookからPostgreSQLに接続してデータを可視化する
最近、なんだかんだとデータに触る機会が増えてきております。Unix系エンジニア兼DBAとしては、CLI(コマンドラインインターフェース)が生産性が高くて好きだけど、一方で可視化もお手軽にやりたい、というケースが多々あります。Jupyter...
View ArticleLogical Decodingを使ったCDC(Change Data Capture)の実現方法を考えてみる
今年も風物詩である PostgreSQL Advent Calendar の時期がやって参りました。Day1担当のデータマエショリスト @snagaです。PostgreSQL Advent Calendar 2016 - Qiita...
View Articleオープンデータ+PostGIS+Google Maps で観光マップを作ってみた
本エントリは PostgreSQL Advent Calendar 2016の Day24 のエントリです。昨日は @mazudakz さんの「pg_stats_reporter をしくじった話」でした。読み応えあって面白かった。さて、先日(と言っても結構前)、地理情報をPostgreSQLで扱う例として、巡回セールスマン問題をPostgreSQLで解きつつGoogle...
View Articleコサイン類似度に基づくソート処理の実装方法とその性能比較
文書の類似度を計算する方法に「コサイン類似度」を用いる方法があります。これは、出現する単語を出現回数などで数値化して、空間ベクトルに変換した上でベクトル同士の類似度を計算する、という手法です。コサイン類似度...
View ArticleIn-database Analyticsの集い #1を開催します
3月10日(金)に「In-database Analyticsの集い #1」というMeetupを開催することになりました。 In-database Analyticsの集い #1 - connpass「In-Database...
View ArticleHecatoncheir: The Data Stewardship Studio 0.8を公開しました
本日、「Hecatoncheir: The Data Stewardship Studio」という最近開発していた新しいツールをOSSとして公開しました。Hecatoncheir: The Data Stewardship Studio...
View ArticleAzure Database for PostgreSQLにアクセスしてみた
5/11のMicrosoft Build 2017で、PostgreSQLのDBaaSがAzureで提供されることが発表されました。[速報]マイクロソフト、Azureで「MySQL」「PostgreSQL」のデータベースサービス提供を発表、運用の手間は不要。Build 2017 - Publickey...
View Article技術文書「PostgreSQL 10 Beta1 新機能検証結果」が公開されました
少し前の話になりますが、みなさんお馴染みとなりつつある日本HP篠田さんから PostgreSQL 10 beta1 の資料が公開されました。HP コミュニティ - 『篠田の虎の巻』 第7弾公開!PostgreSQL 10 beta 1に対応! - エンタープライズ・ビジネス・コミュニティPostgreSQL 10 Beta 1...
View Article[翻訳] たった一つの設定変更が如何にしてクエリのパフォーマンスを50倍も改善したか (How a single PostgreSQL config...
先日、「How a single PostgreSQL config change improved slow query performance by 50x」というPostgreSQLのSSD環境でのチューニングの記事を見つけたのですが、これをTweetしたらRTやLikeを比較的たくさん頂きました。 How a single PostgreSQL config change improved...
View ArticleDockerを使ってデータ分析用にPostgreSQLを使ってみる
これは PostgreSQL Advent Calendar 2017の Day3 の記事です。昨日はMorihayaさんの「DB Management tool新時代の幕開けか!? OmniDBを評価させていただく!」でした。さて、最近ようやくDockerに触り始めたのですが、使い方が少しずつ分かってきたのでいろいろと遊んでいます。今回は、In-Database...
View ArticleOracle対応アプリケーションのDockernize事始め
本エントリはJPOUG Advent Calendar 2017 Day6の記事です。普段はPostgreSQLのブログなのですが、今回はスピンオフ企画(番外編)として、先日のJPOUGのイベント「JPOUG in 15 minutes...
View ArticlePostgreSQLのデータをPandasのデータフレームとして読み書きする
最近、JupyterやPandasを使ってデータを処理する機会が増えてきました。とは言え、手元のデータはPostgreSQLに溜まっていたり、あるいはSQLで処理したい、ということがよくあります。というわけで、Jupyterを使っている時に、「PostgreSQLからデータを取り出して、Pandasやら何やらでいろいろ処理した後、結果をPostgreSQLを書き出す」というユースケースを想定して、そ...
View Articleこの連休の読書にオススメの一冊「SQLパフォーマンス詳解」(割引コードあり)
最近、久しぶりにPostgreSQLのクエリチューニングをしていたのですが、その過程で「この本はぜひもっと多くの人に読んでもらいたい」と改めて思い出した一冊がありました。それは、「SQLパフォーマンス詳解(原題:SQL Performance Explained)」という本です。SQLパフォーマンス詳解...
View ArticlePython版dblinkでデータベース連携をもっと「自由」に
本エントリは、 PostgreSQL Advent Calendar 2018の Day1 のエントリです。エントリを書くのは実に半年以上ぶりなのですが、今回は以前から試してみたかったdblinkネタをお届けします。■なぜ今さら「dblink」? PostgreSQLには、PostgreSQL、あるいは異種DBMSのデータベース連携を実現する手段として、dblinkとForeign Data...
View Article機械学習ライブラリApache MADlibで決定木を使ってKaggleのTitanicを解く
この記事は PostgreSQL Advent Calendar 2018のDay20の記事です。昨日19日は U_ikki さんによるPostgreSQL...
View ArticleカラムナーDB拡張 cstore_fdw とその性能評価
本エントリは PostgreSQL Advent Calendar 2018の Day24 の記事です。昨日の記事は @kabaomeさんによる 拡張統計情報とテーブル結合でした。本エントリでは、PostgreSQLのカラムナーDB拡張である cstore_fdw について、その基本的な使い方から、 DBT-3...
View Articletablelog extension を使ってDB移行に必要なテーブルの更新差分のログを取得する
先日開催されたPostgreSQLアンカンファレンスで tablelog という extension の話をしたのですが、本エントリでは改めてその紹介をさせていただこうと思います。 第10回PostgreSQLアンカンファレンス -...
View ArticleJupyter+Pandasを使ったPostgreSQLパフォーマンス分析
本記事は PostgreSQL Advent Calendar 2019の1日目の記事です。初日から遅れ気味ですすみません。。久しぶりの記事ですが、最近はPostgreSQLをゴリゴリと触る感じでもなくなってきているため、本記事もゆるめの感じでお送りしたいと思います。 ■PostgreSQLの「パフォーマンス分析」とは...
View Article