パラレルスキャンのスケーラビリティ調査とFlame Graphsによるプロファイリング可視化
先月、弊社にデータベース系の研究をしていた中国人留学生がインターンに来ており、その彼にお願いしてPostgreSQLのパラレルクエリのスケーラビリティの調査と、プロファイリング+可視化のツールとしてFlameGraphを使ってもらいました。大学のスケジュールの関係上、インターンの期間が急遽、3週間から2週間に短縮されてしまったため、結果をきちんとまとめたり追試をしたりといったところまでは到達できなか...
View Articleデータ分析用ライブラリ MADlib を使って PostgreSQL で機械学習する
MADlibは、現代的なデータ分析には欠かせない回帰分析やデータマイニングのアルゴリズムが実装されているオープンソースのライブラリです。MADlibを導入することによって、これらのアルゴリズムをPostgreSQLのユーザ定義関数の形で使うことのでき、データベースサーバの内部でデータ分析の処理できるようになります。今回は、このMADlibの導入方法から動作確認、ロジスティック回帰分析における簡単な使...
View Article5月28日(土)にPostgreSQLアンカンファレンスを開催します
5月28日(土)にPostgreSQLアンカンファレンスを開催いたします。第7回 PostgreSQLアンカンファレンス@東京(2016/5/28) https://atnd.org/events/75718...
View Article形態素解析を使ってPostgreSQLに保存された文章データから話題を抽出する
PythonやPL/Python、PostgreSQLを使ってデータ分析をIn-Database処理させるのがマイブームです。今回は、データベース内に保存された文章のテキストデータから単語の出現頻度を使って話題になっているトピックを抽出する、という処理を行ってみます。...
View Article「10 Reasons to Start Your Analytics Project with...
先週末、香港で開催された HKOSCon 2016でのセッション「10 Reasons to Start Your Analytics Project with PostgreSQL(アナリティクスをPostgreSQLで始めるべき10の理由)」のスライドを公開しました。10 Reasons to Start Your Analytics Project with PostgreSQL from...
View Articleパラレル処理可能な集約関数をPL/Pythonで作成する
先日、次期メジャーバージョンの9.6のbeta2がリリースされました。PostgreSQL 9.6 Beta 2 Released https://www.postgresql.org/about/news/1677/...
View ArticleTF-IDFでデータベース内の類似テキストを検索する Part 1 (基本機能編)
最近、「TF-IDF」と呼ばれる手法を使ってPostgreSQL内に保存されたテキストの類似度を計算して、似ているテキストを検索する方法を試していました。一通り目途が立った気がしてきましたので、今回から3回に渡ってその方法をご紹介します。Part 1: 基本機能編Part 2: 実践編Part 3: 性能改善編 Part 1 は基本機能編ということで、TF-IDF に基づく類似性検索を...
View ArticleTF-IDFでデータベース内の類似テキストを検索する Part 2 (実践編)
前回の TF-IDF Part 1 の続きです。TF-IDFでデータベース内の類似テキストを検索する Part 1 (基本機能編) http://pgsqldeepdive.blogspot.jp/2016/07/tf-idf-part-1.html今回は、現実的なドキュメントをPostgreSQLに格納して TF-IDF の類似度に基づく検索をしてみます。...
View ArticleTF-IDFでデータベース内の類似テキストを検索する Part 3 (性能改善編)
PostgreSQL 感動巨編 TF-IDF 3部作の最終回、「性能改善編」です。 TF-IDFでデータベース内の類似テキストを検索する Part 1 (基本機能編) http://pgsqldeepdive.blogspot.jp/2016/07/tf-idf-part-1.htmlTF-IDFでデータベース内の類似テキストを検索する Part 2 (実践編)...
View ArticleTF-IDFでデータベース内の類似テキストを検索する Part 4 (MADlib svec編)
TF-IDF 感動巨編3部作は前回のエントリで完結したわけですが、今回はその番外編、スピンオフとして「MADlib svec編」をお送りします。MADlib には、sparse(疎)な配列、つまり多くの要素がゼロであるような配列を扱うデータ型として svec というデータ型があります。MADlib: Sparse Vectors...
View Article【翻訳】 On Uber’s Choice of Databases (データベースにおけるUberの選択について)
数日前、Uberのブログで「Why Uber Engineering Switched from Postgres to MySQL」というエントリが公開されました。Why Uber Engineering Switched from Postgres to MySQL - Uber Engineering Blog...
View Article9月10日(土)に第8回PostgreSQLアンカンファレンスを開催します
開催まであと1週間を切りましたが、9/10にPostgreSQLアンカンファレンスを開催します。多分、8回目くらいだと思います。第8回 PostgreSQLアンカンファレンス@東京(2016/9/10) -...
View Article巡回セールスマン問題における最短経路をpgRoutingで探索する
先日、PostgreSQLアンカンファレンスを開催した際、「pgRoutingを使って巡回セールスマン問題を解く」という発表を国府田さんがされていました。第8回 PostgreSQLアンカンファレンス@東京(2016/9/10) - connpass http://pgunconf.connpass.com/event/37285/第8回 PostgreSQLアンカンファレンス ツイートまとめ -...
View ArticleMADlib 1.9.1 Release (GA)がリリースされました
このブログでも何度か紹介しているPostgreSQLのデータベース内で機械学習の処理を行えるApache MADlibですが、1.9.1 GAがリリースされました。Apache MADlib (incubating): Big Data Machine Learning in SQL...
View ArticlePostgreSQL 9.5日本語マニュアルの検索システムをリリースしました
PostgreSQL 9.5の日本語マニュアルの検索システムをリリースしたので、ご紹介します。PostgreSQL 9.5 マニュアル検索...
View ArticleJupyter NotebookからPostgreSQLに接続してデータを可視化する
最近、なんだかんだとデータに触る機会が増えてきております。Unix系エンジニア兼DBAとしては、CLI(コマンドラインインターフェース)が生産性が高くて好きだけど、一方で可視化もお手軽にやりたい、というケースが多々あります。Jupyter...
View ArticleLogical Decodingを使ったCDC(Change Data Capture)の実現方法を考えてみる
今年も風物詩である PostgreSQL Advent Calendar の時期がやって参りました。Day1担当のデータマエショリスト @snagaです。PostgreSQL Advent Calendar 2016 - Qiita...
View Articleオープンデータ+PostGIS+Google Maps で観光マップを作ってみた
本エントリは PostgreSQL Advent Calendar 2016の Day24 のエントリです。昨日は @mazudakz さんの「pg_stats_reporter をしくじった話」でした。読み応えあって面白かった。さて、先日(と言っても結構前)、地理情報をPostgreSQLで扱う例として、巡回セールスマン問題をPostgreSQLで解きつつGoogle...
View Articleコサイン類似度に基づくソート処理の実装方法とその性能比較
文書の類似度を計算する方法に「コサイン類似度」を用いる方法があります。これは、出現する単語を出現回数などで数値化して、空間ベクトルに変換した上でベクトル同士の類似度を計算する、という手法です。コサイン類似度...
View ArticleIn-database Analyticsの集い #1を開催します
3月10日(金)に「In-database Analyticsの集い #1」というMeetupを開催することになりました。 In-database Analyticsの集い #1 - connpass「In-Database...
View Article