WANdisco Blog

Hadoopハイブリッドクラウドが可能に

弊社の初めての“クラウド”についてのWebinar(Making Hybrid Cloud a Reality)の情報。概要は以下のとおり。詳しくはリプレイをご覧ください。
弊社はHadoopクラスタ間でデータ複製を行うFusionという製品を昨年出荷しました。オンプレのHadoopクラスタ間で使用されてきたが、最近はクラウドとオンプレのハイブリッドのサポートに力を入れている。クラウドとオンプレの間で通常業務を止めないで即時に双方向のデータ複製が可能になるので、RTO/RPOがほぼゼロのDRを安価に実現することが可能となる。ピーク時のみ(例えば年末)クラウドを使用する、クラウドにオンプレのHadoop(異なるディストリビューションでもOK)を集約する等々も簡単に行える。
HDFSとHDFSの間のみでなくHFDSとS3/EMR間でも複製を行うことができる。さらにHadoopの動いていないシステムのフラットファイル(PosixまたはNFS)をS3に複製することも可能である。
HadoopのData Nodeは現実的には同一データセンタに置くしかないが、Fusionの提供するActive -Active複製によりデータロスのない、トランザクショナル(正確にはWriteの順番が保証された)データ移動がオンプレとクラウドの間で可能になる。

avatar

About Kenji Ogawa (小川 研之)

WANdisco社で2013年11月より日本での事業を展開中。
以前は、NECで国産メインフレーム、Unix、ミドルウェアの開発に従事。その後、シリコンバレーのベンチャー企業開拓、パートナーマネージメント、インドでのオフショア開発に従事。

Subversion 1.9の新機能

What’s New in Subversion 1.9 (クリックでリプレイ)と題したWebinarの概要です。

1.9ではクライアント側とサーバー側の両方の強化が行われています。
svn auth, copy, merge,blame, cleanup,infoに新しいオプションが追加されています。1.8のWorking Copyに対する互換を保障しているので、1.9クライアントと1.8を一緒に使うことも可能になります。
Lock(コミット中に他の人がコミットしないようにする)の数が数百を超えるとスケールしないとの問題に対応しています。一つは既にGETで使われているHTTP PipelineのLockへの適用です。クライアント側のみの変更のため、クライアント側を1.9にすることで効果を得られます。多数のLock発生時、サーバー側での余計なデータの書き込みオーバヘッド解消のため、FSFSにMulti Lock機能が追加されています。LockのHock(post-lock, post-unlock)が複数パスで使用できるようになっています。
FSFSは1.9で新しくFormat7になりました。従来、性能向上はキャッシュに頼ってきましたが、リポジトリが大きくなると限界がありました。Format7ではRevisionファイルにLogicalアドレスを使用しディスクアクセスの効率化を図っています。また、今まではチェックサムがリポジトリの全てを対象にしていませんでした、全体を対象にすることになりデータ破壊の検出の精度が向上しています。Pack実行中のコミットがブロックされる期間も大幅に短縮されています。
新バックエンドFSXは性能改善、Packのボトルネック解消を目指して開発中であり、正式なリリースは1.10になる予定。
Server側もリポジトリ、クライアントとの互換は保障しています。

詳細はApacheのサイトを参照ください。

参考:
WANdisco社はSubversion活用の為に必要な総合的なサービスを提供しています。
ご興味あれば、お気軽にご連絡ください(wandisco.japan@wandisco.com)。

Subversion Offer

Subversion Offer

Subversion Offer

avatar

About Kenji Ogawa (小川 研之)

WANdisco社で2013年11月より日本での事業を展開中。
以前は、NECで国産メインフレーム、Unix、ミドルウェアの開発に従事。その後、シリコンバレーのベンチャー企業開拓、パートナーマネージメント、インドでのオフショア開発に従事。

最新版Subversion 1.9 がダウンロード可能に

Subversionの最新版には多くの新機能とバグ修正が含まれています。性能改善、ネットワークリソース有効利用も可能になっています。リポジトリのバックエンドとして長く使われてきたFSFSが新しいもの(FSX)になりました。これによりログ・マージ等が改善されました。
9月15日(日本では16日2:00AM)に下記のWebinarで新機能を紹介します。

“What’s New in Subversion 1.9.” Register
(Replayもあります。上記の“Register”で登録すれば、Replyに関するメールも届きますので、是非、登録ください。Webinar概要については別途、本ブログにアップ予定です)
詳細な説明は以下で参照できます。

http://subversion.apache.org/docs/release-notes/1.9.html
弊社でテスト済のSubversion 1.9のバイナリは以下からダウンロード可能です。

http://www.wandisco.com/subversion/os/downloads

avatar

About Kenji Ogawa (小川 研之)

WANdisco社で2013年11月より日本での事業を展開中。
以前は、NECで国産メインフレーム、Unix、ミドルウェアの開発に従事。その後、シリコンバレーのベンチャー企業開拓、パートナーマネージメント、インドでのオフショア開発に従事。

ビッグデータ時代のストレージ選択

調査会社451と弊社のWebnar:Big Data Storage: Options & Recommendationsのまとめです。Big data storage size

ビッグデータ/Hadoop対応のストレージの需要は(驚くことに)いまだに4%程度。全体の需要の伸びにも追い付いていないのが現状ではあるが、少しずつ変わりつつある。

元々Hadoopは、バッチ処理中心で安価なローカルディスクを使用するのが一般的であった。

しかしながら、リアルタイム処理、解析等々多様なアプリに使われだした為、色々な種類のストレージが使われ始めた。一例としてNetwork Storageを何に使うかを調べたところビッグデータの伸びが一番大きかった。クラウドであろうがオンプレであろうが各種ストレージを適材適所で使用していく事が成功のカギとしている。Stodare hadoop

こうした環境では異なるストレージ間のコネクタ、複製が必要となってくる。一つの解としてWD Fusionが紹介された(WDFusionについては過去のブログを参照ください)

リプレイは下記URL

https://www.brighttalk.com/webcast/11809/153683

ODP(Open Data Platform)とは? Apache v.s. ODP

ODP(Open Data Platform)が今年2月に設立された。スポンサーはHortonworks, Pivotal, IBM, SAS等の19社。OPDは企業向けのHadoopおよびBig Dataを推進する業界共同の努力であるとしている。Hadoopベンダー同士の争いように見え、よく分からないところがあるが、datanamiの”Hadoop’s Next Big Battle: Apache Versus ODP”という記事の解説が興味深いので紹介する。

Apache Software Foundation(AFS)のオープンソースモデルが今日のHadoopの作り上げたこと、このモデルがHadoop強みであることは疑いの余地はない。しかしながら今後の発展をどう進めるかでHadoopコミュニティの中で意見が分かれている。別のガバナンス機関、即ちODPが必要とする意見と不必要とする意見である。

ODPの推進派として弊社CEOの考え方が紹介されている。Hadoopの開発スピードが速すぎて、3rd Partyがついていけない。Name NodeのプラグインによりHadoopのHA・DR対応の製品を出していたが、認証の為の時間・コストが大きすぎる。弊社はこのため上位のプロクシ―で同等の機能を提供するWD Fusionへ切り替え問題は回避したが、ユーザ・3rd Party の為には、APIを一貫性が重要。ODPにこの役目を期待している。技術革新はASFが担いODPは標準化のQAの役割を果たすものであり、開発は行わないとしている。

MapR CEOは反対派の意見としてODPは冗長であり、必要のない課題を解こうとしていると述べている。Hadoopユーザはベンダーロックインの懸念は持っていない。Gartnerの調査でも相互接続、ロックインが問題としているのは1%以下との事。ODPのガバナンスがどうなるのかも不透明。ClouderaのCTOも同意見であり、ODPは昔、OSFがUNIXを分断してしまったのと同じとしている(個人的にはODPはX/Openであるべきと思うが。。。。。)

HadoopがUNIXよりはずっと複雑であり、ユーザにとっても懸念事項である。ASFの中のプロジェクト間、Hadoopディストリビューション間等々でいろんな争うが起きている。DatanamiはODPというスーパー標準がでてきたことでHadoopが2つに分かれてしまうのではないかとの懸念を示している。

新製品WD Fusion発表に関わるCTOのQ&A

弊社CTOのJaganeによるWD FusionのQ&Aを紹介します。

Q1: WANdisco Fusionを簡単にいうと何?

一貫したトランザクションの複製を可能とするエンジンを核にした技術により、異なるタイプのストレージをシームレスに統合する。

ビジネス、ITが直面する数多くの問題に答え、ビックデータイニシアティブから企業が、より多くのものを得られるように設計されている。

何が最もよいかと言えば、全てのデータセンタが同時にアクティブな状態である事。つまりどのセンタに対してでもリード・ライトが可能。この結果、バックアップとかスタンバイ用途で、アイドルになってしまうハードウエアは不要になる。

Q2:どのようなビジネスの問題を解決できるのか?

2つの重要な新しい機能を提供する。一つ目はデータセンタが世界のどこにあろうと複数データセンタ間のデータの一貫性を保障すること。

これにより異なるタイプのストレージを単一Hadoopシステムに統合することが可能となる。WD Fusionを使えば、あるデータセンタではPivotal、他ではHortonworks、さらに別のデータセンタではEMC Isilonを使っていても問題なく、全てを同一に扱える。

Q3:異なるストレージシステム間でデータ複製する必要性は?

答えは簡単。ストレージに詳しい人ならそれぞれのストレージシステムがどんなに違うかを知っている。ストレージシステムはアプリケーションに依存した強みを各々持っている。

しかしながら、データの同期を取ることはとても難しい。Fusionがデータの一貫性を保障して、この問題を解決する。

Q4:それは将来のHadoop展開にどう係わってくるか?

企業のシステム更新手順に於いてFusionは重要な要素になると考える。アプリケーションの稼働を損なうことなく、また更新終了後の大量データのコピーも不要となり、データセンタ毎に、順次、更新することでHadoopインフラ全体を更新することが出来る。

これにより、Hadoopベンダーとアプリケーションベンダーの両方が協調してシステム更改をスムーズに行えるようになる。

Q5:ストレージレベルの複製の方がFusionより効率的では?

ショートアンサーはNO。ストレージレベルではファイルシステムが許容する遅延の限界が問題になってくる。現実的には距離の離れた、例えばWAN環境では使えない。

ストレージレベルではFusionと同様な機能は実現できない。LANレベルでは使えるが本来のWAN環境では使えない。

Fusionを使えば、異なるシステム、例えばNFSとHadoopを統合することもできる。これにより個々のストレージシステムの強みと能力を十二分に引き出すことができる。私自身、こんなエキサイティングで革新的なプロジェクトは初めてだ。

Q6:WD Fusionはどのようにして生まれたのか?

顧客のデータセンタを訪れた時に彼らの直面している課題が分かった。多様なストレージ環境が必要なことに気付くのに長い時間は必要なかった。

顧客は各々のアプリケーションと相性が良い多様なストレージが存在することに気付いていた。さらにそうしたやり方を好んでいた。複数のデータセンタでストレージタイプを一つに統一することは望んでおらず、各々の強みを発揮出来るようにしたいと考えている。

その時点で異なるシステム間でデータの一貫性を保つような製品のアイデアが浮かんだ。その結果がWD Fusion:データの一貫性を保つ完全なトランザクションベースの複製エンジンである。一度、設定すれば、以降、データが矛盾ないかのチェックで悩むことはなくなる。

Hadoop環境での使用効率100%、異なるストレージ環境でのデータ一貫性がこの製品を考え始めた時に思い描いたビジョンである。

Q7:あなたはHadoopの仕事をここ10年している。その目からみてWD Fusionは破壊的な技術になると思うか?

実際には15年以上、ストレージ業界で働いている。共有ストレージシステムを長く携わり、その後Hadoopに関わった。WD Fusionはストレージインフラの使い方に革命を起こす大きな可能性を持っている。正直言ってこんなにエキサイティングなプロジェクトは経験したことがない。

Hadoopエコシステム充実に伴い、異なるストレージを統合する仮想ストレージシステムのニーズが出てくると考えていた。

複数のデータセンタを跨がってHadoopを動かす努力は多くの場合、うまく行っていない。WANdiscoが初めて、複数データセンタのHadoopデータの一貫性保障を可能にした。

これが何故エキサイティングなのかといえば、Hadoopを世界中に散らばったデータセンタ間で使えるものに変えるからだ。Hadoopの創始者が当初は考えていなかったようなことが、突然、実現出来るようになったことになる。Fusionが何故、エキサイティングなのかの理由である。

―――――――――――

WD FusionのDatasheetは以下を参照ください。

Datasheet-WD-Fusion-A4-WEB April2015

SubversionかGitかそれとも両方?

SubversionとGitは最もよく使われている世代管理ソフトであり、OSSプロジェクトでは85%、企業においても約60%が使用しています。Gitを使っている、検討中という話を日本でもよく聞くようになりました。両者の比較、選択の指針、マイグレーションの注意事項等々をWebcastで紹介しています。概要を紹介します。

Subversionは集中型であり、Gitは分散型ですが、Gitにおいても企業ユースでは、Subversion同様、管理されたマスターリポジトリ(Golden Master)を持つことになります。しかしながらGitでは、開発者同士が変更を自由に共有できること、例えば開発者Aさんが自分の変更を開発者Bさんだけに渡す(Push)ことが可能です。例えばAさんがマスターリポジトリにPushする権限を持っていなくともBさんによりAさんの更新がマスターリポジトリ反映されるようなことも起こります。

Gitは自由度が大きいので多様なワークフローを実現できるのでメンタルチェンジが必要という事です。一方、GitHub, GitLab, Gerrit等の管理ツールが充実してきており企業ユースのハードルも下がってきています。SubversionからGitに移行するには一定期間、共存させるのが、お勧めで、ツールも用意されています。Gitを使用する際の注意点は、リポジトリサイズを小さく維持し管理していく事です。

最後に今までのコンサル経験からSubversionかGitかについてコメント。開発者はGitのパワフルな機能に魅かれるが実際に企業内で使いだすと色々な問題に遭遇しているのが現状であり、注意深く進めることが必要です。

詳しくはhttps://www.brighttalk.com/webcast/11815/152641をご覧ください。

(最初の2分程、エコーがかかって聞けませんが肝心なところからは問題ありませんのでちょっと我慢して下さいね)。

 

GitLabのデモは下記のWebcastで見ることができます。

https://www.brighttalk.com/webcast/11817/150559?utm_campaign=communication_viewer_followup&utm_medium=email&utm_source=brighttalk-transact&utm_content=webcast

最後に、Subversion・Git共通のアクセス制御を可能とするAccessControlPlusのデータシートです。

WD-Datasheet-ACplus-A4-Japan-WEB

Hortonworks and WANdisco make it easy to get started with Spark

Hortonworks, one of our partners in the Open Data Platform Initiative, recently released version 2.2.4 of the Hortonworks Data Platform (HDP).  It bundles Apache Spark 1.2.1.  That’s a clear indicator (if we needed another one) that Spark has entered the Hadoop mainstream.  Are you ready for it?

Spark opens up a new realm of use cases for Hadoop since it offers very fast in-memory data processing.  Spark has blown through several Hadoop benchmarks and offers a unified batch, SQL, and streaming framework.

But Spark presents new challenges for Hadoop infrastructure architects.  It favors memory and CPU with a smaller number of drives than a typical Hadoop data node.  The art of monitoring and tuning Spark is still in early days.

Hortonworks is addressing many of these challenges by including Spark in HDP 2.2.4 and integrating it into Ambari.  And now WANdisco is making it even easier to get started with Spark by giving you the flexibility to deploy Spark into a separate cluster while still using your production data.

WANdisco Fusion uses active-active data replication to make the same Hadoop data available and usable consistently from several Hadoop clusters.  That means you can run Spark against your production data, but isolate it on a separate cluster (perhaps in the cloud) while you get up to speed on hardware sizing and performance monitoring.  You can continue to run Spark this way indefinitely in order to isolate any potential performance impact, or eventually migrate Spark to your main cluster.

Shared data but separate compute resources gives you the extra flexibility you need to rapidly deploy new Hadoop technologies like Spark without impacting critical applications on your main cluster.  Hortonworks and WANdisco make it easy to get started with Spark.  Get in touch with our solution architects today to get started.

 

 

Improving HBase Scalability for Real-time Applications

When we introduced Non-Stop for Apache HBase, we explained how it would improve HBase reliability for critical applications.  But Non-Stop for Apache HBase also uniquely improves HBase scalability and performance.

By making multiple active-active region servers, Non-Stop for Apache HBase alleviates some common HBase performance woes.  First, clients are load balanced between several region servers for any particular region.  By spreading the load among several region servers, the impact of problems like region ‘hot spots’ is alleviated.

architecture-nshbase-wan

So far so good, but you might be thinking that you could get the same benefit by using HBase read-HA.  However, HBase read-HA is limited to read operations in a single data center.  Non-Stop for Apache HBase lets you put region servers in several data centers, and any of them can handle write operations.  That gives you a few nice benefits:

  • Writes can be directed to any region server, reducing the chance that a single region server becomes a bottleneck due to hot spots or garbage collection.
  • Applications at other data centers now have fast access to a ‘local’ region server.

Although the HBase community continues to try to improve HBase performance, there are some bottlenecks that just can’t be eliminated without active-active replication.  No other solution lets you use several active region servers per region, and put those region servers at any location without regard to WAN latency.

If you’ve ever struggled with HBase performance, you should give Non-Stop for Apache HBase a close look.

WANdisco Fusion: A Bridge Between Clusters, Distributions, and Storage Systems

The vision of the data lake is admirable: collect all your valuable business data in one repository. Make it available for analysis and generate actionable data fast enough to improve your strategic and tactical business decisions.

Translated to Hadoop language, that implies putting all the data in a single large Hadoop cluster. That gives you the analysis advantages of the data lake while leveraging Hadoop’s low storage costs. And indeed, a recent survey found that 61% of Big Data analytics projects have shifted some EDW workload to Hadoop.

But in reality, it’s not that simple. 35% of those involved in Big Data projects are worried about maintaining performance as the data volume and work load increase. 44% are concerned about lack of enterprise-grade backup. Those concerns argue against concentrating ever more data into one cluster.

And meanwhile, 70% of the companies in that survey have multiple clusters in use. Small clusters that started as department-level pilots become production clusters. Security or cost concerns may dictate the use of multiple clusters for different groups. Upgrades to new Hadoop distributions to take advantage of new components (or abandon old ones) can be a difficult migration process. Whatever the reason, the reality of Hadoop deployments is more complicated than you’d think.

As for making multiple clusters play well together… well, the fragility of the tools like DistCP brings back memories of those complicated ETL processes that we wanted to leave behind us.

So are we doomed to an environment of data silos? Isn’t that what we were trying to avoid?

blog-graphics-concerns

There is a better way. In the next post I’ll introduce WANdisco Fusion, the only Hadoop-compatible file system that quickly and easily shares data across clusters, distributions, and file systems.

Survey source: Wikibon